このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240229となっている論文です。

PDF登録状況(公開日: 20240229)

TitleAuthorsAbstract論文公表日・翻訳日
# UAVとインターネット・オブ・ドローン(FANET)のサイバーセキュリティ問題とブロックチェーン・ディープ・ラーニングに基づくソリューション

Cyber Security issues and Blockchain-Deep Learning based solutions for UAV and Internet of Drones (FANETs) ( http://arxiv.org/abs/2404.16848v1 )

ライセンス: Link先を確認
Partha Protim Datta, (参考訳) 自動組込みシステムや産業システムのような安全クリティカルなシステムは、データ収集の信頼性に強く依存している。 センサーはこれらのシステムにとって重要な要素であるため、センサーの攻撃耐性に対処することが不可欠である

Safety-critical systems such as automated embedded or industrial systems have a strong dependency on the trustworthiness of data collection. As sensors are the critical component for those systems, it is imperative to address the attack resilience of sensors
翻訳日:2024-07-01 11:39:16 公開日:2024-02-29
# SegNet: ドローンのワイルドファイア検出のための分割型ディープラーニングベースの畳み込みニューラルネットワークアプローチ

SegNet: A Segmented Deep Learning based Convolutional Neural Network Approach for Drones Wildfire Detection ( http://arxiv.org/abs/2405.00031v1 )

ライセンス: Link先を確認
Aditya V. Jonnalagadda, Hashim A. Hashim, (参考訳) 本研究は,データセットが限られているにもかかわらず,無人航空機(UAV)/ドローンによる地球規模の山火事検出における処理時間と検出能力の向上という課題に対処するものである。 セグメンテッドニューラルネットワーク(SegNet)の選択手法を提案することで、リアルタイムの山火事検出における処理速度と精度を大幅に向上させるとともに、時間分解能と精度の両方を向上させる機能マップの削減に注力する。 本研究は,火災,水,煙などの非晶質物体の画像分類のための新しい方向を提案することにより,山火事のリアルタイム検出能力の向上,山火事の検出精度の向上,早期山火事の検出能力の向上に寄与する。 画像分類に畳み込みニューラルネットワーク(CNN)を使用し、ディープラーニングプロセス、特に火災検知のためのライブフィードデータにおいて、非関連機能の削減を強調している。 火災検知におけるライブフィードデータの複雑さの中で,本研究では,リアルタイム処理の緊急性を強調した。 提案アルゴリズムは,オブジェクトや色,テクスチャといった多様な特徴から生じる課題に対処するため,セグメンテーションを通じて機能のオーバーロードと戦う。 特に、特徴マップのサイズとデータセットの妥当性の微妙なバランスが重要である。 いくつかの研究論文では、より小さな画像サイズを使用し、新しいアプローチを必要とする特徴豊かさを妥協している。 我々は,特に早期の山火事検出において,重要な詳細を維持する上で,画素密度が重要な役割を担っていることを明らかにした。 トレーニング中のフィルタ数を慎重に選択することで、適切な特徴選択のための高ピクセル密度の重要性を強調した。 提案したSegNetアプローチは、ドローン飛行によって得られた実世界のデータセットを用いて、最先端の文献と比較して厳密に評価されている。

This research addresses the pressing challenge of enhancing processing times and detection capabilities in Unmanned Aerial Vehicle (UAV)/drone imagery for global wildfire detection, despite limited datasets. Proposing a Segmented Neural Network (SegNet) selection approach, we focus on reducing feature maps to boost both time resolution and accuracy significantly advancing processing speeds and accuracy in real-time wildfire detection. This paper contributes to increased processing speeds enabling real-time detection capabilities for wildfire, increased detection accuracy of wildfire, and improved detection capabilities of early wildfire, through proposing a new direction for image classification of amorphous objects like fire, water, smoke, etc. Employing Convolutional Neural Networks (CNNs) for image classification, emphasizing on the reduction of irrelevant features vital for deep learning processes, especially in live feed data for fire detection. Amidst the complexity of live feed data in fire detection, our study emphasizes on image feed, highlighting the urgency to enhance real-time processing. Our proposed algorithm combats feature overload through segmentation, addressing challenges arising from diverse features like objects, colors, and textures. Notably, a delicate balance of feature map size and dataset adequacy is pivotal. Several research papers use smaller image sizes, compromising feature richness which necessitating a new approach. We illuminate the critical role of pixel density in retaining essential details, especially for early wildfire detection. By carefully selecting number of filters during training, we underscore the significance of higher pixel density for proper feature selection. The proposed SegNet approach is rigorously evaluated using real-world dataset obtained by a drone flight and compared to state-of-the-art literature.
翻訳日:2024-07-01 11:29:30 公開日:2024-02-29
# 説明可能な自己組織化人工知能は、人間のインパクトデータと関連した景観変化をキャプチャする

Explainable Self-Organizing Artificial Intelligence Captures Landscape Changes Correlated with Human Impact Data ( http://arxiv.org/abs/2405.09547v1 )

ライセンス: Link先を確認
John M. Wandeto, Birgitta Dresp-Langley, (参考訳) 景観変化, 人口動態, 持続可能な開発の間の複雑な相互作用の理解を深めるためには, 新たな分析方法が必要である。 自己組織型機械学習は、人間の専門家が見ることができないかもしれない視覚データの解析において、非常に成功している。 したがって、自然や都市景観の傾向の変化に関連する画像の微妙だが重要な視覚的詳細の変化は、発見されていないままである。 経年変化は、測定可能な人間の影響の原因または結果である可能性がある。 このような変化をできるだけ早く捉えれば、市民、専門家、政策立案者に重要な情報を容易に利用できるようになる。 これは変化の認識を促進し、行動の早期決定を促進する。 ここでは、画像時系列の分析に自己組織化された生物学的視覚学習の原理を利用する、教師なし人工知能(AI)を用いる。 自己組織化マップのプロトタイプの出力における量子化誤差は、変動性と変化の計算量として利用される。 画像画素カラーの強度と極性に対するこのニューラルネットワークメトリックの実証された感度を考えると、都市景観における重要な変化を捉えることができる。 これは、ネバダ州ラスベガス郡にある2つの地理的関心領域のイメージングデータに基づいて達成される。 SOM分析は、人間の影響を明らかにする人口統計データの統計分析と組み合わせられる。 これらの傾向は,興味のある領域の数値データの構造変化傾向と大きく相関している。 人間の活動の影響に関するデータと構造進化を示す数値データとを関連付けることにより、人間の足跡に関連する環境変化を予測可能とする。

Novel methods of analysis are needed to help advance our understanding of the intricate interplay between landscape changes, population dynamics, and sustainable development. Self organized machine learning has been highly successful in the analysis of visual data the human expert eye may not be able to see. Thus, subtle but significant changes in fine visual detail in images relating to trending alterations in natural or urban landscapes may remain undetected. In the course of time, such changes may be the cause or the consequence of measurable human impact. Capturing such change in imaging data as early as possible can make critical information readily available to citizens, professionals and policymakers. This promotes change awareness, and facilitates early decision making for action. Here, we use unsupervised Artificial Intelligence (AI) that exploits principles of self-organized biological visual learning for the analysis of imaging time series. The quantization error in the output of a Self Organizing Map prototype is exploited as a computational metric of variability and change. Given the proven sensitivity of this neural network metric to the intensity and polarity of image pixel colour, it is shown to capture critical changes in urban landscapes. This is achieved here on imaging data for two regions of geographic interest in Las Vegas County, Nevada, USA. The SOM analysis is combined with the statistical analysis of demographic data revealing human impacts. These latter are significantly correlated with the structural change trends in the numerical data for the specific regions of interest. By correlating data relative to the impact of human activities with numerical data indicating structural evolution, human footprint related environmental changes can be predictably scaled.
翻訳日:2024-07-01 08:49:26 公開日:2024-02-29
# 大規模言語モデルによる学習者パフォーマンスのモデル化

Towards Modeling Learner Performance with Large Language Models ( http://arxiv.org/abs/2403.14661v1 )

ライセンス: Link先を確認
Seyed Parsa Neshaei, Richard Lee Davis, Adam Hazimeh, Bojan Lazarevski, Pierre Dillenbourg, Tanja Käser, (参考訳) 近年,事前学習型大規模言語モデル(LLM)の能力を探究する研究は,時系列予測やロボット制御など,幅広いタスクを表す複雑なトークンシーケンスを完了させることで,汎用的なパターンマシンとして機能する能力を示した。 本稿では,LLMのパターン認識とシーケンスモデリング能力が,学習者のパフォーマンスを時間とともに予測することで教育経験をカスタマイズする知的学習システム(ITS)の開発において重要な要素である知識追跡の領域にまで拡張できるかどうかを検討する。 複数の実世界のデータセットを対象とした実証的な評価では、ゼロショットプロンプトとモデル微調整の2つのアプローチと、既存の非LLMアプローチの知識追跡の比較を行った。 LLMベースのアプローチは最先端のパフォーマンスを達成できないが、細調整されたLLMは素早いベースラインモデルの性能を超越し、複数のメトリクスにわたって標準的なベイズ的知識追跡手法と同等に機能する。 これらの結果から,LLMのパターン認識能力は複雑な学習軌跡をモデル化し,LLMを教育的文脈に適用するための新たな道を開くことが示唆された。 本稿は,これらの知見が今後の研究にもたらす意味について論じ,LLMの予測機構のさらなる改良とより深い理解が,知識追跡タスクの性能向上につながることを示唆する。

Recent work exploring the capabilities of pre-trained large language models (LLMs) has demonstrated their ability to act as general pattern machines by completing complex token sequences representing a wide array of tasks, including time-series prediction and robot control. This paper investigates whether the pattern recognition and sequence modeling capabilities of LLMs can be extended to the domain of knowledge tracing, a critical component in the development of intelligent tutoring systems (ITSs) that tailor educational experiences by predicting learner performance over time. In an empirical evaluation across multiple real-world datasets, we compare two approaches to using LLMs for this task, zero-shot prompting and model fine-tuning, with existing, non-LLM approaches to knowledge tracing. While LLM-based approaches do not achieve state-of-the-art performance, fine-tuned LLMs surpass the performance of naive baseline models and perform on par with standard Bayesian Knowledge Tracing approaches across multiple metrics. These findings suggest that the pattern recognition capabilities of LLMs can be used to model complex learning trajectories, opening a novel avenue for applying LLMs to educational contexts. The paper concludes with a discussion of the implications of these findings for future research, suggesting that further refinements and a deeper understanding of LLMs' predictive mechanisms could lead to enhanced performance in knowledge tracing tasks.
翻訳日:2024-04-01 03:43:10 公開日:2024-02-29
# アフリカにおけるAI政策開発の事例研究

Case Studies of AI Policy Development in Africa ( http://arxiv.org/abs/2403.14662v1 )

ライセンス: Link先を確認
Kadijatou Diallo, Jonathan Smith, Chinasa T. Okolo, Dorcas Nyamwaya, Jonas Kgomo, Richard Ngamita, (参考訳) 人工知能(AI)は、アフリカ諸国の国家技術利用と戦略を評価する新しい方法を必要とする。 我々は、一般的なデジタル採用とAIポリシーの両方について、既存の「準備」評価を調査する。 我々は、既存のグローバルな準備性評価は、AIの準備性におけるアフリカの国家の進歩を完全には捉えていないと結論付け、アフリカの文脈でアセスメントがいかにうまく使えるかの基礎を築いた。 我々は、これらの指標がアフリカの状況にどのように対応しているか、そしてこれらの指標が、AI能力を満たすためのアフリカの国家の現場での作業を捉えるのにどんな損失があるかを考察する。 多様な地理的・経済的次元を持つ4つのアフリカの国々のケーススタディを通じて、グローバルアセスメントによって見逃されたニュアンスを特定し、国家がAIの即応性基準を最大限に改善し、社会にAIの恩恵を捉えられるようにするための高レベルの政策考察を提供する。

Artificial Intelligence (AI) requires new ways of evaluating national technology use and strategy for African nations. We conduct a survey of existing 'readiness' assessments both for general digital adoption and for AI policy in particular. We conclude that existing global readiness assessments do not fully capture African states' progress in AI readiness and lay the groundwork for how assessments can be better used for the African context. We consider the extent to which these indicators map to the African context and what these indicators miss in capturing African states' on-the-ground work in meeting AI capability. Through case studies of four African nations of diverse geographic and economic dimensions, we identify nuances missed by global assessments and offer high-level policy considerations for how states can best improve their AI readiness standards and prepare their societies to capture the benefits of AI.
翻訳日:2024-04-01 03:43:10 公開日:2024-02-29
# X-AMRアノテーションツール

X-AMR Annotation Tool ( http://arxiv.org/abs/2403.15407v1 )

ライセンス: Link先を確認
Shafiuddin Rehan Ahmed, Jon Z. Cai, Martha Palmer, James H. Martin, (参考訳) 本稿では、キーコーパスレベルのイベントセマンティクスに注釈を付けるために設計された、新しいクロスドキュメント抽象的意味表現(X-AMR)アノテーションツールを提案する。 Prodigy Annotation Toolを通じてマシンアシストを活用することで、ユーザエクスペリエンスを高め、アノテーションプロセスの容易性と効率性を確保します。 経験的分析を通じて,既存のイベントコーパスの強化におけるツールの有効性を実証し,GPT-4と統合した場合の利点を強調した。 コードとアノテーション:https://github.com/ahmeshaf/gpt_coref

This paper presents a novel Cross-document Abstract Meaning Representation (X-AMR) annotation tool designed for annotating key corpus-level event semantics. Leveraging machine assistance through the Prodigy Annotation Tool, we enhance the user experience, ensuring ease and efficiency in the annotation process. Through empirical analyses, we demonstrate the effectiveness of our tool in augmenting an existing event corpus, highlighting its advantages when integrated with GPT-4. Code and annotations: https://github.com/ahmeshaf/gpt_coref
翻訳日:2024-04-01 03:04:05 公開日:2024-02-29
# イタリアにおける高校生の背景から大学入学選択を予測する機械学習手法

A machine learning approach to predict university enrolment choices through students' high school background in Italy ( http://arxiv.org/abs/2403.13819v1 )

ライセンス: Link先を確認
Andrea Priulla, Alessandro Albano, Nicoletta D'Angelo, Massimo Attanasio, (参考訳) 本稿では,STEM(Science, Technology, Engineering, and Mathematics)科目を中心に,イタリアの高校生の数学とイタリア語の習熟度が大学入学選択に及ぼす影響について検討する。 我々は、高校生の科学的背景と人文主義的背景を区別し、エンローメントの好みに関する貴重な洞察を提供する。 さらに,従来と類似した教育的選択や達成度に反応する性別差について検討した。 この研究は、データ内の非線形関係を捕捉する高い予測性能と能力で知られ、学生の社会デミノグラフィー特性と過去の教育的成果に関連する変数を調整している。 分析の結果,過去の高校成績に基くエンロメント選択に有意な差異が認められた。 この結果は,大学教育に関する学生の選択を形作り,教育政策や今後の研究課題に影響を及ぼすという,学術的熟練度,性別,高校の背景の複雑な相互作用を浮き彫りにした。

This paper explores the influence of Italian high school students' proficiency in mathematics and the Italian language on their university enrolment choices, specifically focusing on STEM (Science, Technology, Engineering, and Mathematics) courses. We distinguish between students from scientific and humanistic backgrounds in high school, providing valuable insights into their enrolment preferences. Furthermore, we investigate potential gender differences in response to similar previous educational choices and achievements. The study employs gradient boosting methodology, known for its high predicting performance and ability to capture non-linear relationships within data, and adjusts for variables related to the socio-demographic characteristics of the students and their previous educational achievements. Our analysis reveals significant differences in the enrolment choices based on previous high school achievements. The findings shed light on the complex interplay of academic proficiency, gender, and high school background in shaping students' choices regarding university education, with implications for educational policy and future research endeavours.
翻訳日:2024-03-25 07:17:26 公開日:2024-02-29
# 準最適微分プライベートkコア分解

Near-Optimal Differentially Private k-Core Decomposition ( http://arxiv.org/abs/2312.07706v2 )

ライセンス: Link先を確認
Laxman Dhulipala, George Z. Li, Quanquan C. Liu, (参考訳) Dhulipala et al \cite{DLRSSY22} による最近の研究は、低ラウンド/ディープス分散/並列グラフアルゴリズムと小さなエラー境界を持つプライベートアルゴリズムとの接続を通じて、差分プライバシー下での$k$-core分解問題の研究を開始した。 彼らは、差分的にプライベートな$k$-core数値を出力できるが、乗法誤差は$(2 +\eta)$(任意の定数$\eta > 0$)と加法誤差は$\poly(\log(n))/\eps$だけであることを示した。 本稿では,この問題を再考する。 我々の主な結果は、$k$-core分解のための$\eps$-edge差分秘密アルゴリズムであり、乗法誤差のないコア番号と$O(\text{log}(n)/\eps)$加法誤差を出力する。 これは乗法誤差における2の因子による以前の作業を改善すると同時に、ほぼ最適加法誤差を与える。 この結果は、特に閾値グラフアルゴリズムに適したスパースベクトル手法の新たな一般化形式に依存しており、分散/並列グラフアルゴリズムと微分プライベートアルゴリズムとの接続をさらに強化する。

Recent work by Dhulipala et al. \cite{DLRSSY22} initiated the study of the $k$-core decomposition problem under differential privacy via a connection between low round/depth distributed/parallel graph algorithms and private algorithms with small error bounds. They showed that one can output differentially private approximate $k$-core numbers, while only incurring a multiplicative error of $(2 +\eta)$ (for any constant $\eta >0$) and additive error of $\poly(\log(n))/\eps$. In this paper, we revisit this problem. Our main result is an $\eps$-edge differentially private algorithm for $k$-core decomposition which outputs the core numbers with no multiplicative error and $O(\text{log}(n)/\eps)$ additive error. This improves upon previous work by a factor of 2 in the multiplicative error, while giving near-optimal additive error. Our result relies on a novel generalized form of the sparse vector technique, which is especially well-suited for threshold-based graph algorithms; thus, we further strengthen the connection between distributed/parallel graph algorithms and differentially private algorithms.
翻訳日:2024-03-18 12:26:52 公開日:2024-02-29
# 重み付きモデル計数によるタイトプライバシと精度境界の合成

Synthesizing Tight Privacy and Accuracy Bounds via Weighted Model Counting ( http://arxiv.org/abs/2402.16982v2 )

ライセンス: Link先を確認
Lisa Oakley, Steven Holtzen, Alina Oprea, (参考訳) プログラムによって厳密な差分プライバシー(DP)境界を生成することは難しい問題である。 2つの主要な課題は、(1)DPアルゴリズムの分布の表現的、コンパクトで効率的な符号化を見つけること、(2)DP定義の多重量子化器と関係性から生じる状態空間の爆発である。 本稿では,二項決定図に基づく重み付きモデルカウントを用いた厳密なプライバシと精度境界合成法,人工知能による最先端技術,確率分布を正確に計算するための自動推論コミュニティを開発することで,最初の課題に対処する。 DPアルゴリズムに固有の対称性を活用するためのフレームワークを開発することで,この2つの課題に対処する。 我々のソリューションは、確率的プログラミング言語の研究の恩恵を受けており、非専門家が利用できる親しみやすい言語構文を用いて、様々なDPアルゴリズムを簡潔かつ表現的に表現することができる。 本稿では,バイナリランダム化応答アルゴリズムにおける解の詳細なケーススタディを提案する。 また,Dice確率型プログラミング言語を用いて,乱数化応答と乱数化した幾何学的しきい値アルゴリズムの実装も検討した。 マルコフ連鎖確率モデル検査を用いたDPの正確な検証に関する先行研究との比較を行った。 DPアルゴリズムの精度保証を機械化して解析する研究はほとんどない。 また,DPアルゴリズムの厳密な精度境界を求めるために,本手法を用いた詳細な解析を行った。

Programmatically generating tight differential privacy (DP) bounds is a hard problem. Two core challenges are (1) finding expressive, compact, and efficient encodings of the distributions of DP algorithms, and (2) state space explosion stemming from the multiple quantifiers and relational properties of the DP definition. We address the first challenge by developing a method for tight privacy and accuracy bound synthesis using weighted model counting on binary decision diagrams, a state of the art technique from the artificial intelligence and automated reasoning communities for exactly computing probability distributions. We address the second challenge by developing a framework for leveraging inherent symmetries in DP algorithms. Our solution benefits from ongoing research in probabilistic programming languages, allowing us to succinctly and expressively represent different DP algorithms with approachable language syntax that can be used by non-experts. We provide a detailed case study of our solution on the binary randomized response algorithm. We also evaluate an implementation of our solution using the Dice probabilistic programming language for the randomized response and truncated geometric above threshold algorithms. We compare to prior work on exact DP verification using Markov chain probabilistic model checking. Very few existing works consider mechanized analysis of accuracy guarantees for DP algorithms. We additionally provide a detailed analysis using our technique for finding tight accuracy bounds for DP algorithms.
翻訳日:2024-03-18 07:09:00 公開日:2024-02-29
# LLMのセキュリティ評価における高度な手法の探求

Exploring Advanced Methodologies in Security Evaluation for LLMs ( http://arxiv.org/abs/2402.17970v2 )

ライセンス: Link先を確認
Jun Huang, Jiawei Zhang, Qi Wang, Weihong Han, Yanchun Zhang, (参考訳) 大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。 複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。 さらに、特定のタスクのために微調整することもできる。 この汎用性は、多くの商業化された大型モデルの普及と広範囲な使用につながった。 しかし、LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。 これは、開発およびデプロイメント中のセキュリティ評価に関する継続的な研究の必要性を強調している。 過去数年間、大規模なモデルのセキュリティ評価にかなりの研究が費やされてきた。 本稿では、この分野での最近の進歩を詳細に概観し、一般的に使われている評価指標、高度な評価フレームワーク、およびLCMのルーチン評価プロセスの総合的な分析を行う。 また,LLMのセキュリティ評価を進めるための今後の方向性についても論じる。

Large Language Models (LLMs) represent an advanced evolution of earlier, simpler language models. They boast enhanced abilities to handle complex language patterns and generate coherent text, images, audios, and videos. Furthermore, they can be fine-tuned for specific tasks. This versatility has led to the proliferation and extensive use of numerous commercialized large models. However, the rapid expansion of LLMs has raised security and ethical concerns within the academic community. This emphasizes the need for ongoing research into security evaluation during their development and deployment. Over the past few years, a substantial body of research has been dedicated to the security evaluation of large-scale models. This article an in-depth review of the most recent advancements in this field, providing a comprehensive analysis of commonly used evaluation metrics, advanced evaluation frameworks, and the routine evaluation processes for LLMs. Furthermore, we also discuss the future directions for advancing the security evaluation of LLMs.
翻訳日:2024-03-18 06:59:15 公開日:2024-02-29
# 米CoMeT:ローハマーを低コストで緩和へ-ミニスケッチベース

CoMeT: Count-Min-Sketch-based Row Tracking to Mitigate RowHammer at Low Cost ( http://arxiv.org/abs/2402.18769v1 )

ライセンス: Link先を確認
F. Nisa Bostanci, Ismail Emir Yuksel, Ataberk Olgun, Konstantinos Kanellopoulos, Yahya Can Tugrul, A. Giray Yaglikci, Mohammad Sadrosadati, Onur Mutlu, (参考訳) 本稿では,RowHammerのビットフリップの低面積,性能,エネルギーコストを極めて低いRowHammerしきい値で抑制する新しいRowHammer緩和機構であるCoMeTを提案する。 CoMeTのキーとなるアイデアは、低コストでスケーラブルなハッシュベースのカウンタを使用してDRAM行のアクティベーションを追跡することである。 CoMeTはCount-Min Sketch技術を用いて、複数のハッシュ関数を使用して、各DRAM行をカウンタのグループに可能な限り一意にマッピングする。 DRAM行が起動されると、CoMeTはそのDRAM行にマップされたカウンタを増分する。 DRAM行からカウンタへのマッピングは完全にユニークではないため、ひとつの行をアクティベートすることで、1つ以上のカウンタを別の行にマップすることができる。 したがって、CoMeTは過大評価されるが、DRAM行のアクティベーションカウントを過小評価することはない。 CoMeTのこの特性により、RowHammerのビットフリップを確実に防止し、ハッシュ関数を適切に設定することで過大評価を減らすことができる。 その結果、CoMeT 1) DRAMバンクのDRAM行数よりもはるかに少ないカウンタを実装する。 2) DRAM行のアクティベーション数を著しく過大評価しない。 包括的評価の結果,CoMeTは,RowHammerを緩和しないシステムに正規化された非常に低いRowHammerしきい値において,61の良質なシングルコアワークロードに対して平均4.01%のパフォーマンスオーバーヘッドでRowHammerのビットフリップを防止することができた。 CoMeTは、パフォーマンス、エネルギ、および領域オーバーヘッドの間の良いトレードオフを達成する。 CoMeTは最も性能の良い最先端の緩和と比較して、RowHammer閾値125において74.2倍の領域オーバーヘッドを必要とし、RowHammerしきい値のすべてに対して平均して小さなパフォーマンスオーバーヘッドを発生させる。 最高性能の低面積の機構と比較すると、125のRowHammerしきい値は非常に低く、CoMeTは、類似の領域オーバーヘッドを発生させながら、最大39.1%の性能向上を実現している。 CoMeTはhttps://github.com/CMU-SAFARI/CoMeTで公開されている。

We propose a new RowHammer mitigation mechanism, CoMeT, that prevents RowHammer bitflips with low area, performance, and energy costs in DRAM-based systems at very low RowHammer thresholds. The key idea of CoMeT is to use low-cost and scalable hash-based counters to track DRAM row activations. CoMeT uses the Count-Min Sketch technique that maps each DRAM row to a group of counters, as uniquely as possible, using multiple hash functions. When a DRAM row is activated, CoMeT increments the counters mapped to that DRAM row. Because the mapping from DRAM rows to counters is not completely unique, activating one row can increment one or more counters mapped to another row. Thus, CoMeT may overestimate, but never underestimates, a DRAM row's activation count. This property of CoMeT allows it to securely prevent RowHammer bitflips while properly configuring its hash functions reduces overestimations. As a result, CoMeT 1) implements substantially fewer counters than the number of DRAM rows in a DRAM bank and 2) does not significantly overestimate a DRAM row's activation count. Our comprehensive evaluations show that CoMeT prevents RowHammer bitflips with an average performance overhead of only 4.01% across 61 benign single-core workloads for a very low RowHammer threshold of 125, normalized to a system with no RowHammer mitigation. CoMeT achieves a good trade-off between performance, energy, and area overheads. Compared to the best-performing state-of-the-art mitigation, CoMeT requires 74.2x less area overhead at the RowHammer threshold 125 and incurs a small performance overhead on average for all RowHammer thresholds. Compared to the best-performing low-area-cost mechanism, at a very low RowHammer threshold of 125, CoMeT improves performance by up to 39.1% while incurring a similar area overhead. CoMeT is openly and freely available at https://github.com/CMU-SAFARI/CoMeT.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-29
# 常に事前学習:GNNを用いたネットワーク侵入検出のための表現学習

Always be Pre-Training: Representation Learning for Network Intrusion Detection with GNNs ( http://arxiv.org/abs/2402.18986v1 )

ライセンス: Link先を確認
Zhengyao Gu, Diego Troy Lopez, Lilas Alrahis, Ozgur Sinanoglu, (参考訳) グラフニューラルネットワークに基づくネットワーク侵入検知システムは、最近、ベンチマークデータセットで最先端のパフォーマンスを実証した。 それにもかかわらず、これらの手法はデータ前処理のターゲットエンコーディングに依存しており、アノテートされたラベルの必要性によって広く採用されるのを制限している。 そこで本研究では,ラベル依存度制限を克服するために,文脈内事前学習とカテゴリ的特徴に対する高密度表現の利用を含むソリューションを提案する。 提案手法は,NF-UQ-NIDS-V2データセット上で4%未満のラベル付きデータを用いて,教師付き最先端技術の性能の98%以上を達成している。

Graph neural network-based network intrusion detection systems have recently demonstrated state-of-the-art performance on benchmark datasets. Nevertheless, these methods suffer from a reliance on target encoding for data pre-processing, limiting widespread adoption due to the associated need for annotated labels--a cost-prohibitive requirement. In this work, we propose a solution involving in-context pre-training and the utilization of dense representations for categorical features to jointly overcome the label-dependency limitation. Our approach exhibits remarkable data efficiency, achieving over 98% of the performance of the supervised state-of-the-art with less than 4% labeled data on the NF-UQ-NIDS-V2 dataset.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-29
# Ruledger: Trigger-Action IoTプラットフォームにおける実行整合性を保証する

Ruledger: Ensuring Execution Integrity in Trigger-Action IoT Platforms ( http://arxiv.org/abs/2402.19011v1 )

ライセンス: Link先を確認
Jingwen Fan, Yi He, Bo Tang, Qi Li, Ravi Sandhu, (参考訳) スマートホームIoTシステムは、例えばIFTTTのようなトリガーアクションプラットフォームを使用して、さまざまなベンダのデバイスを管理する。 しかし、それらは、偽造されたIoTデバイスで悪意あるルール実行をトリガーしたり、実行の完全性やユーザの意図に反するイベントを発生させることで悪用される可能性がある。 この問題に対処するため、私たちは、対応する情報の信頼性を検証することによって、ルールの正しい実行を保証する、ルールドガーと呼ばれる台帳ベースのIoTプラットフォームを提案する。 Ruledgerはスマートコントラクトを使用して、ルール実行に関連する情報、例えば、ユーザからのユーザと設定情報、デバイスイベント、トリガーアクションプラットフォームでのトリガに関する情報の検証を実施する。 特に,ルールドガーの台帳ウォールベースのアプリケーションを実現するための3つのアルゴリズムを開発し,検証に使用するレコードがステートフルで正しいことを保証した。 したがって、スマートホームシステムのデバイスやプラットフォームが侵害された場合でも、ルールの実行の整合性が保証される。 Ruledgerを実際のIoTプラットフォームであるIFTTTでプロトタイプし、さまざまな設定でパフォーマンスを評価します。 実験の結果は、スマートホームシステムでは許容できる平均12.53%の遅延が生じることを示した。

Smart home IoT systems utilize trigger-action platforms, e.g., IFTTT, to manage devices from various vendors. However, they may be abused by triggering malicious rule execution with forged IoT devices or events violating the execution integrity and the intentions of the users. To address this issue, we propose a ledger based IoT platform called Ruledger, which ensures the correct execution of rules by verifying the authenticity of the corresponding information. Ruledger utilizes smart contracts to enforce verifying the information associated with rule executions, e.g., the user and configuration information from users, device events, and triggers in the trigger-action platforms. In particular, we develop three algorithms to enable ledger-wallet based applications for Ruledger and guarantee that the records used for verification are stateful and correct. Thus, the execution integrity of rules is ensured even if devices and platforms in the smart home systems are compromised. We prototype Ruledger in a real IoT platform, i.e., IFTTT, and evaluate the performance with various settings. The experimental results demonstrate Ruledger incurs an average of 12.53% delay, which is acceptable for smart home systems.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-29
# Rahmani Sort: O(nlogn)複素性を持つ挿入ソートアルゴリズムの新しいバリアント

Rahmani Sort: A Novel Variant of Insertion Sort Algorithm with O(nlogn) Complexity ( http://arxiv.org/abs/2402.19107v1 )

ライセンス: Link先を確認
Mohammad Khalid Imam Rahmani, (参考訳) データマイニング(Data Mining)とデータウェアハウス(Data Warehousing)技術を実装して,データ海に飛び込み,有用な知識パターン(真珠)を取得する,さまざまな意思決定支援システムが提供されている。 分類、回帰、クラスタリング、その他多くのアルゴリズムは、決定プロセスの精度と精度を高めるために使用される。 したがって、特にミッションクリティカルなオペレーションにおいて、意思決定プロセスのレスポンス時間を増やすためのスコープがあります。 データが適切かつ効率的なソート操作で順序付けされる場合、決定プロセスの応答時間を最小化することができる。 挿入ソートは、単純で直線的な論理と、リストの実装に適した動的な性質により、そのようなアプリケーションにずっと適している。 しかし、マージやクイックソートよりも遅い。 第一に、次のキー要素の実際の位置をソートした左サブアレイに見つけるためにシーケンシャルサーチを使用し、第二に、新しく挿入された要素を収容するために、一方の位置に要素を移動させる必要がある。 そこで本稿では,従来の挿入ソートアルゴリズムよりも高速な左サブアレイへの次のキー項目のソート位置を見つけるために,二進探索機構の新たな手法を用いて新しいアルゴリズムを提案する。 新しいアルゴリズムの実際の実行時間における性能測定は,挿入ソートとは別に従来のソートアルゴリズムと比較されている。 その結果,従来の挿入ソートアルゴリズムやマージソートアルゴリズムよりも,新しいアルゴリズムの方が優れた性能を示した。

Various decision support systems are available that implement Data Mining and Data Warehousing techniques for diving into the sea of data for getting useful patterns of knowledge (pearls). Classification, regression, clustering, and many other algorithms are used to enhance the precision and accuracy of the decision process. So, there is scope for increasing the response time of the decision process, especially in mission-critical operations. If data are ordered with suitable and efficient sorting operation, the response time of the decision process can be minimized. Insertion sort is much more suitable for such applications due to its simple and straight logic along with its dynamic nature suitable for list implementation. But it is slower than merge sort and quick sort. The main reasons this is slow: firstly, a sequential search is used to find the actual position of the next key element into the sorted left subarray and secondly, shifting of elements is required by one position towards the right for accommodating the newly inserted element. Therefore, I propose a new algorithm by using a novel technique of binary search mechanism for finding the sorted location of the next key item into the previously sorted left subarray much quicker than the conventional insertion sort algorithm. Performance measurement in terms of the actual running time of the new algorithm has been compared with those of other conventional sorting algorithms apart from the insertion sort. The results obtained on various sample data show that the new algorithm is better in performance than the conventional insertion sort and merge sort algorithms.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-29
# IPv6インターネットの構造抵抗性と接続性:ASレベルトポロジーによる検討

Structural Resilience and Connectivity of the IPv6 Internet: An AS-level Topology Examination ( http://arxiv.org/abs/2403.00193v1 )

ライセンス: Link先を確認
Bin Yuan, Tianbo Song, (参考訳) この研究は、IPv6ルーティング情報から得られる包括的なデータセットを使用して、IPv6インターネットの構造とレジリエンスの統計、次数分布、合同度分布、クラスタリング分析を提供し、データセットには17,232個のASと10,000個の独自のIPv6プレフィックスが含まれている。 解析により平均パス長約3ホップの相互接続ネットワークが明らかとなり、いくつかの孤立したコンポーネントにもかかわらず、潜在的な冗長性とレジリエンスを備えた堅牢で効率的なネットワークが示唆された。 本稿では、スパースネットワーク内の多数の周辺ノードの次数分布と、ASesがクラスタを形成する傾向を示すクラスタリング分析を概説し、障害に対する冗長性とロバスト性を示す。 経路冗長性と到達性を含む接続解析は、ネットワークのレジリエンスをサポートし、特にIPv6の採用が増加するにつれて、ネットワーク設計と戦略的計画に不可欠である。 本稿では,IPv6インターネットのレジリエンスと構造的接続性を強調し,ネットワーク接続の継続的な監視と改善の重要性を強調した。

The study utilizes a comprehensive dataset informed by IPv6 routing information to provide statistics, degree distribution, joint degree distribution, and clustering analysis of the IPv6 Internet's structure and resilience.The dataset includes 17,232 unique ASes and 10,000 unique IPv6 prefixes. Analysis reveals an interconnected network with an average path length of approximately 3 hops, suggesting a robust and efficient network with potential redundancy and resilience, despite some isolated components. The paper outlines the degree distribution, indicating many peripheral nodes in a sparse network, and a clustering analysis showing a tendency for ASes to form clusters, which is indicative of redundancy and robustness against failures. The connectivity analysis, including path redundancy and reachability, supports the network's resilience.The findings are crucial for network design and strategic planning, particularly as IPv6 adoption increases. The paper emphasizes the importance of continuous monitoring and improvement of network connectivity in the evolving Internet landscape, highlighting the IPv6 Internet's resilience and structured connectivity.
翻訳日:2024-03-18 06:39:33 公開日:2024-02-29
# 遅延統一による重ね合わせ

Superposition with Delayed Unification ( http://arxiv.org/abs/2403.04775v1 )

ライセンス: Link先を確認
Ahmed Bhayat, Johannes Schoisswohl, Michael Rawson, (参考訳) 古典的には、飽和に基づく証明システムでは、統一は原子と見なされてきた。 しかし、統一アルゴリズムのステップを推論に変換することで、ユニフィケーションを計算レベルに移すこともできる。 大きなあるいは無限のユニファイア集合を返す統一手順に依存する計算学では、ユニフィケーションを計算学に統合することは、ユニフィケーションと推論を包含する魅力的な方法である。 これは例えば、交流重ね合わせや高次重ね合わせに適用される。 一階重ね合わせは、統一規則を計算レベルに移す際にも完備であることを示す。 我々は、標準的な一階重ね合わせにおいても得られる利点について論じ、実験的な評価を提供する。

Classically, in saturation-based proof systems, unification has been considered atomic. However, it is also possible to move unification to the calculus level, turning the steps of the unification algorithm into inferences. For calculi that rely on unification procedures returning large or even infinite sets of unifiers, integrating unification into the calculus is an attractive method of dovetailing unification and inference. This applies, for example, to AC-superposition and higher-order superposition. We show that first-order superposition remains complete when moving unification rules to the calculus level. We discuss some of the benefits this has even for standard first-order superposition and provide an experimental evaluation.
翻訳日:2024-03-18 06:29:47 公開日:2024-02-29
# 物理センサを用いたDeep Learning Fall検出システム

Physics Sensor Based Deep Learning Fall Detection System ( http://arxiv.org/abs/2403.06994v1 )

ライセンス: Link先を確認
Zeyuan Qu, Tiange Huang, Yuxin Ji, Yongjun Li, (参考訳) 近年, 組込みセンサによる転倒検出が実用化され, 普及している。 特定の応用としては、[ジャイロスコープやアクセラレーター]のような物理センサーに基づく転倒検出手法が、手作りの伝統的な特徴を使って利用され、マルコフ連鎖のような機械学習モデルや単にしきい値に基づく分類手法でそれらを供給している。 本稿では,組込みセンサに基づくデータ受信装置,モバイルディープラーニングモデル展開プラットフォーム,および将来的な拡張のためのモデルやデータ収集に使用されるシンプルなサーバを備えた,TSFallDetectというシステムを構築した。 一方,慣性および膜圧センサが収集したデータに基づいて,この転倒動作予測問題に対処するために,逐次的深層学習手法を利用する。 我々は,既存のデータセットと我々のデータセットを別々に収集した経験的研究を行い,ディープラーニングモデルが従来の手法よりも潜在的に有利であることを示すとともに,時系列データに基づく新たなディープラーニングモデルを提案して,秋を予測し,この分野の他のシーケンシャルモデルよりも優れている可能性がある。

Fall detection based on embedded sensor is a practical and popular research direction in recent years. In terms of a specific application: fall detection methods based upon physics sensors such as [gyroscope and accelerator] have been exploited using traditional hand crafted features and feed them in machine learning models like Markov chain or just threshold based classification methods. In this paper, we build a complete system named TSFallDetect including data receiving device based on embedded sensor, mobile deep-learning model deploying platform, and a simple server, which will be used to gather models and data for future expansion. On the other hand, we exploit the sequential deep-learning methods to address this falling motion prediction problem based on data collected by inertial and film pressure sensors. We make a empirical study based on existing datasets and our datasets collected from our system separately, which shows that the deep-learning model has more potential advantage than other traditional methods, and we proposed a new deep-learning model based on the time series data to predict the fall, and it may be superior to other sequential models in this particular field.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-29
# AIのアイデンティティの意味: 創造者、創造者、そして結果

Implications of Identity of AI: Creators, Creations, and Consequences ( http://arxiv.org/abs/2403.07924v1 )

ライセンス: Link先を確認
Sri Yash Tadimalla, Mary Lou Maher, (参考訳) 人工知能(AI)の分野は急速に進歩しており、社会を変える大きな可能性を秘めている。 しかしそれは、多様性の欠如、STEM分野における長年の問題など、注目すべき課題に直面している。 この文脈では、AI開発と展開におけるバイアス、不平等、倫理的考慮事項を理解するための経路として、AIとアイデンティティの交わりについて検討する。 我々は、AIアイデンティティの定義を多面的に定義し、その作者、アプリケーション、そしてその幅広い影響を包含する。 AIのアイデンティティを理解するには、AIの開発に関わる多様な個人、生成された技術、社会的、倫理的、心理的含意を分析する必要がある。 AIアイデンティティエコシステムとその社会的ダイナミクスを探求した後、私たちは、アイデンティティのレンズを通して、創造者、創造者、そしてコンシークエンスという3つの次元にわたるAIの多様性の必要性を強調するフレームワークを提案します。 本稿では、アイデンティティのレンズを通して、より包括的で責任あるAIエコシステムを育むための包括的アプローチの必要性を提案する。

The field of Artificial Intelligence (AI) is rapidly advancing, with significant potential to transform society. However, it faces a notable challenge: lack of diversity, a longstanding issue in STEM fields. In this context, This position paper examines the intersection of AI and identity as a pathway to understand biases, inequalities, and ethical considerations in AI development and deployment. We present a multifaceted definition of AI identity, which encompasses its creators, applications, and their broader impacts. Understanding AI's identity involves analyzing the diverse individuals involved in AI's development, the technologies produced, and the social, ethical, and psychological implications. After exploring the AI identity ecosystem and its societal dynamics, We propose a framework that highlights the need for diversity in AI across three dimensions: Creators, Creations, and Consequences through the lens of identity. This paper proposes the need for a comprehensive approach to fostering a more inclusive and responsible AI ecosystem through the lens of identity.
翻訳日:2024-03-18 05:50:41 公開日:2024-02-29
# 薬物様分子コンホメータの物理インフォームド生成モデル

Physics-informed generative model for drug-like molecule conformers ( http://arxiv.org/abs/2403.07925v1 )

ライセンス: Link先を確認
David C. Williams, Neil Inala, (参考訳) 共振器生成のための拡散型生成モデルを提案する。 我々のモデルは結合構造の再現に焦点をあて、古典的な力場において伝統的に見られる関連する用語から構成され、物理的に関係のある表現を確実にする。 深層学習の技法は、トレーニングセットから原子タイピングと幾何学的パラメータを推測するために用いられる。 拡散型生成の最近の進歩を生かして, コンバータサンプリングを実現する。 半経験的GFN2-xTB法で最適化された多種多様な薬物様分子の大規模な合成データセットをトレーニングすることにより、従来の知識に基づく手法よりも高い精度で結合パラメーターを得ることができる。 また、タンパク質データバンク(PDB)とケンブリッジ構造データベース(CSD)の実験構造と比較した。

We present a diffusion-based, generative model for conformer generation. Our model is focused on the reproduction of bonded structure and is constructed from the associated terms traditionally found in classical force fields to ensure a physically relevant representation. Techniques in deep learning are used to infer atom typing and geometric parameters from a training set. Conformer sampling is achieved by taking advantage of recent advancements in diffusion-based generation. By training on large, synthetic data sets of diverse, drug-like molecules optimized with the semiempirical GFN2-xTB method, high accuracy is achieved for bonded parameters, exceeding that of conventional, knowledge-based methods. Results are also compared to experimental structures from the Protein Databank (PDB) and Cambridge Structural Database (CSD).
翻訳日:2024-03-18 05:50:41 公開日:2024-02-29
# 深層学習を用いた時空間歩行データの値予測

Value Prediction for Spatiotemporal Gait Data Using Deep Learning ( http://arxiv.org/abs/2403.07926v1 )

ライセンス: Link先を確認
Ryan Cavanagh, Jelena Trajkovic, Wenlu Zhang, I-Hung Khoo, Vennila Krishnan, (参考訳) ヒトの歩行は、医学的状態の診断と評価、治療とリハビリテーションの進捗のモニタリングによく用いられてきた。 圧力や動きを捉えたウェアラブルセンサーを使用することで、歩行データを分析して回復を助け、実行された活動を特定し、個人を識別する技術が得られた。 ディープ・ラーニング(Deep Learning)は、コンピュータビジョン、バイオメディカル・イメージング分析、自然言語処理など、様々な用途でうまく活用されている。 我々は、時空間歩行データの時系列の値予測へのディープラーニングの適用を拡大する。 さらに、複数のディープラーニングアーキテクチャ(Recurrent Neural Networks (RNN) と RNN と Convolutional Neural Networks (CNN) を組み合わせることで、2つの異なる実験装置を用いて、短距離および長距離の予測を行う。 その結果,短距離予測は 0.060675 以下であり,長距離予測は 0.106365 以下であった。 さらに,提案した深層学習モデルでは,同一参加者からの試行をトレーニングし,検証することで,試験全体を予測することができることを示した。 提案したカスタマイズされたモデルでは,転倒予測,家庭内進捗監視,外骨格運動の支援,認証など,付加的なアプリケーションに対して,価値予測がオープンな可能性を秘めている。

Human gait has been commonly used for the diagnosis and evaluation of medical conditions and for monitoring the progress during treatment and rehabilitation. The use of wearable sensors that capture pressure or motion has yielded techniques that analyze the gait data to aid recovery, identify activity performed, or identify individuals. Deep learning, usually employing classification, has been successfully utilized in a variety of applications such as computer vision, biomedical imaging analysis, and natural language processing. We expand the application of deep learning to value prediction of time-series of spatiotemporal gait data. Moreover, we explore several deep learning architectures (Recurrent Neural Networks (RNN) and RNN combined with Convolutional Neural Networks (CNN)) to make short- and long-distance predictions using two different experimental setups. Our results show that short-distance prediction has an RMSE as low as 0.060675, and long-distance prediction RMSE as low as 0.106365. Additionally, the results show that the proposed deep learning models are capable of predicting the entire trial when trained and validated using the trials from the same participant. The proposed, customized models, used with value prediction open possibilities for additional applications, such as fall prediction, in-home progress monitoring, aiding of exoskeleton movement, and authentication.
翻訳日:2024-03-18 05:50:41 公開日:2024-02-29
# クラウドサービスのためのインテリジェントモニタリングフレームワーク: データ駆動アプローチ

Intelligent Monitoring Framework for Cloud Services: A Data-Driven Approach ( http://arxiv.org/abs/2403.07927v1 )

ライセンス: Link先を確認
Pooja Srinivas, Fiza Husain, Anjaly Parayil, Ayush Choure, Chetan Bansal, Saravan Rajmohan, (参考訳) クラウドサービスのオーナは、高可用性と信頼性を確保するために、サービスを継続的に監視する必要がある。 監視のギャップは、インシデント検出の遅延と、顧客の重大なネガティブな影響につながる可能性がある。 モニター作成の現在のプロセスはアドホックで、自然界で反応する。 開発者は、部族的知識と、主にトライアルとエラーベースのプロセスを使ってモニターを作成する。 その結果、モニターには、生産上の問題につながる不完全なカバレッジや、ノイズや無駄な労力をもたらす冗長性があることが多い。 本稿では、サービスプロパティに基づいたクラウドサービスの監視を推奨するインテリジェントな監視フレームワークを提案することにより、この問題に対処する。 まず、Microsoftの741のプロダクションサービスから30,000以上のモニタの属性をマイニングし、モニタのための構造化オントロジーを導出します。 監視対象(リソース)と監視対象(メトリクス)の2つの重要な側面に注目します。 我々は、Microsoftのクラウドサービスが採用するモニタの主要なクラス、関連するディメンション、およびサービス特性とオントロジーの相互関係について、広範な実証的研究を行い、重要な洞察を導き出す。 これらの知見を用いて、サービス特性に基づいたモニタを推奨するディープラーニングベースのフレームワークを提案する。 最後に、提案フレームワークの有用性を実証するため、Microsoftのエンジニアとユーザスタディを実施している。 提案されたフレームワークは、オントロジー駆動のプロジェクションとともに、ほとんどのリソースクラスに対して生産品質のレコメンデーションを作成することに成功した。 これはまた、このフレームワークの有用性を5.27と評価した研究のユーザによって検証された。

Cloud service owners need to continuously monitor their services to ensure high availability and reliability. Gaps in monitoring can lead to delay in incident detection and significant negative customer impact. Current process of monitor creation is ad-hoc and reactive in nature. Developers create monitors using their tribal knowledge and, primarily, a trial and error based process. As a result, monitors often have incomplete coverage which leads to production issues, or, redundancy which results in noise and wasted effort. In this work, we address this issue by proposing an intelligent monitoring framework that recommends monitors for cloud services based on their service properties. We start by mining the attributes of 30,000+ monitors from 791 production services at Microsoft and derive a structured ontology for monitors. We focus on two crucial dimensions: what to monitor (resources) and which metrics to monitor. We conduct an extensive empirical study and derive key insights on the major classes of monitors employed by cloud services at Microsoft, their associated dimensions, and the interrelationship between service properties and this ontology. Using these insights, we propose a deep learning based framework that recommends monitors based on the service properties. Finally, we conduct a user study with engineers from Microsoft which demonstrates the usefulness of the proposed framework. The proposed framework along with the ontology driven projections, succeeded in creating production quality recommendations for majority of resource classes. This was also validated by the users from the study who rated the framework's usefulness as 4.27 out of 5.
翻訳日:2024-03-18 05:50:41 公開日:2024-02-29
# テンプレートフリー・レトロシンセシスモデルの補間能力評価

Assessing the Extrapolation Capability of Template-Free Retrosynthesis Models ( http://arxiv.org/abs/2403.03960v1 )

ライセンス: Link先を確認
Shuan Chen and Yousung Jung(参考訳) テンプレートのない反応空間を探索する能力はレトロシンセシス予測のテンプレートベースのモデルに比べて認められているものの、確立された境界を超えて活動する能力は、比較的未獲得のままである。 本研究では,ood(out-of-distribution)反応の広範な集合を細心の注意を払って組み立てることで,最先端テンプレートフリーモデルの補間能力を実験的に評価した。 以上の結果から,新しい合成規則によりテンプレートフリーモデルが前駆体を予測できる可能性が示されたが,ood反応におけるtop-10の正確なマッチング精度は極めて低い(<1%)。 さらに, 新規反応生成の可能性にも拘わらず, テンプレートフリーモデルによって予測される新規反応の半分以上は化学的に予測できないという繰り返し問題に注目する。 その結果,反応空間の未探索領域をナビゲートする際の化学的実現可能性を考慮したテンプレートフリーモデルの開発が期待できる。

Despite the acknowledged capability of template-free models in exploring unseen reaction spaces compared to template-based models for retrosynthesis prediction, their ability to venture beyond established boundaries remains relatively uncharted. In this study, we empirically assess the extrapolation capability of state-of-the-art template-free models by meticulously assembling an extensive set of out-of-distribution (OOD) reactions. Our findings demonstrate that while template-free models exhibit potential in predicting precursors with novel synthesis rules, their top-10 exact-match accuracy in OOD reactions is strikingly modest (< 1%). Furthermore, despite the capability of generating novel reactions, our investigation highlights a recurring issue where more than half of the novel reactions predicted by template-free models are chemically implausible. Consequently, we advocate for the future development of template-free models that integrate considerations of chemical feasibility when navigating unexplored regions of reaction space.
翻訳日:2024-03-10 23:52:56 公開日:2024-02-29
# 一般化位相空間論におけるエネルギー概念の統一

Unification of energy concepts in generalised phase space theories ( http://arxiv.org/abs/2403.01398v1 )

ライセンス: Link先を確認
Libo Jiang, Daniel R. Terno, and Oscar Dahlsten(参考訳) 準確率分布として表される状態を持つ一般化確率論において、ハミルトン力学を記述する方法を考える。 エネルギー関連概念の一般的な運用定義を与える。 我々は一般化エネルギー固有状態を最も純粋な定常状態として定義する。 プランク定数はこのフレームワークにおいて2つの異なる役割を演じている: 位相空間の体積は純粋状態によって取り上げられ、動的因子である。 ハミルトニアンは一般化エネルギー固有状態の線型結合である。 これにより、量子力学や古典ハミルトン力学などに適用できる一般化されたリウヴィル時間発展方程式が与えられる。 このアプローチは量子的および古典的なエネルギー概念の統一を可能にし、より広い理論の集合でエネルギーを議論するための経路となる。

We consider how to describe Hamiltonian mechanics in generalised probabilistic theories with the states represented as quasi-probability distributions. We give general operational definitions of energy-related concepts. We define generalised energy eigenstates as the purest stationary states. Planck's constant plays two different roles in the framework: the phase space volume taken up by a pure state and a dynamical factor. The Hamiltonian is a linear combination of generalised energy eigenstates. This allows for a generalised Liouville time-evolution equation that applies to quantum and classical Hamiltonian mechanics and more. The approach enables a unification of quantum and classical energy concepts and a route to discussing energy in a wider set of theories.
翻訳日:2024-03-06 21:34:46 公開日:2024-02-29
# データ類似性のない連合学習アルゴリズムの収束について

On the Convergence of Federated Learning Algorithms without Data Similarity ( http://arxiv.org/abs/2403.02347v1 )

ライセンス: Link先を確認
Ali Beikmohammadi, Sarit Khirirat, Sindri Magn\'usson(参考訳) データ類似性の仮定は伝統的に、連合学習法の収束挙動を理解するために依存されてきた。 残念なことに、このアプローチはデータ類似度のレベルに基づいて細調整のステップサイズを必要とすることが多い。 データの類似性が低い場合、これらの小さなステップサイズは、フェデレートされたメソッドの収束速度を許容できないほど遅くする。 本稿では,データ類似性条件を必要とせず,連合学習アルゴリズムの収束を分析するための新しい統一フレームワークを提案する。 解析は,ステップサイズがアルゴリズム収束性能に与える影響を捉える不等式に着目した。 この定理をよく知られたフェデレーションアルゴリズムに適用することにより、データの類似性条件とは独立に、固定、減少、段階決定の3つのステップサイズスケジュールの正確な表現を導出する。 最後に,これらのフェデレーション学習アルゴリズムの性能を包括的に評価し,提案するステップサイズ戦略を用いて,データ類似性条件の異なるベンチマークデータセット上でディープニューラルネットワークモデルをトレーニングする。 以上の結果から,コンバージェンス速度と全体のパフォーマンスが大幅に向上し,連合学習研究の大幅な進歩が示された。

Data similarity assumptions have traditionally been relied upon to understand the convergence behaviors of federated learning methods. Unfortunately, this approach often demands fine-tuning step sizes based on the level of data similarity. When data similarity is low, these small step sizes result in an unacceptably slow convergence speed for federated methods. In this paper, we present a novel and unified framework for analyzing the convergence of federated learning algorithms without the need for data similarity conditions. Our analysis centers on an inequality that captures the influence of step sizes on algorithmic convergence performance. By applying our theorems to well-known federated algorithms, we derive precise expressions for three widely used step size schedules: fixed, diminishing, and step-decay step sizes, which are independent of data similarity conditions. Finally, we conduct comprehensive evaluations of the performance of these federated learning algorithms, employing the proposed step size strategies to train deep neural network models on benchmark datasets under varying data similarity conditions. Our findings demonstrate significant improvements in convergence speed and overall performance, marking a substantial advancement in federated learning research.
翻訳日:2024-03-06 17:28:04 公開日:2024-02-29
# DocFinQA: 長期の金融推論データセット

DocFinQA: A Long-Context Financial Reasoning Dataset ( http://arxiv.org/abs/2401.06915v2 )

ライセンス: Link先を確認
Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering, Chris Tanner(参考訳) 大きな言語モデル(llm)が財務ドメイン(各決定に大きな影響を与える可能性がある)で効果的になるためには、現実的なタスクやデータを調べる必要がある。 金融専門家はしばしば数百ページに及ぶ文書とやり取りするが、ほとんどの金融研究データセットはこれらの文書からの短い抜粋のみを扱う。 そのために、長期にわたる財務QAタスクを導入する。 我々は、FinQAの700ワード未満からDocFinQAの123kワードまで平均コンテキスト長を延ばし、既存のFinQAデータセットからの7,437の質問をフルドキュメントコンテキストで拡張する。 検索に基づくQAパイプラインと長文言語モデルに関する広範な実験を行う。 DocFinQAは最先端システムにおいても重要な課題である。 また、DocFinQAの最長文書のケーススタディも提供し、モデルがこれらの文書に特に苦労していることを確認する。 これらの課題に対処することは、遺伝子配列や法的文書契約分析など、特異性と長距離コンテキストが重要となるアプリケーション全体に幅広い影響を及ぼす可能性がある。

For large language models (LLMs) to be effective in the financial domain -- where each decision can have a significant impact -- it is necessary to investigate realistic tasks and data. Financial professionals often interact with documents that are hundreds of pages long, but most financial research datasets only deal with short excerpts from these documents. To address this, we introduce a long-document financial QA task. We augment 7,437 questions from the existing FinQA dataset with the full-document context, extending the average context length from under 700 words in FinQA to 123k words in DocFinQA. We conduct extensive experiments over retrieval-based QA pipelines and long-context language models. DocFinQA proves a significant challenge for even state-of-the-art systems. We also provide a case-study on the longest documents in DocFinQA and find that models particularly struggle on these documents. Addressing these challenges may have a wide reaching impact across applications where specificity and long-range contexts are critical, like gene sequences and legal document contract analysis.
翻訳日:2024-03-05 20:06:02 公開日:2024-02-29
# 左利き4レベル原子媒体におけるゼロ吸収と大きな負屈折率

Zero absorption and large negative refractive index in a left-handed four-level atomic media ( http://arxiv.org/abs/2403.00042v1 )

ライセンス: Link先を確認
Shuncai Zhao, Zhengdong Liu and Qixuan Wu(参考訳) 本稿では, 密度行列法で記述された4レベル原子系と相互作用する3つの外部場について検討し, 原子系は吸収ゼロの左利きと大きな負の屈折率を示すとともに, 3つの外部磁場のパラメータ, ゼロ吸収の性質, 原子系からの大きな負の屈折率の維持, ゼロ吸収の負の屈折媒質を得るためのアプローチを提案する。 原子系のゼロ吸収特性は、従来のレンズで失われたエバネッセント波の増幅に使われ、左利きの原子系によって作られたスラブは完璧なレンズを設計するのに理想的な候補となるかもしれない。

In this paper,we have investigated three external fields interacting with the four-level atomic system described by the density-matrix approach.The atomic system exhibits left-handedness with zero absorption as well as large negative refractive index.Varying the parameters of the three external fields,the properties of zero absorption,large negative refractive index from the atomic system keep unvarying.Our scheme proposes an approach to obtain negative refractive medium with zero absorption. The zero absorption property of atomic system may be used to amplify the evanescent waves that have been lost in the imaging by traditional lenses.And a slab fabricated by the left-handed atomic system may be an ideal candidate for designing perfect lenses.
翻訳日:2024-03-05 19:27:15 公開日:2024-02-29
# フェデレーション学習のための最適輸送によるグローバルおよびローカルプロンプト協調

Global and Local Prompts Cooperation via Optimal Transport for Federated Learning ( http://arxiv.org/abs/2403.00041v1 )

ライセンス: Link先を確認
Hongxia Li, Wei Huang, Jingya Wang and Ye Shi(参考訳) 事前訓練された視覚言語モデルのプロンプト学習は、様々な下流タスクで顕著な柔軟性を示している。 本質的に軽量な性質を生かした最近の研究は、強力な事前学習されたモデルを連合学習フレームワークに統合し、通信コストを削減し、不十分なデータに対するローカルトレーニングを促進することを試みた。 これらの取り組みにもかかわらず、現在の連合型プロンプト学習法は、ラベルと特徴シフトの両方を含むデータ分布など、厳しいデータ不均一性に体系的に対処するための特別な設計を欠いている。 この課題に対処するため,我々は,最適なトランスポート (fedotp) によるフェデレートプロンプト協調を提案し,クライアント毎の多様なカテゴリ特性を捉えるための効率的な協調プロンプト学習戦略を提案する。 具体的には、各クライアントに対して、クライアント間のコンセンサス知識を抽出するグローバルプロンプトと、クライアント固有のカテゴリ特性をキャプチャするローカルプロンプトを学習する。 非バランスな最適輸送は、局所的な視覚的特徴とこれらのプロンプトを整合させ、グローバルなコンセンサスと局所的パーソナライゼーションのバランスを取るために使われる。 多様な異種性を持つデータセットに対する大規模な実験は、我々のFedOTPが最先端の手法よりも優れていることを示した。

Prompt learning in pretrained visual-language models has shown remarkable flexibility across various downstream tasks. Leveraging its inherent lightweight nature, recent research attempted to integrate the powerful pretrained models into federated learning frameworks to simultaneously reduce communication costs and promote local training on insufficient data. Despite these efforts, current federated prompt learning methods lack specialized designs to systematically address severe data heterogeneities, e.g., data distribution with both label and feature shifts involved. To address this challenge, we present Federated Prompts Cooperation via Optimal Transport (FedOTP), which introduces efficient collaborative prompt learning strategies to capture diverse category traits on a per-client basis. Specifically, for each client, we learn a global prompt to extract consensus knowledge among clients, and a local prompt to capture client-specific category characteristics. Unbalanced Optimal Transport is then employed to align local visual features with these prompts, striking a balance between global consensus and local personalization. Extensive experiments on datasets with various types of heterogeneities have demonstrated that our FedOTP outperforms the state-of-the-art methods.
翻訳日:2024-03-05 19:27:00 公開日:2024-02-29
# fhgenie: 企業および科学的な利用のための秘密保持型チャットai

FhGenie: A Custom, Confidentiality-preserving Chat AI for Corporate and Scientific Use ( http://arxiv.org/abs/2403.00039v1 )

ライセンス: Link先を確認
Ingo Weber, Hendrik Linka, Daniel Mertens, Tamara Muryshkin, Heinrich Opgenoorth, Stefan Langer(参考訳) OpenAIがChatGPTをリリースして以来、生成AIはさまざまな領域で注目されている。 これらのAIベースのチャットシステムは、多様なタスクにおける知識労働者の生産性を高める可能性がある。 しかし、無料パブリックサービスの使用はデータ漏洩のリスクを生じさせる。サービスプロバイダは、境界を明確にすることなく、追加のトレーニングと最適化のためにユーザー入力を利用する可能性がある。 サブスクリプションベースの代替サービスでさえ、ユーザデータの処理に透明性がない場合もある。 これらの懸念に対処し、Fraunhoferのスタッフが機密性を確保しながらこの技術を活用できるように、FhGenieというカスタマイズされたチャットAIを設計、開発しました。 リリース後数日で、数千人のfraunhofer社員がこのサービスを使い始めた。 このようなシステムを実装する先駆者として、他の多くの組織もこれに倣っている。 私たちのソリューションは商用の大規模言語モデル(llm)をベースにしており、機密性やgdprといった特定の要件やコンプライアンスの制約を満たすために、システムを慎重に統合しています。 本稿では,FhGenieのアーキテクチャ的考察,設計,実装,その後の更新に関する詳細な知見を紹介する。 さらに,課題や観察,生産的利用から学んだ中核的な教訓についても論じる。

Since OpenAI's release of ChatGPT, generative AI has received significant attention across various domains. These AI-based chat systems have the potential to enhance the productivity of knowledge workers in diverse tasks. However, the use of free public services poses a risk of data leakage, as service providers may exploit user input for additional training and optimization without clear boundaries. Even subscription-based alternatives sometimes lack transparency in handling user data. To address these concerns and enable Fraunhofer staff to leverage this technology while ensuring confidentiality, we have designed and developed a customized chat AI called FhGenie (genie being a reference to a helpful spirit). Within few days of its release, thousands of Fraunhofer employees started using this service. As pioneers in implementing such a system, many other organizations have followed suit. Our solution builds upon commercial large language models (LLMs), which we have carefully integrated into our system to meet our specific requirements and compliance constraints, including confidentiality and GDPR. In this paper, we share detailed insights into the architectural considerations, design, implementation, and subsequent updates of FhGenie. Additionally, we discuss challenges, observations, and the core lessons learned from its productive usage.
翻訳日:2024-03-05 19:26:35 公開日:2024-02-29
# 合理的な仮定から一般化されたハミルトン系へ

From reasonable postulates to generalised Hamiltonian systems ( http://arxiv.org/abs/2403.00038v1 )

ライセンス: Link先を確認
Libo Jiang, Daniel R. Terno and Oscar Dahlsten(参考訳) ハミルトニアン力学は、ハミルトニアンを通して系の進化を記述する。 ハミルトニアンは一般に、進化の法則の時間不変性に関連するネーター保存量であるエネルギー観測量を表す。 量子力学と古典力学の両方において、ハミルトン力学は時間発展と観測可能なエネルギーの正確な関係を要求する。 我々は、正準座標対称性や内積不変性を含む量子力学と古典力学の両方で満たされる基本的な条件を排除する。 これらの条件を一般化確率論の枠組みで表現し、ハミルトニアン系の時間不変性の観点からエネルギー固有状態の定義を一般化することを含む。 これらの条件を仮定することで、統一ハミルトニアン系モデルを導出する。 この統一フレームワークは、量子力学と古典力学を一貫した言語で記述し、それらの比較を容易にする。 さらに、可換関係の混合による運動方程式、量子論の情報制限版、スペケンの玩具理論など他の理論についても論じる。 この発見は、量子および古典理論におけるハミルトン理論の深い理解を与え、いくつかの潜在的研究トピックを指摘する。

Hamiltonian mechanics describes the evolution of a system through its Hamiltonian. The Hamiltonian typically also represents the energy observable, a Noether-conserved quantity associated with the time-invariance of the law of evolution. In both quantum and classical mechanics, Hamiltonian mechanics demands a precise relationship between time evolution and observable energy, albeit using slightly different terminology. We distil basic conditions satisfied in both quantum and classical mechanics, including canonical coordinate symmetries and inner product invariance. We express these conditions in the framework of generalised probabilistic theories, which includes generalizing the definition of energy eigenstates in terms of time-invariant properties of the Hamiltonian system. By postulating these conditions to hold, we derive a unified Hamiltonian system model. This unified framework describes quantum and classical mechanics in a consistent language, facilitating their comparison. We moreover discuss alternative theories: an equation of motion given by a mixture of commutation relations, an information-restricted version of quantum theory, and Spekken's toy theory. The findings give a deeper understanding of the Hamiltonian in quantum and classical theories and point to several potential research topics.
翻訳日:2024-03-05 19:26:15 公開日:2024-02-29
# 未来への進化:ソーシャルメディア上でのイベント適応型フェイクニュース検出

Evolving to the Future: Unseen Event Adaptive Fake News Detection on Social Media ( http://arxiv.org/abs/2403.00037v1 )

ライセンス: Link先を確認
Jiajun Zhang, Zhixun Li, Qiang Liu, Shu Wu, Liang Wang(参考訳) ソーシャルメディアの急速な発展に伴い、ソーシャルメディア上でのフェイクニュースの普及は、個人と社会の両方を脅かしている。 ソーシャルメディアのダイナミックな状況において、偽ニュース検出は過去の出来事を報道するモデルを開発することを目的としている。 目的は、過去のものとは全く異なる主題にしばしば関連する、将来の出来事に関する偽ニュースを予測し、識別することである。 しかし、既存の偽検出手法は堅牢性の欠如を示し、目に見えない事象に一般化できない。 これを解決するために、Future Adaptive Event-based Fake News Detection (FADE)フレームワークを紹介します。 具体的には,適応強化戦略とグラフコントラスト学習によって目標予測器を訓練し,全体としてより堅牢な予測を行う。 同時に、偏りのある予測を得るために、イベントのみの予測を個別に訓練する。 そして、目標予測器の出力からイベントのみ予測器の出力を減算することで、最終予測を得ることにより、イベントバイアスをさらに軽減する。 実世界のソーシャルメディア環境をエミュレートする実験の結果を,既存の最先端手法と比較し,本手法の有効性を検証した。

With the rapid development of social media, the wide dissemination of fake news on social media is increasingly threatening both individuals and society. In the dynamic landscape of social media, fake news detection aims to develop a model trained on news reporting past events. The objective is to predict and identify fake news about future events, which often relate to subjects entirely different from those in the past. However, existing fake detection methods exhibit a lack of robustness and cannot generalize to unseen events. To address this, we introduce Future ADaptive Event-based Fake news Detection (FADE) framework. Specifically, we train a target predictor through an adaptive augmentation strategy and graph contrastive learning to make more robust overall predictions. Simultaneously, we independently train an event-only predictor to obtain biased predictions. Then we further mitigate event bias by obtaining the final prediction by subtracting the output of the event-only predictor from the output of the target predictor. Encouraging results from experiments designed to emulate real-world social media conditions validate the effectiveness of our method in comparison to existing state-of-the-art approaches.
翻訳日:2024-03-05 19:25:56 公開日:2024-02-29
# 帯域に影響: 選好整形のための腕選択

Influencing Bandits: Arm Selection for Preference Shaping ( http://arxiv.org/abs/2403.00036v1 )

ライセンス: Link先を確認
Viraj Nadkarni and D. Manjunath and Sharayu Moharir(参考訳) 人口嗜好が観察された報奨によって肯定的かつ否定的に強化される非定常的多武装バンディットを考える。 このアルゴリズムの目的は、所定の腕を好む人口の比率を最大化するために、人口嗜好を形作ることである。 二元的意見の場合は、弾力性低下(球数の増加を伴うポリアウルンとしてモデル化)と定常弾性性(投票者モデルを用いて)の2つのタイプの意見力学が考慮される。 最初のケースでは、探索的コミットポリシーとトンプソンサンプリングポリシーを説明し、それぞれのポリシーに対する後悔を分析します。 そして、これらのアルゴリズムとその解析が定数弾性のケースまで続くことを示す。 また,2種類以上の意見が存在する場合のトンプソンサンプリングに基づくアルゴリズムについても述べる。 最後に,複数のレコメンデーションシステムの存在が,その人気と意見形成目標とのトレードオフをもたらす場合について考察する。

We consider a non stationary multi-armed bandit in which the population preferences are positively and negatively reinforced by the observed rewards. The objective of the algorithm is to shape the population preferences to maximize the fraction of the population favouring a predetermined arm. For the case of binary opinions, two types of opinion dynamics are considered -- decreasing elasticity (modeled as a Polya urn with increasing number of balls) and constant elasticity (using the voter model). For the first case, we describe an Explore-then-commit policy and a Thompson sampling policy and analyse the regret for each of these policies. We then show that these algorithms and their analyses carry over to the constant elasticity case. We also describe a Thompson sampling based algorithm for the case when more than two types of opinions are present. Finally, we discuss the case where presence of multiple recommendation systems gives rise to a trade-off between their popularity and opinion shaping objectives.
翻訳日:2024-03-05 19:25:39 公開日:2024-02-29
# 幾何学的フラストレーションイジングモデルの量子クエンチダイナミクス

Quantum Quench Dynamics of Geometrically Frustrated Ising Models ( http://arxiv.org/abs/2403.00091v1 )

ライセンス: Link先を確認
Ammar Ali, Hanjing Xu, William Bernoudy, Alberto Nocera, Andrew D. King, Arnab Banerjee(参考訳) 2次元イジングモデルにおける幾何学的フラストレーションは、量子ゆらぎの存在下で、イジングと非イジングの両方において、エキゾチックな普遍的な振る舞いの富を許容する。 特に、横断体における三角反強磁性とヴィランモデルは異なるxy擬スピンを通じて理解できるが、(2+1)-次元xy普遍性クラスにおける量子相転移を含む定性的に類似した位相図を持っている。 控えめなサイズのシステムの量子力学はテンソルベースの手法で古典的にシミュレートできるが、これらの手法はより大きな格子に対して実現不可能となる。 ここでは、これらの力学の古典的および量子シミュレーションを行い、量子シミュレータは超伝導量子アニールである。 三角格子上での観測は、支配的なクエンチ力学が量子相転移の量子キブル・ズレークスケーリングによって記述されるのではなく、秩序相における有効2次元XYモデルにおけるより高速な粗いダイナミクスであることを示している。 同様に、Villainモデルでは、スケーリング指数はKibble-Zurek予想と一致しない。 これらの結果は、古典的アプローチの範囲を超えてコヒーレントな量子力学とスケールをシミュレートする量子アニーラの能力を示している。

Geometric frustration in two-dimensional Ising models allows for a wealth of exotic universal behavior, both Ising and non-Ising, in the presence of quantum fluctuations. In particular, the triangular antiferromagnet and Villain model in a transverse field can be understood through distinct XY pseudospins, but have qualitatively similar phase diagrams including a quantum phase transition in the (2+1)-dimensional XY universality class. While the quantum dynamics of modestly-sized systems can be simulated classically using tensor-based methods, these methods become infeasible for larger lattices. Here we perform both classical and quantum simulations of these dynamics, where our quantum simulator is a superconducting quantum annealer. Our observations on the triangular lattice suggest that the dominant quench dynamics are not described by the quantum Kibble-Zurek scaling of the quantum phase transition, but rather a faster coarsening dynamics in an effective two-dimensional XY model in the ordered phase. Similarly, on the Villain model, the scaling exponent does not match the Kibble-Zurek expectation. These results demonstrate the ability of quantum annealers to simulate coherent quantum dynamics and scale beyond the reach of classical approaches.
翻訳日:2024-03-05 19:17:45 公開日:2024-02-29
# 現代のコードレビュー --文学と実践の調査-

Modern Code Reviews -- Survey of Literature and Practice ( http://arxiv.org/abs/2403.00088v1 )

ライセンス: Link先を確認
Deepika Badampudi, Michael Unterkalmsteiner, Ricardo Britto(参考訳) 背景: Modern Code Review (MCR)は、従来のコード検査の軽量な代替品である。 MCRに関する二次研究は存在するが、研究コミュニティが実践者が重要と考えるテーマを標的にしているかどうかは不明である。 目的: 目的: MCR研究の概要を提供し, MCR研究の重要性に関する実践者の意見を分析し, 研究と実践の整合性を調査し, 今後のMCR研究の道筋を提案することである。 方法:2021年まで, 技術実態調査のための体系的マッピング研究を行い, 実践者のmcr研究の関連性に対する認識をq手法を用いて分析し, 基礎研究の影響を分析した。 結果: 初等研究は244件, テーマは5件であった。 1,300件の調査結果から,製品品質とmcrプロセス特性に対するmcrの影響を調査した結果,肯定的な回答を得た。 対照的に、ヒューマンファクターとサポートシステムに関する研究には否定的だ。 結論: これらの結果は, 調査対象者の多くが重要とみなす技術とテーマの相違を示している。 研究者は、MCRプラクティスの状態を改善できるソリューションに注力する必要がある。 我々は、MCR研究の効果を高めることができるMCR研究アジェンダを提供する。

Background: Modern Code Review (MCR) is a lightweight alternative to traditional code inspections. While secondary studies on MCR exist, it is unknown whether the research community has targeted themes that practitioners consider important. Objectives: The objectives are to provide an overview of MCR research, analyze the practitioners' opinions on the importance of MCR research, investigate the alignment between research and practice, and propose future MCR research avenues. Method: We conducted a systematic mapping study to survey state of the art until and including 2021, employed the Q-Methodology to analyze the practitioners' perception of the relevance of MCR research, and analyzed the primary studies' research impact. Results: We analyzed 244 primary studies, resulting in five themes. As a result of the 1,300 survey data points, we found that the respondents are positive about research investigating the impact of MCR on product quality and MCR process properties. In contrast, they are negative about human factor- and support systems-related research. Conclusion: These results indicate a misalignment between the state of the art and the themes deemed important by most survey respondents. Researchers should focus on solutions that can improve the state of MCR practice. We provide an MCR research agenda that can potentially increase the impact of MCR research.
翻訳日:2024-03-05 19:17:22 公開日:2024-02-29
# Web3 の憲法

The Constitutions of Web3 ( http://arxiv.org/abs/2403.00081v1 )

ライセンス: Link先を確認
Joshua Z. Tan, Max Langenkamp, Anna Weichselbraun, Ann Brody, Lucia Korpas(参考訳) 最初のUSENETグループ以来、オンラインコミュニティのガバナンスは重要な問題であり、1990年代半ばから多くの重大な憲法(目標、価値観、権利の宣言)が出現している。 最近では、分散自治組織(DAO)が独自の憲法、マニフェスト、その他のガバナンス文書を公開し始めた。 これらの文書には2つのユニークな側面がある: (1) 以前は監視されていたオンラインコミュニティよりもかなり多くのリソースを統治する、(2) 特定のコミュニティの権利とプロセスをコードで確保できるスマートコントラクトと共に使用される。 本稿では,25のDAOコンスティチューションを分析し,多くの共通パターンを観察し,今後のDAOコンスティチューションの製作・普及を支援するためのテンプレートとレコメンデーションを提供する。 私たちのテンプレートとレコメンデーションが、主要なブロックチェーンの実際の立案プロセスでどのように使用されたか、というレポートで締めくくります。

The governance of online communities has been a critical issue since the first USENET groups, and a number of serious constitutions -- declarations of goals, values, and rights -- have emerged since the mid-1990s. More recently, decentralized autonomous organizations (DAOs) have begun to publish their own constitutions, manifestos, and other governance documents. There are two unique aspects to these documents: they (1) often govern significantly more resources than previously-observed online communities, and (2) are used in conjunction with smart contracts that can secure certain community rights and processes through code. In this article, we analyze 25 DAO constitutions, observe a number of common patterns, and provide a template and a set of recommendations to support the crafting and dissemination of future DAO constitutions. We conclude with a report on how our template and recommendations were then used within the actual constitutional drafting process of a major blockchain.
翻訳日:2024-03-05 19:17:01 公開日:2024-02-29
# 早期フォールトトレラント量子コンピュータにおける量子位相推定プロトコルの評価

An assessment of quantum phase estimation protocols for early fault-tolerant quantum computers ( http://arxiv.org/abs/2403.00077v1 )

ライセンス: Link先を確認
Jacob S. Nelson and Andrew D. Baczewski(参考訳) 我々は,初期のフォールトトレラント量子コンピュータ (eftqcs) を対象としたいくつかの量子位相推定 (qpe) プロトコルを,表面コードアーキテクチャにおける実装モデルの文脈で比較する。 我々は、これらのプロトコルを用いて分子水素の基底状態エネルギーを最小で計算するために必要な論理的および物理的資源を、論理的誤りを非分極化する存在下で10-3$原子単位未満の誤差で推定する。 回転合成とマジック状態蒸留のオーバーヘッドを考慮すると, EFT QPEプロトコル間では, 合計$T$-gate数が大きく異なることが分かる。 アンシラ量子ビット数と回路深さの削減に加えて、EFTプロトコルのノイズロバスト性を利用して、教科書QPEよりもリソース要求を低減し、計算量の約300倍の削減を実現することができる。 それでも、私たちの見積は、既存の早期耐障害デモの規模をはるかに超えています。

We compare several quantum phase estimation (QPE) protocols intended for early fault-tolerant quantum computers (EFTQCs) in the context of models of their implementations on a surface code architecture. We estimate the logical and physical resources required to use these protocols to calculate the ground state energy of molecular hydrogen in a minimal basis with error below $10^{-3}$ atomic units in the presence of depolarizing logical errors. Accounting for the overhead of rotation synthesis and magic state distillation, we find that the total $T$-gate counts do not vary significantly among the EFT QPE protocols at fixed state overlap. In addition to reducing the number of ancilla qubits and circuit depth, the noise robustness of the EFT protocols can be leveraged to reduce resource requirements below those of textbook QPE, realizing approximately a 300-fold reduction in computational volume in some cases. Even so, our estimates are well beyond the scale of existing early fault-tolerance demonstrations.
翻訳日:2024-03-05 19:16:45 公開日:2024-02-29
# キャビティQEDに基づく高純度単一光子生成

High-purity single-photon generation based on cavity QED ( http://arxiv.org/abs/2403.00072v1 )

ライセンス: Link先を確認
Seigo Kikura, Rui Asaoka, Masato Koashi, Yuuki Tokunaga(参考訳) キャビティ量子電磁力学(QED)に基づいて高純度単一光子を生成する手法を提案する。 この方式では、2つの励起状態、2つの基底状態、2つの駆動レーザーを含む4レベル系を用いるが、この構造は原子崩壊による再励起過程の抑制を可能にする。 解析の結果、励起状態間で駆動レーザのパワーを増加させる際に光子発生確率を犠牲にすることなく、再励起確率は任意にゼロに近づくことがわかった。 この利点は現在のキャビティqed技術によって実現可能である。 提案手法は,分散量子計算や量子通信の高精度化に寄与することができる。

We propose a scheme for generating a high-purity single photon on the basis of cavity quantum electrodynamics (QED). This scheme employs a four-level system including two excited states, two ground states, and two driving lasers; this structure allows the suppression of the re-excitation process due to the atomic decay, which is known to significantly degrade the single-photon purity in state-of-the-art photon sources using a three-level system. Our analysis shows that the re-excitation probability arbitrarily approaches zero without sacrificing the photon generation probability when increasing the power of the driving laser between the excited states. This advantage is achievable by using current cavity-QED technologies. Our scheme can contribute to developing distributed quantum computation or quantum communication with high accuracy.
翻訳日:2024-03-05 19:16:30 公開日:2024-02-29
# 共振RoPE:大規模言語モデルの文脈長一般化の改善

Resonance RoPE: Improving Context Length Generalization of Large Language Models ( http://arxiv.org/abs/2403.00071v1 )

ライセンス: Link先を確認
Suyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu(参考訳) 本稿では,ロータリー位置埋め込み (rope) を備えた大規模言語モデル (llms) におけるtstl (train-short-test-long) シナリオの課題について述べる。 我々は,OOD位置に対するRoPE機能を補間することで,TSTLシナリオの一般化ギャップを狭めるために設計された新しい手法であるResonance RoPEを紹介し,オンライン計算コストを増大させることなくモデル性能を大幅に向上させる。 さらに,TSTLシナリオにおけるきめ細かな挙動解析に特化して設計された新しい合成ベンチマークPosGenを提案する。 Resonance RoPEを適用すると、変換器はOODの位置をより良く、より堅牢に認識する。 我々のLLM実験は、現在最先端のRoPEスケーリング手法であるYaRNにResonance RoPEを適用した後、上流言語モデリングタスクと様々な下流長文アプリケーションの両方で優れた性能を示す。

This paper addresses the challenge of train-short-test-long (TSTL) scenarios in Large Language Models (LLMs) equipped with Rotary Position Embedding (RoPE), where models pre-trained on shorter sequences face difficulty with out-of-distribution (OOD) token positions in longer sequences. We introduce Resonance RoPE, a novel approach designed to narrow the generalization gap in TSTL scenarios by refining the interpolation of RoPE features for OOD positions, significantly improving the model performance without additional online computational costs. Furthermore, we present PosGen, a new synthetic benchmark specifically designed for fine-grained behavior analysis in TSTL scenarios, aiming to isolate the constantly increasing difficulty of token generation on long contexts from the challenges of recognizing new token positions. Our experiments on synthetic tasks show that after applying Resonance RoPE, Transformers recognize OOD position better and more robustly. Our extensive LLM experiments also show superior performance after applying Resonance RoPE to the current state-of-the-art RoPE scaling method, YaRN, on both upstream language modeling tasks and a variety of downstream long-text applications.
翻訳日:2024-03-05 19:16:16 公開日:2024-02-29
# ハイゼンベルク極限での相互作用型ハミルトニアンの学習

Learning interacting fermionic Hamiltonians at the Heisenberg limit ( http://arxiv.org/abs/2403.00069v1 )

ライセンス: Link先を確認
Arjun Mirani and Patrick Hayden(参考訳) 未知のハミルトニアンの力学へのアクセスを効果的に学習することは、量子力学、多体物理学、機械学習への関心の問題である。 根本的な問題は、ハミルトニアン進化時間は再構成されたパラメータの誤差$\varepsilon$と逆スケールするハイゼンベルク極限で学習ができるかどうかである。 ハイゼンベルク極限は以前、量子ビットとボソニックハミルトニアンのある種のクラスに対して達成可能であることが示されている。 最近では、ハイゼンベルク限定学習アルゴリズムが、実ホッピング振幅と全ての場所での化学的ポテンシャルのゼロに制限されたフェルミオンハバード・ハミルトンの単純化されたクラスのために提案された。 本研究では,ハイゼンベルク極限におけるフェルミオンハバードハミルトニアンのより一般的なクラスを学習するためのアルゴリズムを提案する。 我々のプロトコルにおける全ての実験で必要とされる進化時間は$\mathcal{O}(1/\varepsilon)$であり、すべてのハミルトンパラメータを学習するのに必要な実験の数は$\mathcal{O}(\text{polylog}(1/\varepsilon)$、各フェルミオンモードが$\mathcal{O}(1)$他のモードと相互作用する限りシステムサイズに依存しない。 ボゾンおよびフェルミオンハミルトニアンに対する以前のアルゴリズムとは異なり、より一般的な設定でフェルミオンパリティ超選択制約に従うために、我々のプロトコルは$\mathcal{O}(N)$ ancillary fermionic modesを使用し、そこで$N$はシステムサイズである。 それぞれの実験は、フェルミオンのガウス状態の調製、フェルミオンの線形光学単位との時間発展、フェルミオンのモードでの局所的な占有数測定を含む。 このプロトコルは一定量の状態準備と測定誤差に対して堅牢である。

Efficiently learning an unknown Hamiltonian given access to its dynamics is a problem of interest for quantum metrology, many-body physics and machine learning. A fundamental question is whether learning can be performed at the Heisenberg limit, where the Hamiltonian evolution time scales inversely with the error, $\varepsilon$, in the reconstructed parameters. The Heisenberg limit has previously been shown to be achievable for certain classes of qubit and bosonic Hamiltonians. Most recently, a Heisenberg-limited learning algorithm was proposed for a simplified class of fermionic Hubbard Hamiltonians restricted to real hopping amplitudes and zero chemical potential at all sites, along with on-site interactions. In this work, we provide an algorithm to learn a more general class of fermionic Hubbard Hamiltonians at the Heisenberg limit, allowing complex hopping amplitudes and nonzero chemical potentials in addition to the on-site interactions, thereby including several models of physical interest. The required evolution time across all experiments in our protocol is $\mathcal{O}(1/\varepsilon)$ and the number of experiments required to learn all the Hamiltonian parameters is $\mathcal{O}(\text{polylog}(1/\varepsilon))$, independent of system size as long as each fermionic mode interacts with $\mathcal{O}(1)$ other modes. Unlike prior algorithms for bosonic and fermionic Hamiltonians, to obey fermionic parity superselection constraints in our more general setting, our protocol utilizes $\mathcal{O}(N)$ ancillary fermionic modes, where $N$ is the system size. Each experiment involves preparing fermionic Gaussian states, interleaving time evolution with fermionic linear optics unitaries, and performing local occupation number measurements on the fermionic modes. The protocol is robust to a constant amount of state preparation and measurement error.
翻訳日:2024-03-05 19:15:53 公開日:2024-02-29
# 大規模視覚言語モデルにおけるアートワークの解説

Artwork Explanation in Large-scale Vision Language Models ( http://arxiv.org/abs/2403.00068v1 )

ライセンス: Link先を確認
Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe(参考訳) 大規模視覚言語モデル(LVLM)は、画像と命令からテキストを出力し、テキスト生成と理解の高度な能力を示す。 しかし、LVLMが画像を説明するのに必要な知識、様々な知識間の複雑な関係、そしてそれらの理解をその説明にどのように組み込むかは明らかになっていない。 そこで本研究では,アートワークに関する知識の理解と活用を定量的に評価するための,アートワーク説明生成タスクとその評価データセットとメトリクスを新たに提案する。 このタスクは、lvlmが既存のアートワークの知識を持っていることを前提に、画像記述に適しており、それはしばしば幅広い認識と文書化の情報の対象である。 画像と作品名の両方から説明を生成することと、画像のみを用いて説明を生成すること、LVLMの言語に基づく知識と視覚に基づく知識を評価することである。 また,アートワークに関する知識を組み込んだ説明を学ぶために,lvlmsのトレーニングデータセットをリリースする。 以上の結果から,LVLMは言語情報と視覚情報の統合に苦慮するだけでなく,画像のみからの知識獲得にも限界があることが示唆された。 データセット(ExpArt=Explain Artworks)はhttps://huggingface.co/datasets/naist-nlp/ExpArtで公開されている。

Large-scale vision-language models (LVLMs) output text from images and instructions, demonstrating advanced capabilities in text generation and comprehension. However, it has not been clarified to what extent LVLMs understand the knowledge necessary for explaining images, the complex relationships between various pieces of knowledge, and how they integrate these understandings into their explanations. To address this issue, we propose a new task: the artwork explanation generation task, along with its evaluation dataset and metric for quantitatively assessing the understanding and utilization of knowledge about artworks. This task is apt for image description based on the premise that LVLMs are expected to have pre-existing knowledge of artworks, which are often subjects of wide recognition and documented information. It consists of two parts: generating explanations from both images and titles of artworks, and generating explanations using only images, thus evaluating the LVLMs' language-based and vision-based knowledge. Alongside, we release a training dataset for LVLMs to learn explanations that incorporate knowledge about artworks. Our findings indicate that LVLMs not only struggle with integrating language and visual information but also exhibit a more pronounced limitation in acquiring knowledge from images alone. The datasets (ExpArt=Explain Artworks) are available at https://huggingface.co/datasets/naist-nlp/ExpArt.
翻訳日:2024-03-05 19:15:10 公開日:2024-02-29
# query-opt: ミーティング要約におけるマルチクエリ命令による大規模言語モデルの最適化

Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization ( http://arxiv.org/abs/2403.00067v1 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, Elena Khasanova, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN(参考訳) 本研究は,特定の問合せに応答してコンテキスト(書き起こし)の要約を生成する,問合せに基づく会議要約のタスクに焦点をあてる。 このタスクでLarge Language Models(LLM)を使用する場合、コンテキストが同じであっても、新しいクエリ毎にLLM推論エンドポイント/APIへの新しい呼び出しが必要になる。 しかし、LLM推論エンドポイントへの繰り返し呼び出しは、実運用で使用するコストを大幅に増加させ、LLMが現実のユースケースの多くで非現実的になる。 この問題に対処するために,本稿では,同一の入力コンテキストに対するクエリを単一のプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える手法が,要約に有効かどうかを検討する。 そこで本研究では,GPT-4, PaLM-2, LLaMA-2, Mistral, FLAN-T5 を単一クエリ, 複数クエリで比較した。 我々は、ほとんどのLCMがマルチクエリ命令に応答する傾向にあるが、そのほとんど全て(GPT-4を除く)は、微調整後も、必要な出力形式で応答を適切に生成できないことを観察した。 マルチクエリのプロンプトは,要約処理のタスクに対する推論エンドポイント/APIの呼び出しを減らすことで,推論コストの最適化に有用であるが,この機能は,期待するフォーマットで応答を確実に生成する能力は,特定のLSMに限られる。

This work focuses on the task of query-based meeting summarization in which the summary of a context (meeting transcript) is generated in response to a specific query. When using Large Language Models (LLMs) for this task, a new call to the LLM inference endpoint/API is required for each new query even if the context stays the same. However, repeated calls to the LLM inference endpoints would significantly increase the costs of using them in production, making LLMs impractical for many real-world use cases. To address this problem, in this paper, we investigate whether combining the queries for the same input context in a single prompt to minimize repeated calls can be successfully used in meeting summarization. In this regard, we conduct extensive experiments by comparing the performance of various popular LLMs: GPT-4, PaLM-2, LLaMA-2, Mistral, and FLAN-T5 in single-query and multi-query settings. We observe that while most LLMs tend to respond to the multi-query instructions, almost all of them (except GPT-4), even after fine-tuning, could not properly generate the response in the required output format. We conclude that while multi-query prompting could be useful to optimize the inference costs by reducing calls to the inference endpoints/APIs for the task of meeting summarization, this capability to reliably generate the response in the expected format is only limited to certain LLMs.
翻訳日:2024-03-05 19:14:47 公開日:2024-02-29
# 最適励起エネルギー移動の量子シグネチャの検討

Examining the quantum signatures of optimal excitation energy transfer ( http://arxiv.org/abs/2403.00058v1 )

ライセンス: Link先を確認
Jonah S. Peter, Raphael Holzinger, Stefan Ostermann, Susanne F. Yelin(参考訳) 光誘起電子励起の輸送とトラップによる光ハーベスティングは、新しいエネルギー効率の量子技術の設計に基本的な関心を持つ。 量子光学モデルを用いて,コヒーレンス,絡み合い,協調散逸が励起エネルギーの輸送と捕獲に及ぼす影響について検討した。 特に,システムの量子コヒーレンスと絡み合いを最小限に抑える条件下でエネルギー抽出速度が最適化されていることを示す。 この発見は、乱れや高温のシステムに限らず、量子-古典遷移に伴う自発的パリティ時間-逆対称性の破れの根本的な結果であることを示す。 次に, 振動変動の影響について検討し, 協調的相互作用の存在下での非局在励起の輸送促進効果を強く強調した。 本研究は, 生体光合成アンテナ複合体の研究や, 室温量子デバイスの設計に関係のある, 脱コヒーレンスに関連するリッチで創発的な挙動を浮き彫りにしたものである。

Light-harvesting via the transport and trapping of optically-induced electronic excitations is of fundamental interest to the design of new energy efficient quantum technologies. Using a paradigmatic quantum optical model, we study the influence of coherence, entanglement, and cooperative dissipation on the transport and capture of excitation energy. In particular, we demonstrate that the rate of energy extraction is optimized under conditions that minimize the quantum coherence and entanglement of the system. We show that this finding is not limited to disordered or high temperature systems but is instead a fundamental consequence of spontaneous parity time-reversal symmetry breaking associated with the quantum-to-classical transition. We then examine the effects of vibrational fluctuations, revealing a strong dephasing assisted transport enhancement for delocalized excitations in the presence of cooperative interactions. Our results highlight the rich, emergent behavior associated with decoherence and may be relevant to the study of biological photosynthetic antenna complexes or to the design of room-temperature quantum devices.
翻訳日:2024-03-05 19:14:19 公開日:2024-02-29
# 非依存位相推定

Agnostic Phase Estimation ( http://arxiv.org/abs/2403.00054v1 )

ライセンス: Link先を確認
Xingrui Song, Flavio Salvati, Chandrashekhar Gaikwad, Nicole Yunger Halpern, David R. M. Arvidsson-Shukur, and Kater Murch(参考訳) 量子気象学の目標は、量子資源を活用することで測定の感度を改善することである。 気象学者はしばしば、測定装置の感度を束縛する量子フィッシャー情報の最大化を目指す。 メトロジーの基本的な極限の研究において、パラダイム的なセットアップは未知の回転の対象となるクォービット(スピンハーフ系)を特徴付ける。 回転誘導作用素の分散を最大化する状態でスピンが始まると、回転に関する最大量子フィッシャー情報を得る。 しかし、回転軸が不明であれば、最適な単一量子ビットセンサは作成できない。 閉時間曲線のシミュレーションにインスパイアされ、この制限を回避する。 我々は、未知の回転軸によらず、回転角に関する最大量子フィッシャー情報を得る。 この結果を達成するために、まずプローブキュービットをアンシラキュービットで絡む。 次に、この対を絡み合いベースで測定し、任意の単一量子ビットセンサが達成できる以上の回転角に関する情報を得る。 2量子ビット超伝導量子プロセッサによるこのメリットを実証する。 我々の測定手法は量子的優位性を達成し、あらゆる絡み合いのない戦略を上回ります。

The goal of quantum metrology is to improve measurements' sensitivities by harnessing quantum resources. Metrologists often aim to maximize the quantum Fisher information, which bounds the measurement setup's sensitivity. In studies of fundamental limits on metrology, a paradigmatic setup features a qubit (spin-half system) subject to an unknown rotation. One obtains the maximal quantum Fisher information about the rotation if the spin begins in a state that maximizes the variance of the rotation-inducing operator. If the rotation axis is unknown, however, no optimal single-qubit sensor can be prepared. Inspired by simulations of closed timelike curves, we circumvent this limitation. We obtain the maximum quantum Fisher information about a rotation angle, regardless of the unknown rotation axis. To achieve this result, we initially entangle the probe qubit with an ancilla qubit. Then, we measure the pair in an entangled basis, obtaining more information about the rotation angle than any single-qubit sensor can achieve. We demonstrate this metrological advantage using a two-qubit superconducting quantum processor. Our measurement approach achieves a quantum advantage, outperforming every entanglement-free strategy.
翻訳日:2024-03-05 19:14:02 公開日:2024-02-29
# 量子レーダによるターゲット検出について(プレプリント)

On Target Detection by Quantum Radar (Preprint) ( http://arxiv.org/abs/2403.00047v1 )

ライセンス: Link先を確認
Gaspare Galati, Gabriele Pavan(参考訳) ノイズレーダーと量子レーダーは共通の特徴を持つとして、送信信号のランダム性を利用してレーダーの隠蔽性を高め、相互干渉を減らす。 ノイズレーダーは様々な組織によって多くの環境でプロトタイプ開発と試験が成功裏に行われているが、量子レーダーへの多大な投資は実際に運用されているプロトタイプやデモ機には続かなかったようである。 本研究の詳細な評価は, レーダー検出がターゲットに伝達されるエネルギーに依存しているという自明な事実から, 文献中の全てのQRタイプの検出性能が, NRタイプにおいて, より単純で安価な等価な古典的レーダーセットよりも桁違いであることを示している。 さらに、レーダ断面積と異なる量子レーダ断面積の欠如についても解説する。 したがって、様々な量子レーダーの提案は、特にステルスターゲットの発見という主張に限らず、有用な結果をもたらすことはできない。

Both Noise Radar and Quantum Radar, with some alleged common features, exploit the randomness of the transmitted signal to enhance radar covertness and to reduce mutual interference. While Noise Radar has been prototypically developed and successfully tested in many environments by different organizations, the significant investments on Quantum Radar seem not to be followed by practically operating prototypes or demonstrators. Starting from the trivial fact that radar detection depends on the energy transmitted on the target and backscattered by it, some detailed evaluations in this work show that the detection performance of all the proposed QR types in the literature are orders of magnitude below the ones of a much simpler and cheaper equivalent classica radar set, in particular of the NR type. Moreover, the absence of a, sometimes alleged, Quantum radar cross section different from the radar cross section is explained. Hence, the various Quantum Radar proposals cannot lead to any useful result, especially, but not limited to, the alleged detection of stealth targets.
翻訳日:2024-03-05 19:13:48 公開日:2024-02-29
# seed: サンプル効率のよいコード生成適応による大規模言語モデルのカスタマイズ

SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation ( http://arxiv.org/abs/2403.00046v1 )

ライセンス: Link先を確認
Xue Jiang, Yihong Dong, Zhi Jin, Ge Li(参考訳) 大きな言語モデル(LLM)はコード生成に大きな進歩を遂げているが、特定のシナリオでコード生成タスクに苦戦している。 これらのシナリオは通常、特定のニーズを満たすためにLLMの適応を必要とするが、実際に利用可能な限られたトレーニングデータは、コード生成のパフォーマンスを低下させる。 LLMをトレーニングサンプルが少ない新しいシナリオに効果的に適応する方法は、現在のコード生成において大きな課題である。 本稿では,コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。 SEEDは、LLMによる誤りを学習機会として活用し、エラー修正を使用して自身の欠点を克服し、効率的な学習を実現する。 具体的には、LLMによって生成されたエラーコードを特定し、コード修正にSelf-Reviseを採用し、修正されたコードでモデルを最適化し、継続的改善のために反復的にプロセスを適用する。 実験の結果,従来の微調整手法と比較して,SEEDはトレーニングサンプルが少ないほど優れた性能を示し,Pass@1では相対的に27.2%-325.0%向上した。 また,データセットのサンプルコードと比較して,モデルをより効率的に最適化する修正コードを生成する自己修正の有効性を検証する。 さらに、SEEDは様々なLLMに対して高い性能を示し、その一般化性を示している。

Although Large Language Models (LLMs) have made significant progress in code generation, they still struggle with code generation tasks in specific scenarios. These scenarios usually necessitate the adaptation of LLMs to fulfill specific needs, but the limited training data available in practice leads to poor code generation performance. How to effectively adapt LLMs to new scenarios with fewer training samples is a major challenge for current code generation. In this paper, we propose a novel adaptation approach named SEED, which stands for Sample-Efficient adaptation with Error-Driven learning for code generation. SEED leverages the errors made by LLMs as learning opportunities, using error revision to overcome its own shortcomings, thus achieving efficient learning. Specifically, SEED involves identifying error code generated by LLMs, employing Self-revise for code revision, optimizing the model with revised code, and iteratively adapting the process for continuous improvement. Experimental results show that, compared to traditional fine-tuning approaches, SEED achieves superior performance with fewer training samples, showing a relative improvement of 27.2%-325.0% in Pass@1. We also validate the effectiveness of Self-revise, which generates revised code that optimizes the model more efficiently compared to the code samples from datasets. Moreover, SEED consistently demonstrates strong performance across various LLMs, underscoring its generalizability.
翻訳日:2024-03-05 19:13:29 公開日:2024-02-29
# 確率勾配MCMCによる動的エッジ分割モデルのスケールアップ

Scaling up Dynamic Edge Partition Models via Stochastic Gradient MCMC ( http://arxiv.org/abs/2403.00044v1 )

ライセンス: Link先を確認
Sikun Yang, Heinz Koeppl(参考訳) エッジパーティションモデル(epm)は、静的グラフ構造データから重複するコミュニティ構造を抽出するための生成モデルである。 EPMでは、ガンマ過程(GaP)が適切な数の潜在コミュニティを推定するために採用され、各頂点にはガンマ分布正のメンバシップベクトルが与えられる。 多くの魅力的な特性があるにもかかわらず、epmの推論は一般にマルコフ連鎖モンテカルロ(mcmc)法を用いて行われ、大量のネットワークデータに適用できないようにする。 本稿では,各頂点をディリクレ事前仕様を用いて構築した正のメンバシップベクトルで表現し,ディリクレマルコフ連鎖構造を用いて頂点の時間進化挙動を捉えることにより,動的環境を考慮したEPMを一般化する。 単純実装ギブスサンプリング器を提案し, 負二項増分法を用いて後続計算を行った。 大規模ネットワークデータに対して,提案モデルにおける拡張性推論のための確率勾配チェインモンテカルロ(SG-MCMC)アルゴリズムを提案する。 実験の結果,新しい手法はリンク予測の点で競争性能を向上し,より高速であることがわかった。

The edge partition model (EPM) is a generative model for extracting an overlapping community structure from static graph-structured data. In the EPM, the gamma process (GaP) prior is adopted to infer the appropriate number of latent communities, and each vertex is endowed with a gamma distributed positive memberships vector. Despite having many attractive properties, inference in the EPM is typically performed using Markov chain Monte Carlo (MCMC) methods that prevent it from being applied to massive network data. In this paper, we generalize the EPM to account for dynamic enviroment by representing each vertex with a positive memberships vector constructed using Dirichlet prior specification, and capturing the time-evolving behaviour of vertices via a Dirichlet Markov chain construction. A simple-to-implement Gibbs sampler is proposed to perform posterior computation using Negative- Binomial augmentation technique. For large network data, we propose a stochastic gradient Markov chain Monte Carlo (SG-MCMC) algorithm for scalable inference in the proposed model. The experimental results show that the novel methods achieve competitive performance in terms of link prediction, while being much faster.
翻訳日:2024-03-05 19:13:05 公開日:2024-02-29
# RiNALMo: 構造予測タスクをうまく一般化できる汎用RNA言語モデル

RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks ( http://arxiv.org/abs/2403.00043v1 )

ライセンス: Link先を確認
Rafael Josip Peni\'c, Tin Vla\v{s}i\'c, Roland G. Huber, Yue Wan, Mile \v{S}iki\'c(参考訳) リボ核酸(RNA)は、基本的な生物学的過程において様々な重要な役割を果たす。 近年、RNAは興味深い薬物標的となり、その構造や機能の理解を改善する必要性を強調している。 長年にわたり、シークエンシング技術は膨大な量のラベルのないrnaデータを生み出し、重要な知識と可能性を隠す。 タンパク質言語モデルの成功に動機づけられ,リボ核酸言語モデル(rinalmo)を導入し,rnaの隠れコードを明らかにする。 RiNALMoは、これまでで最大のRNA言語モデルで、いくつかの利用可能なデータベースから3600万ドルの非コーディングRNAシークエンスで事前訓練された650ドルのパラメータを持つ。 RiNALMoは隠された知識を抽出し、RNA配列内に暗黙的に埋め込まれた構造情報をキャプチャすることができる。 RiNALMoは、いくつかの下流タスクで最先端の結果を達成する。 特に、その一般化能力は、未確認RNAファミリーを一般化するための二次構造予測のための他の深層学習手法の欠如を克服できることを示す。 コードはhttps://github.com/lbcb-sci/RiNALMoで公開されている。

Ribonucleic acid (RNA) plays a variety of crucial roles in fundamental biological processes. Recently, RNA has become an interesting drug target, emphasizing the need to improve our understanding of its structures and functions. Over the years, sequencing technologies have produced an enormous amount of unlabeled RNA data, which hides important knowledge and potential. Motivated by the successes of protein language models, we introduce RiboNucleic Acid Language Model (RiNALMo) to help unveil the hidden code of RNA. RiNALMo is the largest RNA language model to date with $650$ million parameters pre-trained on $36$ million non-coding RNA sequences from several available databases. RiNALMo is able to extract hidden knowledge and capture the underlying structure information implicitly embedded within the RNA sequences. RiNALMo achieves state-of-the-art results on several downstream tasks. Notably, we show that its generalization capabilities can overcome the inability of other deep learning methods for secondary structure prediction to generalize on unseen RNA families. The code has been made publicly available on https://github.com/lbcb-sci/RiNALMo.
翻訳日:2024-03-05 19:12:45 公開日:2024-02-29
# 量子ハードウェアルーフライン:ゲート表現性が量子プロセッサ設計に与える影響の評価

Quantum Hardware Roofline: Evaluating the Impact of Gate Expressivity on Quantum Processor Design ( http://arxiv.org/abs/2403.00132v1 )

ライセンス: Link先を確認
Justin Kalloor, Mathias Weiden, Ed Younis, John Kubiatowicz, Bert De Jong, Costin Iancu(参考訳) 現在の量子コンピュータの設計空間は拡張的で、明らかな勝利の解決策はない。 アルゴリズムを実行するのに最適なシステム構成は何ですか? 本稿では,nisqシステム間のハードウェア設計トレードオフを調査し,アルゴリズムとハードウェア設計の選択を導く。 評価はアルゴリズムのワークロードとアルゴリズムの忠実度モデルによって行われ、ゲート表現性、忠実度、クロストークといったアーキテクチャ的特徴をキャプチャする。 また、ゲート設計と選択の基準は、平均忠実度を最大化することから、アルゴリズム構造に対するゲート表現性を考慮したより包括的なアプローチへと拡張されるべきである。 我々はネイティブな絡み合ったゲート (cnot, ecr, cz, zz, xx, sycamore, $\sqrt{\text{iswap}}$), 提案ゲート (b gate, $\sqrt[4]{\text{cnot}}$, $\sqrt[8]{\text{cnot}}$) およびパラメータ付きゲート (fsim, xy) を考える。 我々の手法は、特定のシステム構成に対して最小限の回路表現を生成できるカスタム合成駆動回路コンパイルワークフローによって駆動される。 ハードウェアプラットフォームのアルゴリズムの適合性を評価する方法を提供することで、量子コンピューティングにおけるハードウェア・ソフトウェア共同設計の重要性を強調する。

The design space of current quantum computers is expansive with no obvious winning solution. This leaves practitioners with a clear question: "What is the optimal system configuration to run an algorithm?". This paper explores hardware design trade-offs across NISQ systems to guide algorithm and hardware design choices. The evaluation is driven by algorithmic workloads and algorithm fidelity models which capture architectural features such as gate expressivity, fidelity, and crosstalk. We also argue that the criteria for gate design and selection should be extended from maximizing average fidelity to a more comprehensive approach that takes into account the gate expressivity with respect to algorithmic structures. We consider native entangling gates (CNOT, ECR, CZ, ZZ, XX, Sycamore, $\sqrt{\text{iSWAP}}$), proposed gates (B Gate, $\sqrt[4]{\text{CNOT}}$, $\sqrt[8]{\text{CNOT}}$), as well as parameterized gates (FSim, XY). Our methodology is driven by a custom synthesis driven circuit compilation workflow, which is able to produce minimal circuit representations for a given system configuration. By providing a method to evaluate the suitability of algorithms for hardware platforms, this work emphasizes the importance of hardware-software co-design for quantum computing.
翻訳日:2024-03-05 19:07:46 公開日:2024-02-29
# UniTS: 統一時系列モデルの構築

UniTS: Building a Unified Time Series Model ( http://arxiv.org/abs/2403.00131v1 )

ライセンス: Link先を確認
Shanghua Gao, Teddy Koker, Owen Queen, Thomas Hartvigsen, Theodoros Tsiligkaridis, Marinka Zitnik(参考訳) 基礎モデル、特にLLMは、ディープラーニングを深く変えています。 多くのタスク固有のモデルをトレーニングする代わりに、スナップショットプロンプトや微調整によって、単一の事前訓練されたモデルを多くのタスクに適用できます。 しかし、現在の基礎モデルはシーケンスデータに適用されるが、時系列には適用されない。これは、固有の多様性とマルチドメインの時系列データセット、予測、分類、その他のタスクのタイプにまたがるタスク仕様のばらつき、およびタスク特定モデルの明らかな必要性により、固有の課題を示す。 我々は、普遍的なタスク仕様をサポートし、分類、予測、インプテーション、異常検出タスクを適応する統一時系列モデルであるunitsを開発した。 これは、動的線形演算子とともにシーケンスと可変アテンションを組み込んだ新しい統一ネットワークバックボーンによって実現され、統一モデルとして訓練される。 38のマルチドメインデータセットにまたがって、UNITSはタスク固有のモデルや自然言語ベースのLLMよりも優れたパフォーマンスを示している。 UNITSは、新しいデータドメインやタスクで評価すると、目覚ましいゼロショット、少数ショット、そして迅速な学習能力を示す。 ソースコードとデータセットはhttps://github.com/mims-harvard/unitsで入手できる。

Foundation models, especially LLMs, are profoundly transforming deep learning. Instead of training many task-specific models, we can adapt a single pretrained model to many tasks via fewshot prompting or fine-tuning. However, current foundation models apply to sequence data but not to time series, which present unique challenges due to the inherent diverse and multidomain time series datasets, diverging task specifications across forecasting, classification and other types of tasks, and the apparent need for task-specialized models. We developed UNITS, a unified time series model that supports a universal task specification, accommodating classification, forecasting, imputation, and anomaly detection tasks. This is achieved through a novel unified network backbone, which incorporates sequence and variable attention along with a dynamic linear operator and is trained as a unified model. Across 38 multi-domain datasets, UNITS demonstrates superior performance compared to task-specific models and repurposed natural language-based LLMs. UNITS exhibits remarkable zero-shot, few-shot, and prompt learning capabilities when evaluated on new data domains and tasks. The source code and datasets are available at https://github.com/mims-harvard/UniTS.
翻訳日:2024-03-05 19:07:17 公開日:2024-02-29
# ハエからロボットへ:動的パーチングのある小型クワッドコプターに逆着陸

From Flies to Robots: Inverted Landing in Small Quadcopters with Dynamic Perching ( http://arxiv.org/abs/2403.00128v1 )

ライセンス: Link先を確認
Bryan Habas, Bo Cheng(参考訳) 逆着陸は多くの動物のチラシの中で日常的な行動である。 しかし、この偉業を習得することは、特に高速な体回転(またはフリップ)と重力への着地でダイナミックなパーチを行うロボットチラシにとって大きな課題となる。 ハエの逆着陸は、光学的流れの感覚が、様々な着陸行動に繋がるボディフリップの正確なトリガーと制御と密接に関連していることを示唆している。 この知見に基づき, 任意の天井設置条件に対する制御方針の一般化により, ハエの着陸行動を小型クワッドコプターで再現することを目的とした。 まず,強化学習をシミュレーションに活用し,天井面の速度と方向の広い範囲にわたって,知覚運動ペアを最適化した。 次に,センサとモータのペアを連続的な拡張現実空間における2段階制御ポリシーに変換する。 制御ポリシは、一級サポートベクターマシンを使用する第1段階のフリップトリガーポリシと、フィードフォワードニューラルネットワークとして実装された第2段階のフリップアクションポリシで構成される。 逆ランディングポリシを物理システムに転送するために,ドメインランダム化とシステム識別技術を用いて,ゼロショット・シム・トゥ・リアル転送を行った。 その結果,小型クワッドコプターにおけるロバストな逆ランディング動作を達成し,ハエで観測された現象を模倣した。

Inverted landing is a routine behavior among a number of animal fliers. However, mastering this feat poses a considerable challenge for robotic fliers, especially to perform dynamic perching with rapid body rotations (or flips) and landing against gravity. Inverted landing in flies have suggested that optical flow senses are closely linked to the precise triggering and control of body flips that lead to a variety of successful landing behaviors. Building upon this knowledge, we aimed to replicate the flies' landing behaviors in small quadcopters by developing a control policy general to arbitrary ceiling-approach conditions. First, we employed reinforcement learning in simulation to optimize discrete sensory-motor pairs across a broad spectrum of ceiling-approach velocities and directions. Next, we converted the sensory-motor pairs to a two-stage control policy in a continuous augmented-optical flow space. The control policy consists of a first-stage Flip-Trigger Policy, which employs a one-class support vector machine, and a second-stage Flip-Action Policy, implemented as a feed-forward neural network. To transfer the inverted-landing policy to physical systems, we utilized domain randomization and system identification techniques for a zero-shot sim-to-real transfer. As a result, we successfully achieved a range of robust inverted-landing behaviors in small quadcopters, emulating those observed in flies.
翻訳日:2024-03-05 19:06:55 公開日:2024-02-29
# chatgptによる翻訳プロンプト:翻訳ブリーフとペルソナプロンプトの比較分析

Prompting ChatGPT for Translation: A Comparative Analysis of Translation Brief and Persona Prompts ( http://arxiv.org/abs/2403.00127v1 )

ライセンス: Link先を確認
Sui He(参考訳) LLMのプロンプトエンジニアリングは翻訳品質を改善する可能性を示している。 しかし、プロンプトデザインに翻訳概念を組み込む可能性はほとんど未検討のままである。 そこで本稿では,ChatGPTにおける翻訳作業の素早い設計に,簡単な翻訳の概念ツールと翻訳者および著者のペルソナを組み込むことの有効性について論じる。 また, 翻訳作業において, 人から人へのコミュニケーションを促進するために構築的な要素があるものの, ChatGPTの翻訳品質の向上には有効性が限られていることが示唆された。 これは、翻訳理論家や実践者が人間の機械の相互作用を含むこの新たなワークフローにおいて、人間から人間のコミュニケーションパラダイムに根ざした現在の概念的ツールセットをどのように開発できるかに関するより探索的な研究の必要性を強調する。

Prompt engineering in LLMs has shown potential for improving translation quality. However, the potential of incorporating translation concepts in prompt design remains largely underexplored. Against this backdrop, this paper discusses the effectiveness of incorporating the conceptual tool of translation brief and the personas of translator and author into prompt design for translation tasks in ChatGPT. Findings suggest that, although certain elements are constructive in facilitating human to human communication for translation tasks, their effectiveness is limited for improving translation quality in ChatGPT. This accentuates the need for more explorative research on how translation theorists and practitioners can develop the current set of conceptual tools rooted in the human to human communication paradigm for translation purposes in this emerging workflow involving human machine interaction.
翻訳日:2024-03-05 19:06:30 公開日:2024-02-29
# FAC$2$E: 言語と認知の解離による大規模言語モデルの能力向上

FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition ( http://arxiv.org/abs/2403.00126v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Bang Liu, and Lingfei Wu(参考訳) 大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 しかし、そのようなパラダイムはきめ細かい言語と認知スキルを包括的に区別することができず、llmsの能力に十分な解釈が欠如している。 本稿では,細粒度および認識接地llmsの能力評価の枠組みであるfac$^2$eを提案する。 具体的には,LLMの評価を多次元かつ説明可能な方法で定式化し,言語関連能力と認知関連能力とを解離する。 さらに, LLMから中間的推論を抽出することにより, 関連する知識の想起, 知識の活用, 問題解決という3つのサブステップに, 特定の能力を適用するプロセスをさらに分解する。 最後に、FAC$^2$Eは、各細粒度機能のそれぞれのサブステップを評価し、LSMの2面診断を提供する。 FAC$^2$Eを用いて、モデル間での知識利用の共通不足を特定し、この問題を緩和するための簡単な知識強化手法を提案する。 その結果,将来的な性能向上だけでなく,今後のLCMの進歩の方向性も明らかにした。

Large language models (LLMs) are primarily evaluated by overall performance on various text understanding and generation tasks. However, such a paradigm fails to comprehensively differentiate the fine-grained language and cognitive skills, rendering the lack of sufficient interpretation to LLMs' capabilities. In this paper, we present FAC$^2$E, a framework for Fine-grAined and Cognition-grounded LLMs' Capability Evaluation. Specifically, we formulate LLMs' evaluation in a multi-dimensional and explainable manner by dissociating the language-related capabilities and the cognition-related ones. Besides, through extracting the intermediate reasoning from LLMs, we further break down the process of applying a specific capability into three sub-steps: recalling relevant knowledge, utilizing knowledge, and solving problems. Finally, FAC$^2$E evaluates each sub-step of each fine-grained capability, providing a two-faceted diagnosis for LLMs. Utilizing FAC$^2$E, we identify a common shortfall in knowledge utilization among models and propose a straightforward, knowledge-enhanced method to mitigate this issue. Our results not only showcase promising performance enhancements but also highlight a direction for future LLM advancements.
翻訳日:2024-03-05 19:06:17 公開日:2024-02-29
# 医療と公衆衛生におけるquantum readiness: 量子文学的労働力の構築

Quantum Readiness in Healthcare and Public Health: Building a Quantum Literate Workforce ( http://arxiv.org/abs/2403.00122v1 )

ライセンス: Link先を確認
Jonathan B VanGeest, Kieran J Fogarty, William G Hervey, Robert A Hanson, Suresh Nair and Timothy A Akers(参考訳) 量子コンピューティング、暗号、センシングなどを含む量子技術は、材料科学から創薬まで幅広い分野に革命をもたらす。 その大きな可能性にもかかわらず、公衆衛生への影響はほとんど見過ごされ、認識と準備の重大なギャップが浮かび上がっている。 この監視は即時行動を必要とし、公衆衛生は発展のためのツールとして量子技術にほとんど気づかないままである。 量子健康疫学と量子健康情報学と呼ばれる疫学と健康情報学への量子原理の適用は、病気の監視、予測、モデリング、健康データの分析を根本的に変える可能性がある。 しかし、公衆衛生労働や教育パイプラインには量子の専門知識が不足している。 このギャップは、公衆衛生従事者、リーダー、学生の間で、リスクや倫理的配慮に対処しつつ、新たな機会を活用するための量子リテラシーの開発が急務となる。 インタラクティブなシミュレーション、ゲーム、ビジュアルモデル、その他のプラットフォームなどのイノベーティブな教育手法は、高度な物理学や数学を必要とせずに知識ギャップをブリッジするための実行可能なソリューションを提供する。 しかし、医療分野の量子時代が近づきつつある中で、適応の機会は薄れつつある。 公衆衛生はその教育的アプローチ、労働戦略、データガバナンス、組織文化の更新を緊急に重視し、量子破壊の課題を積極的に満たし、量子準備が整うことが不可欠である。

Quantum technologies, including quantum computing, cryptography, and sensing, among others, are set to revolutionize sectors ranging from materials science to drug discovery. Despite their significant potential, the implications for public health have been largely overlooked, highlighting a critical gap in recognition and preparation. This oversight necessitates immediate action, as public health remains largely unaware of quantum technologies as a tool for advancement. The application of quantum principles to epidemiology and health informatics, termed quantum health epidemiology and quantum health informatics, has the potential to radically transform disease surveillance, prediction, modeling, and analysis of health data. However, there is a notable lack of quantum expertise within the public health workforce and educational pipelines. This gap underscores the urgent need for the development of quantum literacy among public health practitioners, leaders, and students to leverage emerging opportunities while addressing risks and ethical considerations. Innovative teaching methods, such as interactive simulations, games, visual models, and other tailored platforms, offer viable solutions for bridging knowledge gaps without the need for advanced physics or mathematics. However, the opportunity to adapt is fleeting as the quantum era in healthcare looms near. It is imperative that public health urgently focuses on updating its educational approaches, workforce strategies, data governance, and organizational culture to proactively meet the challenges of quantum disruption thereby becoming quantum ready.
翻訳日:2024-03-05 19:05:55 公開日:2024-02-29
# ヘテロジニアスクライアントを用いたフェデレーション線形コンテキストバンディット

Federated Linear Contextual Bandits with Heterogeneous Clients ( http://arxiv.org/abs/2403.00116v1 )

ライセンス: Link先を確認
Ethan Blaser, Chuanhao Li, Hongning Wang(参考訳) 複数のエージェントにまたがる協調的およびプライベートなバンディット学習の需要は、分散システムから生成されるデータ量の増加によって急増している。 federated bandit learningは、プライベートで効率的、分散化されたオンライン学習のための有望なフレームワークとして登場した。 しかし、これまでのほとんど全ての研究は、クライアントの同質性の強い仮定、すなわち、すべての参加するクライアントは同じバンドモデルを共有することに依存していた。 これは、実際にフェデレートされたバンディット学習の適用を著しく制限する。 本研究では,フェデレーション学習環境下での協調的バンディット学習のためのクライアントをクラスタ化するヘテロジニアスクライアントのためのフェデレーション・バンディットの新しいアプローチを提案する。 提案アルゴリズムは,サーバが共有できるモデルが1つしかないことをフェデレートした学習の下で,すべてのクライアントに対して,非自明なサブ線形後悔と通信コストを実現する。

The demand for collaborative and private bandit learning across multiple agents is surging due to the growing quantity of data generated from distributed systems. Federated bandit learning has emerged as a promising framework for private, efficient, and decentralized online learning. However, almost all previous works rely on strong assumptions of client homogeneity, i.e., all participating clients shall share the same bandit model; otherwise, they all would suffer linear regret. This greatly restricts the application of federated bandit learning in practice. In this work, we introduce a new approach for federated bandits for heterogeneous clients, which clusters clients for collaborative bandit learning under the federated learning setting. Our proposed algorithm achieves non-trivial sub-linear regret and communication cost for all clients, subject to the communication protocol under federated learning that at anytime only one model can be shared by the server.
翻訳日:2024-03-05 19:05:28 公開日:2024-02-29
# 分類学的品質特性の補遺と評価

A compendium and evaluation of taxonomy quality attributes ( http://arxiv.org/abs/2403.00111v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Waleed Adbeen(参考訳) 序論:分類学は特定の領域に関する知識を簡潔に捉え、仲間間で共通の理解を確立する。 研究者は分類学を使って特定の知識領域に関する情報を伝達したり、自動化タスクをサポートする。 Aims: ソフトウェアエンジニアリングにおける分類学の役割にもかかわらず、その品質はめったに評価されません。 本研究の目的は,実用的指標を提供する分類学的品質属性を特定し,定義することであり,研究者や実践者が分類法を比較し,そのタスクに最も適した属性を選択することを支援する。 方法: ソフトウェア工学および情報システム研究から324の論文をレビューし, 提供時に品質特性と測定値の定義を合成した。 3つの領域の6つの分類群に対する測定の有用性を検討した。 結果:7つの品質属性の定義を提案し,分類の質を評価するために用いられる内部および外部の測定法を提案する。 2つの測定値に対して、Pythonの実装を提供します。 この測定は,特定の目的に最適な分類基準を決定するのに有用であることがわかった。 結論:分類学を作成するためのガイドラインはいくつかあるが、分類学を比較するための実用的な基準が欠如している。 本稿では,このギャップを埋めるために,文献の豊富な7種,重複しない分類の質特性と対応する測定値から合成する。 今後の研究は、有用性と実証的検証のさらなる評価を含む。

Introduction: Taxonomies capture knowledge about a particular domain in a succinct manner and establish a common understanding among peers. Researchers use taxonomies to convey information about a particular knowledge area or to support automation tasks, and practitioners use them to enable communication beyond organizational boundaries. Aims: Despite this important role of taxonomies in software engineering, their quality is seldom evaluated. Our aim is to identify and define taxonomy quality attributes that provide practical measurements, helping researchers and practitioners to compare taxonomies and choose the one most adequate for the task at hand. Methods: We reviewed 324 publications from software engineering and information systems research and synthesized, when provided, the definitions of quality attributes and measurements. We evaluated the usefulness of the measurements on six taxonomies from three domains. Results: We propose the definition of seven quality attributes and suggest internal and external measurements that can be used to assess a taxonomy's quality. For two measurements we provide implementations in Python. We found the measurements useful for deciding which taxonomy is best suited for a particular purpose. Conclusion: While there exist several guidelines for creating taxonomies, there is a lack of actionable criteria to compare taxonomies. In this paper, we fill this gap by synthesizing from a wealth of literature seven, non-overlapping taxonomy quality attributes and corresponding measurements. Future work encompasses their further evaluation of usefulness and empirical validation.
翻訳日:2024-03-05 19:05:14 公開日:2024-02-29
# ロラ・アズ・ア・ア・アタック! 共有再生シナリオ下でのllm安全性のピアス

LoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario ( http://arxiv.org/abs/2403.00108v1 )

ライセンス: Link先を確認
Hongyi Liu, Zirui Liu, Ruixiang Tang, Jiayi Yuan, Shaochen Zhong, Yu-Neng Chuang, Li Li, Rui Chen, Xia Hu(参考訳) 微調整LDMは、タスク固有のパフォーマンスを高め、モデル行動が人間の好みに合致することを保証するために不可欠である。 さまざまな微調整方法の中で、LoRAはその効率性と使いやすさで人気があり、エンドユーザはオープンソースプラットフォームに軽量なLoRAモジュールを簡単にポストし、採用して、異なるカスタマイズのためにモデルをカスタマイズすることができる。 しかし、このような便利な共有プレイ設定によって新たな攻撃面が開き、攻撃者はバックドアインジェクションなどの攻撃対象としてLoRAをレンダリングし、敵のLoRAをコミュニティに広く配布することができる。 これは有害な結果をもたらす可能性がある。 LoRAモジュールを共有する大きなリスクがあるにもかかわらず、この側面は十分に検討されていない。 このギャップを埋めるため,本研究は,拡大するシェア・アンド・プレイシナリオにおいて可能となる攻撃機会を徹底的に調査する。 具体的には,LoRAモジュールにバックドアを注入し,LoRA感染機構を深く掘り下げる方法について検討する。 LoRAバックドアインジェクションではトレーニングフリーのメカニズムが可能であることがわかった。 また,複数の LoRA 適応と LoRA ベースのバックドアトランスファビリティが同時に存在することによるバックドア攻撃の影響も確認した。 我々の狙いは、LoRA-as-an-Attackによる潜在的な影響を積極的に防止するため、新興のシェア・アンド・プレイシナリオにおける潜在的なリスクの認識を高めることである。 警告: この論文はモデルによって生成される潜在的攻撃的コンテンツを含んでいる。

Fine-tuning LLMs is crucial to enhancing their task-specific performance and ensuring model behaviors are aligned with human preferences. Among various fine-tuning methods, LoRA is popular for its efficiency and ease to use, allowing end-users to easily post and adopt lightweight LoRA modules on open-source platforms to tailor their model for different customization. However, such a handy share-and-play setting opens up new attack surfaces, that the attacker can render LoRA as an attacker, such as backdoor injection, and widely distribute the adversarial LoRA to the community easily. This can result in detrimental outcomes. Despite the huge potential risks of sharing LoRA modules, this aspect however has not been fully explored. To fill the gap, in this study we thoroughly investigate the attack opportunities enabled in the growing share-and-play scenario. Specifically, we study how to inject backdoor into the LoRA module and dive deeper into LoRA's infection mechanisms. We found that training-free mechanism is possible in LoRA backdoor injection. We also discover the impact of backdoor attacks with the presence of multiple LoRA adaptions concurrently as well as LoRA based backdoor transferability. Our aim is to raise awareness of the potential risks under the emerging share-and-play scenario, so as to proactively prevent potential consequences caused by LoRA-as-an-Attack. Warning: the paper contains potential offensive content generated by models.
翻訳日:2024-03-05 19:04:54 公開日:2024-02-29
# 縦断的カウンターファクト:制約と機会

Longitudinal Counterfactuals: Constraints and Opportunities ( http://arxiv.org/abs/2403.00105v1 )

ライセンス: Link先を確認
Alexander Asemota and Giles Hooker(参考訳) 反事実的説明は、データ主題へのリコースを提供する一般的なアプローチである。 しかし、現在の方法論では、対象者によって達成できない反事実を生成できるため、事実を正当化することは困難である。 アルゴリズム的会話に反事実を用いる場合、妥当性は重要な品質であるとの合意があるが、基礎的真理性は定量化が難しいままである。 本稿では,反事実の妥当性を評価・改善するための長手データを提案する。 特に,前後差と反事実差を比較する指標を開発し,先行観測された変化と反事実がどの程度類似しているかを評価する。 さらに、この指標を用いて、妥当な反事実を生成する。 最後に,言論に反事実を用いることの難しさについて論じる。

Counterfactual explanations are a common approach to providing recourse to data subjects. However, current methodology can produce counterfactuals that cannot be achieved by the subject, making the use of counterfactuals for recourse difficult to justify in practice. Though there is agreement that plausibility is an important quality when using counterfactuals for algorithmic recourse, ground truth plausibility continues to be difficult to quantify. In this paper, we propose using longitudinal data to assess and improve plausibility in counterfactuals. In particular, we develop a metric that compares longitudinal differences to counterfactual differences, allowing us to evaluate how similar a counterfactual is to prior observed changes. Furthermore, we use this metric to generate plausible counterfactuals. Finally, we discuss some of the inherent difficulties of using counterfactuals for recourse.
翻訳日:2024-03-05 19:04:30 公開日:2024-02-29
# MLに基づく摂動に対する混雑予測器のロバスト性と一般化について

On Robustness and Generalization of ML-Based Congestion Predictors to Valid and Imperceptible Perturbations ( http://arxiv.org/abs/2403.00103v1 )

ライセンス: Link先を確認
Chester Holtz, Yucheng Wang, Chung-Kuan Cheng, Bill Lin(参考訳) コンピュータ支援設計(CAD)の流れ、特にディープラーニングに基づく手法を通じて機械学習(ML)ベースの技術の利用に大きな関心が寄せられている。 しかしながら、ディープラーニング手法はいくつかのアプリケーションで最先端のパフォーマンスを達成したが、最近の研究は、ニューラルネットワークは一般的に、小さな、慎重に選択された入力の摂動(例えば、画像内の1ピクセルの変化)に対して脆弱であることを示した。 本研究では,MLベースのEDAツールのコンテキストにおける堅牢性について検討する。 私たちが認識している限り、私たちはMLベースのEDAという文脈でこの概念を最初に探求しています。 まず、ネットリストやセル配置で定義されたvlsiレイアウト問題に特化した新しいインプセプティビリティの概念について述べる。 インプセプティビリティの定義は、レイアウトの摂動がグローバルルーティングを変更することはないという保証によって特徴づけられる。 次に、現状のCNNとGNNに基づく渋滞モデルが、知覚不能な摂動に対して脆さを示すことを示した。 すなわち、少数の細胞(例えば、細胞の1%-5%)が、世界的混雑の指標が影響を受けないことを保証するように、その位置がずれている場合(例えば、レイアウト空間の0.001%が逆向きにシフトした設計の1%は、最大90%の混雑の予測を減少させるが、摂動による混雑の変化は生じない)。 言い換えれば、任意の入力レイアウトに対して、予測器の品質を任意に低下させることができる(つまり、設計が「凝縮フリー」であると予測できる)。 次に,これらの摂動に対するロバスト性を改善する予測器の訓練手法について述べる。 我々の研究は、CADエンジニアが、堅牢で高品質な結果を保証するために、EDAフローにニューラルネットワークベースのメカニズムを統合する際に慎重であることを示します。

There is substantial interest in the use of machine learning (ML)-based techniques throughout the electronic computer-aided design (CAD) flow, particularly methods based on deep learning. However, while deep learning methods have achieved state-of-the-art performance in several applications, recent work has demonstrated that neural networks are generally vulnerable to small, carefully chosen perturbations of their input (e.g. a single pixel change in an image). In this work, we investigate robustness in the context of ML-based EDA tools -- particularly for congestion prediction. As far as we are aware, we are the first to explore this concept in the context of ML-based EDA. We first describe a novel notion of imperceptibility designed specifically for VLSI layout problems defined on netlists and cell placements. Our definition of imperceptibility is characterized by a guarantee that a perturbation to a layout will not alter its global routing. We then demonstrate that state-of-the-art CNN and GNN-based congestion models exhibit brittleness to imperceptible perturbations. Namely, we show that when a small number of cells (e.g. 1%-5% of cells) have their positions shifted such that a measure of global congestion is guaranteed to remain unaffected (e.g. 1% of the design adversarially shifted by 0.001% of the layout space results in a predicted decrease in congestion of up to 90%, while no change in congestion is implied by the perturbation). In other words, the quality of a predictor can be made arbitrarily poor (i.e. can be made to predict that a design is "congestion-free") for an arbitrary input layout. Next, we describe a simple technique to train predictors that improves robustness to these perturbations. Our work indicates that CAD engineers should be cautious when integrating neural network-based mechanisms in EDA flows to ensure robust and high-quality results.
翻訳日:2024-03-05 19:04:18 公開日:2024-02-29
# 性能要件検証とテスト環境生成のためのアプローチ

An approach for performance requirements verification and test environments generation ( http://arxiv.org/abs/2403.00099v1 )

ライセンス: Link先を確認
Waleed Abdeen, Xingru Chen, Michael Unterkalmsteiner(参考訳) モデルベーステスト(MBT)は、テスト対象システムの意図した振る舞いを指定するモデルによるテストケースの設計と実行をサポートする手法である。 MBTに関する体系的な文献レビューは一般的に存在するが、性能要件のモデリングとテストに関する技術の現状は、あまり注目されていない。 そこで本研究では,モデルに基づくパフォーマンステストに関する体系的マッピングを行った。 次に,自然言語ソフトウェア要求仕様の検討を行い,性能要件の特定方法について検討した。 MBT技術が要求仕様の欠陥を識別するなどモデリングの大きな利点を支えなかったため,PRO-TEST(Performance Requirements verificatiOn and Test EnvironmentS generaTion approach)を開発した。 最後に、149の要件仕様でプロテストを評価した。 システムマッピング研究から57の基礎研究を発見し分析し,50の性能要求モデル抽出を行った。 しかし、これらのモデルは要件の検証、テスト容易性の確保、最小限のテストケースの生成であるmbtの目標を達成していない。 77のソフトウェア要件仕様書(srs)を解析し、それらのsrsから149のパフォーマンス要件を抽出し、テスト前ではパフォーマンス要件をモデル化し、それらの要件における問題を見つけ、欠落している要件を検出できることを示した。 149のモデル化性能要件において,3つの不定形要件,43の定型化要件,180の定型化パラメータが検出された。 さらに,これらのモデルから96種類のテスト環境を作成した。 プロテストでパフォーマンス要件をモデル化することで、あいまいさ、測定可能性、完全性に関連する要件の問題を特定できる。 さらに、テスト環境のパラメータを生成することもできる。

Model-based testing (MBT) is a method that supports the design and execution of test cases by models that specify the intended behaviors of a system under test. While systematic literature reviews on MBT in general exist, the state of the art on modeling and testing performance requirements has seen much less attention. Therefore, we conducted a systematic mapping study on model-based performance testing. Then, we studied natural language software requirements specifications in order to understand which and how performance requirements are typically specified. Since none of the identified MBT techniques supported a major benefit of modeling, namely identifying faults in requirements specifications, we developed the Performance Requirements verificatiOn and Test EnvironmentS generaTion approach (PRO-TEST). Finally, we evaluated PRO-TEST on 149 requirements specifications. We found and analyzed 57 primary studies from the systematic mapping study and extracted 50 performance requirements models. However, those models don't achieve the goals of MBT, which are validating requirements, ensuring their testability, and generating the minimum required test cases. We analyzed 77 Software Requirements Specification (SRS) documents, extracted 149 performance requirements from those SRS, and illustrate that with PRO-TEST we can model performance requirements, find issues in those requirements and detect missing ones. We detected three not-quantifiable requirements, 43 not-quantified requirements, and 180 underspecified parameters in the 149 modeled performance requirements. Furthermore, we generated 96 test environments from those models. By modeling performance requirements with PRO-TEST, we can identify issues in the requirements related to their ambiguity, measurability, and completeness. Additionally, it allows to generate parameters for test environments.
翻訳日:2024-03-05 19:03:43 公開日:2024-02-29
# パンデミック予防・対応CCワークショップ報告

Future of Pandemic Prevention and Response CCC Workshop Report ( http://arxiv.org/abs/2403.00096v1 )

ライセンス: Link先を確認
David Danks, Rada Mihalcea, Katie Siek, Mona Singh, Brian Dixon, and Haley Griffin(参考訳) 本報告は,医療,コンピュータ科学,社会科学の研究者と実践者が集結し,どのような教訓と,主に研究においてどのような行動を取ることができるかを検討する2日間の多分野ワークショップの議論と結論をまとめたものである。 一つの一貫した観察は、パンデミックの状況だけでなく、多くの医療ネットワークやコミュニティが危機状態にあるため、平和時の発展についても考えることに大きなメリットがあるということである。 Attendees氏は、新型コロナウイルス(COVID-19)パンデミックが私たちの健康とコンピューティングシステムのギャップを拡大し、現在と将来のコンピューティング技術がこれらのギャップを埋め、次のパンデミックの軌道を改善する方法について論じた。 ワークショップから3つの主要なコンピューティングテーマ - モデル、データ、インフラストラクチャ - が登場した。 計算モデルは、病院の供給需要を予想するから、病院や社会サービス提供者の介護能力を決定するまで、パンデミックの間、非常に重要である。 正確で信頼できるモデルは命を救うことができ、コミュニティのリーダーに政策決定を知らせる。 ヘルスシステムユーザは、モデルを適用する際に成功するためには、正確で信頼性の高いデータが必要です。 これには、医療組織全体のデータと測定の標準化、データインフラストラクチャの近代化、モデル開発、検証、アプリケーションで共有しながらデータをプライベートに保つ方法が必要である。 最後に、多くの医療システムには、データ上にモデルを構築したり、通常の操作でモデルを使用したり、あるいはデータに確実にアクセスするために必要なデータ、計算、通信インフラストラクチャが欠けている。 堅牢でタイムリーなコンピューティング研究は、危機(パンデミックなど)や比較的平和な時期に命を救うための医療活動を支援する可能性を秘めている。

This report summarizes the discussions and conclusions of a 2-day multidisciplinary workshop that brought together researchers and practitioners in healthcare, computer science, and social sciences to explore what lessons were learned and what actions, primarily in research, could be taken. One consistent observation was that there is significant merit in thinking not only about pandemic situations, but also about peacetime advances, as many healthcare networks and communities are now in a perpetual state of crisis. Attendees discussed how the COVID-19 pandemic amplified gaps in our health and computing systems, and how current and future computing technologies could fill these gaps and improve the trajectory of the next pandemic. Three major computing themes emerged from the workshop: models, data, and infrastructure. Computational models are extremely important during pandemics, from anticipating supply needs of hospitals, to determining the care capacity of hospital and social service providers, to projecting the spread of the disease. Accurate, reliable models can save lives, and inform community leaders on policy decisions. Health system users require accurate, reliable data to achieve success when applying models. This requires data and measurement standardization across health care organizations, modernizing the data infrastructure, and methods for ensuring data remains private while shared for model development, validation, and application. Finally, many health care systems lack the data, compute, and communication infrastructures required to build models on their data, use those models in ordinary operations, or even to reliably access their data. Robust and timely computing research has the potential to better support healthcare works to save lives in times of crisis (e.g., pandemics) and today during relative peacetime.
翻訳日:2024-03-05 19:03:12 公開日:2024-02-29
# 反復的ランダムサンプリングによるjigsawパズルの解法--スキル熟達と並行して

Solving Jigsaw Puzzles using Iterative Random Sampling: Parallels with Development of Skill Mastery ( http://arxiv.org/abs/2403.00095v1 )

ライセンス: Link先を確認
Neil Zhao, Diana Zheng(参考訳) スキルの習得はあらゆる分野で成功の優先事項である。 本稿では,スキル熟達の発達とジグソーパズルの解法について考察する。 反復的ランダムサンプリングはジグソーパズルを2つのフェーズで解く: ほとんど変化せず、時間の大部分を占めるラグフェーズと、迅速かつ差し迫ったパズル完了をマークする成長フェーズである。 シングルピース数とより大きなピース数の比率の変化は、スキル熟達の時系列と進行によってオーバーレイすることができる。 ピース間の接続の発展に重点が置かれており、パズルの完成度向上とスキルの習得の指標となっている。 我々の原稿は、共通のレクリエーション活動の文脈において、スキルの習得の素直な視覚を提供する。

Skill mastery is a priority for success in all fields. We present a parallel between the development of skill mastery and the process of solving jigsaw puzzles. We show that iterative random sampling solves jigsaw puzzles in two phases: a lag phase that is characterized by little change and occupies the majority of the time, and a growth phase that marks rapid and imminent puzzle completion. Changes in the proportions of the number of single pieces and larger pieces can be overlaid on the timeline and progression of skill mastery. An emphasis is placed on the development of connections between pieces, which serves as an indicator of increasing puzzle completion and increasing skill mastery. Our manuscript provides a straightforward visual of skill mastery in the context of a common recreational activity.
翻訳日:2024-03-05 19:02:43 公開日:2024-02-29
# PROC2PDDL: テキストからのオープンドメイン計画表現

PROC2PDDL: Open-Domain Planning Representations from Texts ( http://arxiv.org/abs/2403.00092v1 )

ライセンス: Link先を確認
Tianyi Zhang, Li Zhang, Zhaoyi Hou, Ziyu Wang, Yuling Gu, Peter Clark, Chris Callison-Burch, Niket Tandon(参考訳) テキストベースの環境での計画は、AIシステムにとって引き続き大きな課題である。 最近のアプローチでは、計画ドメイン定義(PDDLなど)の予測に言語モデルを使用しているが、クローズドドメインシミュレーション環境でのみ評価されている。 そこで我々は,open-domain procedural texts with paired with expert-annotated pddl representations を含む最初のデータセット proc2pddl を提案する。 このデータセットを用いて、動作の前提条件と効果を定義する上で、最先端モデルを評価する。 以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。 本分析は, 統語的誤りと意味的誤りの両方を示し, ドメイン固有のプラゴラムの生成と事象の推論の両方においてLMが欠如していることを示している。 この分析とデータセットは、LMのベストとフォーマルな計画の統合に向けた今後の進歩に役立つことを願っています。

Planning in a text-based environment continues to be a major challenge for AI systems. Recent approaches have used language models to predict a planning domain definition (e.g., PDDL) but have only been evaluated in closed-domain simulated environments. To address this, we present Proc2PDDL , the first dataset containing open-domain procedural texts paired with expert-annotated PDDL representations. Using this dataset, we evaluate state-of-the-art models on defining the preconditions and effects of actions. We show that Proc2PDDL is highly challenging, with GPT-3.5's success rate close to 0% and GPT-4's around 35%. Our analysis shows both syntactic and semantic errors, indicating LMs' deficiency in both generating domain-specific prgorams and reasoning about events. We hope this analysis and dataset helps future progress towards integrating the best of LMs and formal planning.
翻訳日:2024-03-05 19:02:31 公開日:2024-02-29
# ブラックボックスポリシーを超えて:解釈可能かつ検証可能なhvac制御のための学習エージェントの設計再考

Go Beyond Black-box Policies: Rethinking the Design of Learning Agent for Interpretable and Verifiable HVAC Control ( http://arxiv.org/abs/2403.00172v1 )

ライセンス: Link先を確認
Zhiyu An, Xianzhong Ding, Wan Du(参考訳) 近年の研究では, 暖房, 換気, 空調システムのエネルギー効率を高めるためのモデルベース強化学習(MBRL)の可能性が示されている。 しかし、既存の手法はブラックボックスの熱力学モデルと確率的オプティマイザに依存しており、信頼性の保証が欠如し、健康へのリスクが生じる。 本研究では,既存の熱力学モデルと過去のデータから抽出した決定木を用いて,HVACコントローラを再設計することで,信頼性のボトルネックを克服する。 我々の決定木に基づく政策は、現在のMBRL法よりも決定的、検証可能、解釈可能、エネルギー効率が高い。 まず、ドメイン知識に基づくhvac制御において、rlエージェントの新たな検証基準を導入する。 第2に、検証可能な決定木ポリシーを生成するポリシー抽出手順を開発する。 熱力学モデル入力の高次元性は,政策抽出の効率を阻害することを発見した。 次元的課題に取り組むために,過去のデータ分布を前提とした重要サンプリングを活用し,政策抽出効率を大幅に向上させる。 最後に,制御ポリシの信頼性を保証するオフライン検証アルゴリズムを提案する。 広範な実験により、計算オーバーヘッドの1127倍削減に加えて、68.4%の省エネと人間の快適性向上を14.8%向上させることが示された。 私たちのコードとデータはhttps://github.com/ryeii/veri_hvacで利用可能です。

Recent research has shown the potential of Model-based Reinforcement Learning (MBRL) to enhance energy efficiency of Heating, Ventilation, and Air Conditioning (HVAC) systems. However, existing methods rely on black-box thermal dynamics models and stochastic optimizers, lacking reliability guarantees and posing risks to occupant health. In this work, we overcome the reliability bottleneck by redesigning HVAC controllers using decision trees extracted from existing thermal dynamics models and historical data. Our decision tree-based policies are deterministic, verifiable, interpretable, and more energy-efficient than current MBRL methods. First, we introduce a novel verification criterion for RL agents in HVAC control based on domain knowledge. Second, we develop a policy extraction procedure that produces a verifiable decision tree policy. We found that the high dimensionality of the thermal dynamics model input hinders the efficiency of policy extraction. To tackle the dimensionality challenge, we leverage importance sampling conditioned on historical data distributions, significantly improving policy extraction efficiency. Lastly, we present an offline verification algorithm that guarantees the reliability of a control policy. Extensive experiments show that our method saves 68.4% more energy and increases human comfort gain by 14.8% compared to the state-of-the-art method, in addition to an 1127x reduction in computation overhead. Our code and data are available at https://github.com/ryeii/Veri_HVAC
翻訳日:2024-03-05 18:57:43 公開日:2024-02-29
# AlloyASG: Alloy Predicate Code Representation as a compact structurely Balanced Graph

AlloyASG: Alloy Predicate Code Representation as a Compact Structurally Balanced Graph ( http://arxiv.org/abs/2403.00170v1 )

ライセンス: Link先を確認
Guanxuan Wu and Allison Sullivan(参考訳) プログラム解析と自動バグ修正の分野では、プログラムのソースコードの抽象的な解釈を抽象構文木(ast)として作成することが一般的である。 しかし、ASTはデータサイズが指数関数的に大きくなるのは、ASTが木に別々にリストされた同一ノードを持つことが多いためである。 この問題を解決するために,新しいコード表現スキーマであるcsbasg(complex structurely balanced abstract semantic graph)を導入する。これはコードを,グラフ内のノードとして意味要素をリストアップする複雑な重み付け有向グラフとして表現し,モデリング言語アロイなど,ほぼ有限個の数え上げ可能なコードセグメントに対する構造的バランスを保証する。 CSBASGは複雑な重み付きグラフに対する合金述語を1対1で対応させる。 我々は,合金モデルに対するCSBASG表現の有効性と有効性を評価し,CSBASGのアロイコード生成と自動修復への応用について検討する。

In the program analysis and automated bug-fixing fields, it is common to create an abstract interpretation of a program's source code as an Abstract Syntax Tree (AST), which enables programs written in a high-level language to have various static and dynamic analyses applied. However, ASTs suffer from exponential growth in their data size due to the limitation that ASTs will often have identical nodes separately listed in the tree. To address this issue, we introduce a novel code representation schema, Complex Structurally Balanced Abstract Semantic Graph (CSBASG), which represents code as a complex-weighted directed graph that lists a semantic element as a node in the graph and ensures its structural balance for almost finitely enumerable code segments, such as the modeling language Alloy. Our experiment ensures that CSBASG provides a one-on-one correspondence of Alloy predicates to complex-weighted graphs. We evaluate the effectiveness and efficiency of our CSBASG representation for Alloy models and identify future applications of CSBASG for Alloy code generation and automated repair.
翻訳日:2024-03-05 18:57:21 公開日:2024-02-29
# 活動図からの制御器の量的保証と合成

Quantitative Assurance and Synthesis of Controllers from Activity Diagrams ( http://arxiv.org/abs/2403.00169v1 )

ライセンス: Link先を確認
Kangfeng Ye, Fang Yan, Simos Gerasimou(参考訳) 確率モデル検査は、確率モデルに対する定性的および定量的特性を自動的に検証するために広く用いられている形式的検証手法である。 しかし、そのようなシステムをキャプチャし、対応するプロパティを書き、検証するにはドメイン知識が必要です。 これにより、必要な知識を持っていない研究者やエンジニアにはアクセスできない。 これまでの研究では、UMLアクティビティダイアグラム(AD)を拡張し、トランスフォーメーションを開発し、自動化のためのツールを実装してきた。 しかし、この研究は理解できず、完全には公開されていないため、評価、拡張、適応、アクセスが困難である。 本稿では、確率、時間、品質アノテーションの新しいプロファイル、マルコフモデルにおけるADの意味論的解釈、PRISMとStormがサポートするアクティビティ図からPRISM言語への変換ルールのセットを含む、ADの総合的な検証フレームワークを提案する。 最も重要なことは、モデルをベースとした手法を用いて、完全自動検証のための変換アルゴリズムを開発し、QASCADと呼ばれるツールで実装したことです。 病院での配送に複数のロボットが使用されるケーススタディを1例評価し,さらに6例を文献から評価した。 これらすべてを合わせて、評価、拡張性、適応性、アクセシビリティを改善して、ADの検証に注目すべき貢献をする。

Probabilistic model checking is a widely used formal verification technique to automatically verify qualitative and quantitative properties for probabilistic models. However, capturing such systems, writing corresponding properties, and verifying them require domain knowledge. This makes it not accessible for researchers and engineers who may not have the required knowledge. Previous studies have extended UML activity diagrams (ADs), developed transformations, and implemented accompanying tools for automation. The research, however, is incomprehensive and not fully open, which makes it hard to be evaluated, extended, adapted, and accessed. In this paper, we propose a comprehensive verification framework for ADs, including a new profile for probability, time, and quality annotations, a semantics interpretation of ADs in three Markov models, and a set of transformation rules from activity diagrams to the PRISM language, supported by PRISM and Storm. Most importantly, we developed algorithms for transformation and implemented them in a tool, called QASCAD, using model-based techniques, for fully automated verification. We evaluated one case study where multiple robots are used for delivery in a hospital and further evaluated six other examples from the literature. With all these together, this work makes noteworthy contributions to the verification of ADs by improving evaluation, extensibility, adaptability, and accessibility.
翻訳日:2024-03-05 18:56:57 公開日:2024-02-29
# TELEClass:最小限のスーパービジョンによる分類とLLM強化階層型テキスト分類

TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision ( http://arxiv.org/abs/2403.00165v1 )

ライセンス: Link先を確認
Yunyi Zhang, Ruozhen Yang, Xueqiang Xu, Jinfeng Xiao, Jiaming Shen, Jiawei Han(参考訳) 階層的テキスト分類は、各文書をラベル分類のクラスに分類することを目的としている。 初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。 人間の努力を緩和するため,本稿では,最小限の監督で階層的なテキスト分類に取り組んでいる。 近年,大規模言語モデル (LLM) はゼロショットプロンプトによって様々なタスクの競合性能を示すが,大規模かつ構造化されたラベル空間をプロンプトに含めないため,階層的にはあまり機能しない。 一方,従来の弱教師付き階層的テキスト分類法では,生の分類骨格のみを使用し,追加の類型的特徴として機能するテキストコーパスに隠された豊富な情報を無視している。 そこで本研究では,(1)コーパスから抽出した分類的話題語でラベル分類を自動的に豊かにし,分類訓練を容易にすること,(2)階層的ラベル空間に適したデータアノテーションと作成にllmを利用することを提案する。 TELEClassは2つの公開データセット上で,従来の弱教師付き階層型テキスト分類法とLLMベースのゼロショットプロンプト法より優れていることを示す実験結果を得た。

Hierarchical text classification aims to categorize each document into a set of classes in a label taxonomy. Most earlier works focus on fully or semi-supervised methods that require a large amount of human annotated data which is costly and time-consuming to acquire. To alleviate human efforts, in this paper, we work on hierarchical text classification with the minimal amount of supervision: using the sole class name of each node as the only supervision. Recently, large language models (LLM) show competitive performance on various tasks through zero-shot prompting, but this method performs poorly in the hierarchical setting, because it is ineffective to include the large and structured label space in a prompt. On the other hand, previous weakly-supervised hierarchical text classification methods only utilize the raw taxonomy skeleton and ignore the rich information hidden in the text corpus that can serve as additional class-indicative features. To tackle the above challenges, we propose TELEClass, Taxonomy Enrichment and LLM-Enhanced weakly-supervised hierarchical text classification, which (1) automatically enriches the label taxonomy with class-indicative topical terms mined from the corpus to facilitate classifier training and (2) utilizes LLMs for both data annotation and creation tailored for the hierarchical label space. Experiments show that TELEClass can outperform previous weakly-supervised hierarchical text classification methods and LLM-based zero-shot prompting methods on two public datasets.
翻訳日:2024-03-05 18:56:35 公開日:2024-02-29
# 誤差緩和量子計算のための一様減衰部分空間

Uniformly Decaying Subspaces for Error Mitigated Quantum Computation ( http://arxiv.org/abs/2403.00163v1 )

ライセンス: Link先を確認
Nishchay Suri, Jason Saied, Davide Venturelli(参考訳) 本稿では,lindblad master方程式に従属する系において一様に減衰する部分空間を得るための一般的な条件を示し,誤差軽減量子計算を行う。 そのような部分空間に符号化されたダイナミクスの期待値は、ノイズフリー期待値の偏りのない推定値である。 リンドブラド作用素の作用によって不変に残されているデコヒーレンス自由部分空間の例えとして、一様に減衰する部分空間はリンドブラド方程式の散逸部分の作用によって(直交項まで)不変であることを示す。 この理論を量子ビットとクウディッツの系に適用し、減衰率の異なる緩和を行い、そのような部分空間は雑音の完全な知識を必要とせずに減衰率の1次変動のバイアスをなくすことができることを示した。 このようなバイアスは標準対称性の検証では補正できないため、デュアルレール量子ビットにおける誤差緩和を改善し、ノイズの部分的な知識を与えられた場合、確率的エラーキャンセラよりも優れた性能が得られる。

We present a general condition to obtain subspaces that decay uniformly in a system governed by the Lindblad master equation and use them to perform error mitigated quantum computation. The expectation values of dynamics encoded in such subspaces are unbiased estimators of noise-free expectation values. In analogy to the decoherence free subspaces which are left invariant by the action of Lindblad operators, we show that the uniformly decaying subspaces are left invariant (up to orthogonal terms) by the action of the dissipative part of the Lindblad equation. We apply our theory to a system of qubits and qudits undergoing relaxation with varying decay rates and show that such subspaces can be used to eliminate bias up to first order variations in the decay rates without requiring full knowledge of noise. Since such a bias cannot be corrected through standard symmetry verification, our method can improve error mitigation in dual-rail qubits and given partial knowledge of noise, can perform better than probabilistic error cancellation.
翻訳日:2024-03-05 18:56:05 公開日:2024-02-29
# モンテカルロ効率的な影響関数を用いた効率自動推定

Automated Efficient Estimation using Monte Carlo Efficient Influence Functions ( http://arxiv.org/abs/2403.00158v1 )

ライセンス: Link先を確認
Raj Agrawal, Sam Witty, Andy Zane, Eli Bingham(参考訳) 多くの実用的な問題は、高次元モデルとデータセットによる低次元統計量の推定である。 いくつかのアプローチは、デバイアス/ダブルMLやターゲット最小損失推定など、影響関数の理論に基づくこれらの推定タスクに対処する。 本稿では,既存の可微分確率型プログラミングシステムとシームレスに統合された効率な影響関数を完全自動で近似する手法である 'textit{Monte Carlo Efficient Influence Function} (MC-EIF) を紹介する。 MC-EIFは、厳密なカスタム分析を必要とする幅広いモデルのクラスとターゲット関数の効率的な統計的推定を自動化する。 MC-EIF は一貫したものであり、MC-EIF を用いた推定器は最適な $\sqrt{N}$ 収束率を得る。 MC-EIFを用いた推定器は解析的EIFを用いた推定器と同等であることを示す。 最後に,MC-EIFを最適ポートフォリオ選択に用いる新しいカプストーンの例を示す。

Many practical problems involve estimating low dimensional statistical quantities with high-dimensional models and datasets. Several approaches address these estimation tasks based on the theory of influence functions, such as debiased/double ML or targeted minimum loss estimation. This paper introduces \textit{Monte Carlo Efficient Influence Functions} (MC-EIF), a fully automated technique for approximating efficient influence functions that integrates seamlessly with existing differentiable probabilistic programming systems. MC-EIF automates efficient statistical estimation for a broad class of models and target functionals that would previously require rigorous custom analysis. We prove that MC-EIF is consistent, and that estimators using MC-EIF achieve optimal $\sqrt{N}$ convergence rates. We show empirically that estimators using MC-EIF are at parity with estimators using analytic EIFs. Finally, we demonstrate a novel capstone example using MC-EIF for optimal portfolio selection.
翻訳日:2024-03-05 18:55:45 公開日:2024-02-29
# プライバシ保護型分散最適化と学習

Privacy-Preserving Distributed Optimization and Learning ( http://arxiv.org/abs/2403.00157v1 )

ライセンス: Link先を確認
Ziqin Chen and Yongqiang Wang(参考訳) 分散最適化と学習は、センサーネットワーク、スマートグリッド、機械学習などにおける幅広い応用により、最近大きな注目を集めている。 迅速な開発にもかかわらず、既存の分散最適化と学習アルゴリズムでは、それぞれのエージェントが隣人とメッセージを交換する必要がある。 本稿では,プライバシ保存型分散最適化と学習手法について概説する。 まず、暗号化、差分プライバシー、およびプライバシ保護に使用できる他の技術について論じ、分散最適化と学習におけるプライバシ保護の長所と短所を示す。 これらの手法のうち、差分プライバシーは計算と通信の複雑さが低いため最も有望であると考えており、最適化変数の高次元の現代的な学習ベースアプリケーションに非常に魅力的である。 次に、プライバシーと最適化の精度を同時に確保できる差分プライバシアルゴリズムをいくつか導入する。 さらに,これらのアルゴリズムの実効性を確認するために,いくつかの機械学習問題に対するサンプルアプリケーションを提供する。 最後に,本研究領域における課題を強調し,今後の方向性について論じる。

Distributed optimization and learning has recently garnered great attention due to its wide applications in sensor networks, smart grids, machine learning, and so forth. Despite rapid development, existing distributed optimization and learning algorithms require each agent to exchange messages with its neighbors, which may expose sensitive information and raise significant privacy concerns. In this survey paper, we overview privacy-preserving distributed optimization and learning methods. We first discuss cryptography, differential privacy, and other techniques that can be used for privacy preservation and indicate their pros and cons for privacy protection in distributed optimization and learning. We believe that among these approaches, differential privacy is most promising due to its low computational and communication complexities, which are extremely appealing for modern learning based applications with high dimensions of optimization variables. We then introduce several differential-privacy algorithms that can simultaneously ensure privacy and optimization accuracy. Moreover, we provide example applications in several machine learning problems to confirm the real-world effectiveness of these algorithms. Finally, we highlight some challenges in this research domain and discuss future directions.
翻訳日:2024-03-05 18:55:28 公開日:2024-02-29
# 確率的潜在空間によるディープニューラルネットワーク圧縮の解明に向けて

Towards Explaining Deep Neural Network Compression Through a Probabilistic Latent Space ( http://arxiv.org/abs/2403.00155v1 )

ライセンス: Link先を確認
Mahsa Mozafari-Nia and Salimeh Yasaei Sekeh(参考訳) ディープニューラルネットワーク(DNN)の優れたパフォーマンスにもかかわらず、その計算複雑性とストレージ空間の消費は、ネットワーク圧縮の概念に繋がった。 プルーニングや低ランク分解などのDNN圧縮技術は広く研究されているが、理論的な説明には注意が払われていない。 本稿では,dnn重みの確率的潜在空間を利用した新しい理論的枠組みを提案し,情報理論的分岐測度を用いて最適ネットワークスパーシティを説明する。 本稿では,新しいアナログ投影パターン (AP2) と類似確率投影パターン (AP3) をDNNに導入し,ネットワーク内のレイヤのAP3/AP2特性と性能の関係を証明した。 さらに,圧縮ネットワークの学習過程を説明する理論的解析を行う。 理論結果は、CIFAR10とCIFAR100データセットを使用して、AlexNet、ResNet50、VGG16といった標準トレーニング済みのベンチマークで実施された実験を通じて実証的に検証される。 実験により,AP3特性とAP2特性と細調整されたDNN,空間レベルとの関係を強調した。

Despite the impressive performance of deep neural networks (DNNs), their computational complexity and storage space consumption have led to the concept of network compression. While DNN compression techniques such as pruning and low-rank decomposition have been extensively studied, there has been insufficient attention paid to their theoretical explanation. In this paper, we propose a novel theoretical framework that leverages a probabilistic latent space of DNN weights and explains the optimal network sparsity by using the information-theoretic divergence measures. We introduce new analogous projected patterns (AP2) and analogous-in-probability projected patterns (AP3) notions for DNNs and prove that there exists a relationship between AP3/AP2 property of layers in the network and its performance. Further, we provide a theoretical analysis that explains the training process of the compressed network. The theoretical results are empirically validated through experiments conducted on standard pre-trained benchmarks, including AlexNet, ResNet50, and VGG16, using CIFAR10 and CIFAR100 datasets. Through our experiments, we highlight the relationship of AP3 and AP2 properties with fine-tuning pruned DNNs and sparsity levels.
翻訳日:2024-03-05 18:55:12 公開日:2024-02-29
# 政治科学におけるllm--視覚分析の新しい時代を告げる

LLMs in Political Science: Heralding a New Era of Visual Analysis ( http://arxiv.org/abs/2403.00154v1 )

ライセンス: Link先を確認
Yu Wang and Mengying Xing(参考訳) 画像で利用可能な広範な情報を活用することで、政治科学者の間で関心が高まっている。 しかし、これらの画像の解釈の課題は、コンピュータビジョンの専門知識と特殊なハードウェアへのアクセスの必要性にある。 その結果、画像分析は政治科学コミュニティ内の比較的小さなグループに限定された。 この状況は、大きな言語モデル(LLM)の台頭によって変化する可能性がある。 本稿では,画像コンテンツ分析におけるジェミニの利用可能性の意識を高めることを目的とする。 688画像のコーパスを用いてふりかえり分析を行った。 コンテンツレポートはgeminiから画像ごとに引き出され、その後著者によって手動で評価された。 Geminiは、政治的科学者のための画像分析において、最も一般的かつ基本的なタスクであるオブジェクト検出を行うのに非常に正確であることがわかった。 同様に、コマンド全体が自然言語の1つのプロンプトで構成されているため、実装が容易であること、実行が速く、ほとんどの研究者の時間予算を満たすこと、使用が自由であること、特別なハードウェアを必要としないこと、などが示される。 さらに、政治科学者が顔の識別、感情分析、キャプション生成など、他の画像理解タスクにgeminiを活用する方法を示す。 以上の結果から,geminiや他の類似のllmは,政治科学や社会科学における画像研究を劇的に促進・促進する可能性が示唆された。

Interest is increasing among political scientists in leveraging the extensive information available in images. However, the challenge of interpreting these images lies in the need for specialized knowledge in computer vision and access to specialized hardware. As a result, image analysis has been limited to a relatively small group within the political science community. This landscape could potentially change thanks to the rise of large language models (LLMs). This paper aims to raise awareness of the feasibility of using Gemini for image content analysis. A retrospective analysis was conducted on a corpus of 688 images. Content reports were elicited from Gemini for each image and then manually evaluated by the authors. We find that Gemini is highly accurate in performing object detection, which is arguably the most common and fundamental task in image analysis for political scientists. Equally important, we show that it is easy to implement as the entire command consists of a single prompt in natural language; it is fast to run and should meet the time budget of most researchers; and it is free to use and does not require any specialized hardware. In addition, we illustrate how political scientists can leverage Gemini for other image understanding tasks, including face identification, sentiment analysis, and caption generation. Our findings suggest that Gemini and other similar LLMs have the potential to drastically stimulate and accelerate image research in political science and social sciences more broadly.
翻訳日:2024-03-05 18:54:53 公開日:2024-02-29
# 実用的でリッチなユーザディジタイゼーション

Practical and Rich User Digitization ( http://arxiv.org/abs/2403.00153v1 )

ライセンス: Link先を確認
Karan Ahuja(参考訳) コンピュータ科学における長年のビジョンは、コンピュータデバイスをプロアクティブなアシスタントへと進化させ、私たちの生産性、健康、健康、そして私たちの生活の多くの側面を強化することである。 ユーザのデジタル化は、コンピュータがユーザーを深く理解し、活動、ポーズ、ルーチン、行動を把握することができるため、このビジョンを達成する上で不可欠である。 今日の消費者向けデバイス(スマートフォンやスマートウォッチなど)は、この可能性を垣間見ることができ、歩数、心拍数、ランニングやサイクリングのような少数の人間の活動など、ユーザーの粗いデジタル表現を提供する。 これらの非常に低次元な表現でさえ、何百万もの人々の生活にすでに価値をもたらしています。 一方、プロフェッショナルで高忠実な包括的ユーザデジタル化システムが存在する。 例えば、モーションキャプチャースーツや、全身と外観をデジタル化するマルチカメラリグ、MRIなどのスキャンマシンは、私たちの詳細な解剖を捉えます。 しかし、これらには、消費者の使用を妨げる財務、プライバシー、人間工学、美学、計装など、ユーザーの実用上の大きな負担が伴う。 一般的に、キャプチャの忠実度が高いほど、ユーザの実用性は低くなります。 ほとんどの従来の手法は、ユーザ実践性とデジタル化の忠実さのバランスをとる。 私の研究は、このトレンドを打破することを目指しており、ユーザのデジタル化の精度を高め、新しい強力なコンピューティング体験を作りつつ、ユーザの実用性とアクセシビリティを保ちつつ、そのような技術が社会的な影響を与えることができるセンシングシステムを開発しています。 このような知識を活かして、私たちの将来のデバイスは、縦断的な健康トラッキング、より生産的な労働環境、拡張現実における全身アバター、そして具体化されたテレプレゼンス体験を提供するだろう。

A long-standing vision in computer science has been to evolve computing devices into proactive assistants that enhance our productivity, health and wellness, and many other facets of our lives. User digitization is crucial in achieving this vision as it allows computers to intimately understand their users, capturing activity, pose, routine, and behavior. Today's consumer devices - like smartphones and smartwatches provide a glimpse of this potential, offering coarse digital representations of users with metrics such as step count, heart rate, and a handful of human activities like running and biking. Even these very low-dimensional representations are already bringing value to millions of people's lives, but there is significant potential for improvement. On the other end, professional, high-fidelity comprehensive user digitization systems exist. For example, motion capture suits and multi-camera rigs that digitize our full body and appearance, and scanning machines such as MRI capture our detailed anatomy. However, these carry significant user practicality burdens, such as financial, privacy, ergonomic, aesthetic, and instrumentation considerations, that preclude consumer use. In general, the higher the fidelity of capture, the lower the user's practicality. Most conventional approaches strike a balance between user practicality and digitization fidelity. My research aims to break this trend, developing sensing systems that increase user digitization fidelity to create new and powerful computing experiences while retaining or even improving user practicality and accessibility, allowing such technologies to have a societal impact. Armed with such knowledge, our future devices could offer longitudinal health tracking, more productive work environments, full body avatars in extended reality, and embodied telepresence experiences, to name just a few domains.
翻訳日:2024-03-05 18:54:33 公開日:2024-02-29
# 正テンソルネットワークを用いた雑音量子回路の大深度シミュレーション

Enabling large-depth simulation of noisy quantum circuits with positive tensor networks ( http://arxiv.org/abs/2403.00152v1 )

ライセンス: Link先を確認
Ambroise M\"uller, Thomas Ayral, Corentin Bertrand(参考訳) 行列積密度演算子(英: Matrix product density operator、MPDO)は、局所的に精製された密度行列のテンソルネットワーク表現であり、各物理自由度が環境自由度と関連付けられている。 MPDOは混合状態表現に興味深い性質を持つ: 構築による肯定性を保証する、トレースの効率的な保存と局所的な可観測物の計算である。 しかし、ノイズの応用は環境ヒルベルト空間の次元を増大させ、結合次元の指数的な成長をもたらすため、ノイズのある量子回路シミュレーションでの使用は困難である。 mpdosはまた、環境ヒルベルト空間の基底の選択の自由から、結合次元の広範な変化をもたらすため、ユニークな正準形式を欠いている。 本研究では, 精製状態の解消によりMPDOの結合寸法を小さくする体系的な方法を提案する。 局所2量子基底最適化の密度行列再正規化群(dmrg)様スイープを実行し,環境ヒルベルト空間の基礎を最適化する。 興味深いことに, 浄化状態のゆがみのみを目標にすることで, 環境次元の低減が図られる。 言い換えれば、コンパクトなMPDO表現は、低絡み合う純粋状態を必要とする。 本稿では,ノイズランダム量子回路のエミュレーションに圧縮法を適用した。 従来のmpdosとは対照的に,バウンド結合次元やバウンドメモリを保ちながら,合理的なトランザクションフィディティを保ちながら保持することができる。

Matrix product density operators (MPDOs) are tensor network representations of locally purified density matrices where each physical degree of freedom is associated to an environment degree of freedom. MPDOs have interesting properties for mixed state representations: guaranteed positivity by construction, efficient conservation of the trace and computation of local observables. However, they have been challenging to use for noisy quantum circuit simulation, as the application of noise increases the dimension of the environment Hilbert space, leading to an exponential growth of bond dimensions. MPDOs also lack a unique canonical form, due to the freedom in the choice of basis for the environment Hilbert space, which leads to a vast variation of bond dimensions. In this work, we present a systematic way to reduce the bond dimensions of MPDOs by disentangling the purified state. We optimize the basis for the environment Hilbert space by performing density matrix renormalization group (DMRG)-like sweeps of local 2-qubit basis optimization. Interestingly, we find that targeting only the disentanglement of the purified state leads to a reduction of the environment dimension. In other words, a compact MPDO representation requires a low-entanglement purified state. We apply our compression method to the emulation of noisy random quantum circuits. Our technique allows us to keep bounded bond dimensions, and thus bounded memory, contrary to previous works on MPDOs, while keeping reasonable truncation fidelities.
翻訳日:2024-03-05 18:54:02 公開日:2024-02-29
# カーネルミラープロキシの最適化のための解析

Analysis of Kernel Mirror Prox for Measure Optimization ( http://arxiv.org/abs/2403.00147v1 )

ライセンス: Link先を確認
Pavel Dvurechensky and Jia-Jie Zhu(参考訳) 非負の測度錐の双対として適切な関数空間を選択することにより、我々は、暗黙的生成モデル、分散ロバスト最適化(DRO)、ワッサーシュタインバリセンタなどの既存の機械学習アルゴリズムの基盤となる、MFNE(Mixed Functional Nash Equilibrium)と呼ばれる一連の機能的サドルポイント最適化問題を統一フレームワークで研究する。 我々は、関数空間が再生カーネルヒルベルト空間(RKHS)として選択されるとき、サドル点最適化ダイナミクスを相互作用するフィッシャー-ラオ-RKHS勾配流としてモデル化する。 離散時間対応として、rkhsにおける双対ステップと原始エントロピーミラーproxステップを用いるkmp(primal-dual kernel mirror prox)アルゴリズムを提案する。 次に、このクラスのMFNE問題に対して無限次元の設定でKMPの統一収束解析を提供し、決定論的場合において$O(1/N)$、確率論的の場合$O(1/\sqrt{N})$とすると、$N$は反復カウンタとなる。 ケーススタディとして、我々の分析をDROに適用し、DROの堅牢性と収束性に対するアルゴリズム的な保証を提供する。

By choosing a suitable function space as the dual to the non-negative measure cone, we study in a unified framework a class of functional saddle-point optimization problems, which we term the Mixed Functional Nash Equilibrium (MFNE), that underlies several existing machine learning algorithms, such as implicit generative models, distributionally robust optimization (DRO), and Wasserstein barycenters. We model the saddle-point optimization dynamics as an interacting Fisher-Rao-RKHS gradient flow when the function space is chosen as a reproducing kernel Hilbert space (RKHS). As a discrete time counterpart, we propose a primal-dual kernel mirror prox (KMP) algorithm, which uses a dual step in the RKHS, and a primal entropic mirror prox step. We then provide a unified convergence analysis of KMP in an infinite-dimensional setting for this class of MFNE problems, which establishes a convergence rate of $O(1/N)$ in the deterministic case and $O(1/\sqrt{N})$ in the stochastic case, where $N$ is the iteration counter. As a case study, we apply our analysis to DRO, providing algorithmic guarantees for DRO robustness and convergence.
翻訳日:2024-03-05 18:53:35 公開日:2024-02-29
# EBBS: ゼロショット機械翻訳のための両レベルビームサーチによるアンサンブル

EBBS: An Ensemble with Bi-Level Beam Search for Zero-Shot Machine Translation ( http://arxiv.org/abs/2403.00144v1 )

ライセンス: Link先を確認
Yuqiao Wen, Behzad Shayegh, Chenyang Huang, Yanshuai Cao, Lili Mou(参考訳) ゼロショット翻訳の能力は、ある翻訳方向の多言語モデルを訓練する際に現れる。 また、ゼロショット翻訳は第3の言語(例えば英語)をピボットすることで実現できる。 我々の研究では、直接翻訳とピボット翻訳の両方がノイズがあり、良好な性能が得られない。 そこで本研究では,各アンサンブル成分は低レベルで段階的に予測ステップを探索するが,上層では「ソフト投票」機構により同期する,新しい2レベルビーム探索アルゴリズムを用いたアンサンブル手法であるebbsを提案する。 2つの人気のある多言語翻訳データセットの結果、ESBSは既存のアンサンブル技術と同様に直接変換とピボット翻訳を一貫して上回っている。 さらに,多言語モデルにアンサンブルの知識を蒸留して推論効率を向上させることが可能であり,ebbsベースの蒸留は翻訳品質を犠牲にせず,あるいは改善することもない。

The ability of zero-shot translation emerges when we train a multilingual model with certain translation directions; the model can then directly translate in unseen directions. Alternatively, zero-shot translation can be accomplished by pivoting through a third language (e.g., English). In our work, we observe that both direct and pivot translations are noisy and achieve less satisfactory performance. We propose EBBS, an ensemble method with a novel bi-level beam search algorithm, where each ensemble component explores its own prediction step by step at the lower level but they are synchronized by a "soft voting" mechanism at the upper level. Results on two popular multilingual translation datasets show that EBBS consistently outperforms direct and pivot translations as well as existing ensemble techniques. Further, we can distill the ensemble's knowledge back to the multilingual model to improve inference efficiency; profoundly, our EBBS-based distillation does not sacrifice, or even improves, the translation quality.
翻訳日:2024-03-05 18:53:09 公開日:2024-02-29
# 木平均化によるアンサンブルに基づく教師なし不連続構成解析

Ensemble-Based Unsupervised Discontinuous Constituency Parsing by Tree Averaging ( http://arxiv.org/abs/2403.00143v1 )

ライセンス: Link先を確認
Behzad Shayegh, Yuqiao Wen, Lili Mou(参考訳) 教師なし不連続定数解析に対処し、前モデルのみの性能に高いばらつきを観測する。 予測木を平均化することにより,既存の不連続解析器の異なる動作のアンサンブルを構築し,性能の安定化と向上を図る。 まず、二項性および連続性の異なる設定の下での平均木平均化のための包括的計算複雑性解析(PとNP完全)を提供する。 次に,課題に取り組むための効率的な正確なアルゴリズムを開発し,実験中のすべてのサンプルに対して妥当な時間で実行する。 3つのデータセットの結果は、すべてのメトリクスのベースラインを上回っており、アプローチの詳細な分析も行っています。

We address unsupervised discontinuous constituency parsing, where we observe a high variance in the performance of the only previous model. We propose to build an ensemble of different runs of the existing discontinuous parser by averaging the predicted trees, to stabilize and boost performance. To begin with, we provide comprehensive computational complexity analysis (in terms of P and NP-complete) for tree averaging under different setups of binarity and continuity. We then develop an efficient exact algorithm to tackle the task, which runs in a reasonable time for all samples in our experiments. Results on three datasets show our method outperforms all baselines in all metrics; we also provide in-depth analyses of our approach.
翻訳日:2024-03-05 18:52:51 公開日:2024-02-29
# EROS:Entity-Driven Controled Policy Document Summarization

EROS: Entity-Driven Controlled Policy Document Summarization ( http://arxiv.org/abs/2403.00141v1 )

ライセンス: Link先を確認
Joykirat Singh, Sehban Fazili, Rohan Jain, Md Shad Akhtar(参考訳) プライバシーポリシー文書は、個人に組織によるユーザーの個人情報の収集、使用、保護について教育する上で重要な役割を持つ。 しかし、それらは特にプライバシー関連のエンティティを含む長く、複雑で、複雑な言語で有名である。 したがって、組織のデータ利用ポリシーを理解しようとするユーザにとって、大きな課題となる。 本稿では,管理された抽象要約を用いて,ポリシー文書の解釈性と可読性を向上させることを提案する。我々は生成した要約を,プライバシ関連の重要なエンティティ(データや媒体など)と,それらのエンティティを収集するための組織の根拠(ターゲットや理由など)を含むように強制する。 そこで我々は,プライバシー関連エンティティラベルをマークしたポリシ文書要約データセットPD-Sumを開発した。 提案するモデルであるerosは,スパンベースのエンティティ抽出モデルを用いて重要なエンティティを特定し,ppo(proximal policy optimization)を用いて要約情報の内容を制御する。 比較は、様々な基準よりも改善を奨励している。 さらに,EROSの有効性を確立するために質的評価と人的評価を行う。

Privacy policy documents have a crucial role in educating individuals about the collection, usage, and protection of users' personal data by organizations. However, they are notorious for their lengthy, complex, and convoluted language especially involving privacy-related entities. Hence, they pose a significant challenge to users who attempt to comprehend organization's data usage policy. In this paper, we propose to enhance the interpretability and readability of policy documents by using controlled abstractive summarization -- we enforce the generated summaries to include critical privacy-related entities (e.g., data and medium) and organization's rationale (e.g.,target and reason) in collecting those entities. To achieve this, we develop PD-Sum, a policy-document summarization dataset with marked privacy-related entity labels. Our proposed model, EROS, identifies critical entities through a span-based entity extraction model and employs them to control the information content of the summaries using proximal policy optimization (PPO). Comparison shows encouraging improvement over various baselines. Furthermore, we furnish qualitative and human evaluations to establish the efficacy of EROS.
翻訳日:2024-03-05 18:52:37 公開日:2024-02-29
# 合成データ拡張によるビデオフレームの欠落発見の学習--rgbカメラを用いた熱画像生成のためのフレームワークと応用

Learning to Find Missing Video Frames with Synthetic Data Augmentation: A General Framework and Application in Generating Thermal Images Using RGB Cameras ( http://arxiv.org/abs/2403.00196v1 )

ライセンス: Link先を確認
Mathias Viborg Andersen, Ross Greer, Andreas M{\o}gelmose, Mohan Trivedi(参考訳) インテリジェントカーにおけるアドバンストドライバー支援システム(ADAS)は、車両キャビン内の正確なドライバー認識に依存しており、しばしば知覚モダリティの組み合わせを利用する。 しかし、これらのモダリティは様々なレートで動作し、リアルタイムで包括的な運転状態監視の課題となっている。 本稿では,センサフレームレートのミスマッチによるデータ不足の問題に対処し,合成的かつ現実的な熱画像を作成するための生成モデルを提案する。 本稿では, 条件付き生成逆数ネットワーク (cGAN) を用いて, pix2pix と CycleGAN アーキテクチャを比較した。 実験の結果,Pix2pixはCycleGANより優れており,特に積み重ねたビューを多視点入力スタイルで利用することで,熱画像生成の精度が向上することがわかった。 さらに,各対象に対するモデルの一般化可能性を評価し,最適性能に対する個別化訓練の重要性を明らかにした。 この知見は、欠落したフレームへの対処、インテリジェントな車両の運転状態監視の進展、モデルの一般化とカスタマイズに関する継続的な研究の必要性を示唆する。

Advanced Driver Assistance Systems (ADAS) in intelligent vehicles rely on accurate driver perception within the vehicle cabin, often leveraging a combination of sensing modalities. However, these modalities operate at varying rates, posing challenges for real-time, comprehensive driver state monitoring. This paper addresses the issue of missing data due to sensor frame rate mismatches, introducing a generative model approach to create synthetic yet realistic thermal imagery. We propose using conditional generative adversarial networks (cGANs), specifically comparing the pix2pix and CycleGAN architectures. Experimental results demonstrate that pix2pix outperforms CycleGAN, and utilizing multi-view input styles, especially stacked views, enhances the accuracy of thermal image generation. Moreover, the study evaluates the model's generalizability across different subjects, revealing the importance of individualized training for optimal performance. The findings suggest the potential of generative models in addressing missing frames, advancing driver state monitoring for intelligent vehicles, and underscoring the need for continued research in model generalization and customization.
翻訳日:2024-03-05 18:48:08 公開日:2024-02-29
# 事前トレーニングが正しいかどうか、分布シフトを尋ねてみよう

Ask Your Distribution Shift if Pre-Training is Right for You ( http://arxiv.org/abs/2403.00194v1 )

ライセンス: Link先を確認
Benjamin Cohen-Wang, Joshua Vendrow, Aleksander Madry(参考訳) 事前トレーニングは、分散シフトにロバストなモデルを開発するために広く使われているアプローチである。 事前トレーニングされたモデルの微調整は、いくつかのケースでは大幅に堅牢性が向上するが、他のケースでは(スクラッチからトレーニングを行う場合と比較して)全く改善されない。 本研究では,事前学習が可能で対処できない障害モードを特徴付ける。 特に、分散シフト中のモデルの2つの可能な障害モードに焦点をあてる。外挿不良(例えば、異なる領域に一般化できない)と、トレーニングデータ(例えば、スプリアス機能に依存している)のバイアスである。 私たちの研究は、親指の原則として、事前トレーニングは外挿の貧弱さを軽減できるが、データセットのバイアスは軽減できることを示唆している。 この発見に対する理論的モチベーションと実証的な証拠を提供し、(1)バイアスを悪用しないように設計された事前学習と介入が相補的な堅牢性をもたらすこと、(2)(非常に)小さく、非多様性があり、非バイアスのあるデータセットの微調整は、大きくて多様な偏りのあるデータセットの微調整よりもはるかに頑健なモデルをもたらす。 コードはhttps://github.com/MadryLab/pretraining-distribution-shift-robustnessで入手できる。

Pre-training is a widely used approach to develop models that are robust to distribution shifts. However, in practice, its effectiveness varies: fine-tuning a pre-trained model improves robustness significantly in some cases but not at all in others (compared to training from scratch). In this work, we seek to characterize the failure modes that pre-training can and cannot address. In particular, we focus on two possible failure modes of models under distribution shift: poor extrapolation (e.g., they cannot generalize to a different domain) and biases in the training data (e.g., they rely on spurious features). Our study suggests that, as a rule of thumb, pre-training can help mitigate poor extrapolation but not dataset biases. After providing theoretical motivation and empirical evidence for this finding, we explore two of its implications for developing robust models: (1) pre-training and interventions designed to prevent exploiting biases have complementary robustness benefits, and (2) fine-tuning on a (very) small, non-diverse but de-biased dataset can result in significantly more robust models than fine-tuning on a large and diverse but biased dataset. Code is available at https://github.com/MadryLab/pretraining-distribution-shift-robustness.
翻訳日:2024-03-05 18:47:48 公開日:2024-02-29
# 量子ドット量子ビットのab initioモデリング:カップリング、ゲートダイナミクス、ロバスト性と電荷ノイズ

Ab initio modelling of quantum dot qubits: Coupling, gate dynamics and robustness versus charge noise ( http://arxiv.org/abs/2403.00191v1 )

ライセンス: Link先を確認
Hamza Jnane, Simon C Benjamin(参考訳) 半導体デバイスにおける電子スピンは量子プロセッサ(QP)のための非常に有望な構成要素である。 商用半導体ファウントリーは、qp設計が適切に指定されると、従来のチップと同じプロセスでqpを作成することができる。 製造の最も有望な選択肢を特定するには、実際の幾何学や複雑な非イデアル環境における相互作用する電子の予測モデリングが必要である。 本研究では,デバイストポロジに関連する仮定を伴わないab initioアプローチである実空間グリッドに基づくモデリング手法について検討する。 電極形状が与えられた場合、量子ドット量子ビット間の交換結合を決定、および$\sqrt{\text{SWAP}}$ゲートの完全な進化をモデル化し、様々な電圧プロファイルに対する量子ビット損失と不整合率を予測する。 さらに,不要な電荷欠陥(静的および動的)が環境に与える影響を調査し,ロバストなパルスシーケンスをテストする。 例として、系統的なエラーと(未知の)電荷欠陥の両方を修正するシーケンスを示し、フィリティの桁違いの増大を観察する。 したがって、この技術は、製造に最も有望なデバイス設計を特定でき、また、それらのデバイスごとに制御シーケンスを設定できる。

Electron spins in semiconductor devices are highly promising building blocks for quantum processors (QPs). Commercial semiconductor foundries can create QPs using the same processes employed for conventional chips, once the QP design is suitably specified. There is a vast accessible design space; to identify the most promising options for fabrication, one requires predictive modeling of interacting electrons in real geometries and complex non-ideal environments. In this work we explore a modelling method based on real-space grids, an ab initio approach without assumptions relating to device topology and therefore with wide applicability. Given an electrode geometry, we determine the exchange coupling between quantum dot qubits, and model the full evolution of a $\sqrt{\text{SWAP}}$ gate to predict qubit loss and infidelity rates for various voltage profiles. Moreover we explore the impact of unwanted charge defects (static and dynamic) in the environment, and test robust pulse sequences. As an example we exhibit a sequence correcting both systematic errors and (unknown) charge defects, observing an order of magnitude boost in fidelity. The technique can thus identify the most promising device designs for fabrication, as well as bespoke control sequences for each such device.
翻訳日:2024-03-05 18:47:16 公開日:2024-02-29
# 人工知能を用いた情報伝達ネットワークにおける重要なノードの同定

Identification of important nodes in the information propagation network based on the artificial intelligence method ( http://arxiv.org/abs/2403.00190v1 )

ライセンス: Link先を確認
Bin Yuan, Tianbo Song, Jerry Yao(参考訳) 本研究では,高度人工知能を用いた情報伝達ネットワークにおけるキーノードの同定手法を提案する。 本稿では,意思決定試験・評価ラボラトリー(dematel)法とグローバル構造モデル(gsm)を組み合わせた新しい手法を提案する。 本手法は,GNID(Global Network Influence Dataset)を利用して,社会・交通・通信などの複雑なネットワークに適用される。 分析では,これらのネットワークの構造的ダイナミクスとレジリエンスに注目し,ノード接続とコミュニティ形成に関する洞察を明らかにした。 本研究は,ネットワーク行動の包括的理解を提供し,戦略的ネットワーク分析と最適化に大きく寄与するaiアプローチの有効性を示す。

This study presents an integrated approach for identifying key nodes in information propagation networks using advanced artificial intelligence methods. We introduce a novel technique that combines the Decision-making Trial and Evaluation Laboratory (DEMATEL) method with the Global Structure Model (GSM), creating a synergistic model that effectively captures both local and global influences within a network. This method is applied across various complex networks, such as social, transportation, and communication systems, utilizing the Global Network Influence Dataset (GNID). Our analysis highlights the structural dynamics and resilience of these networks, revealing insights into node connectivity and community formation. The findings demonstrate the effectiveness of our AI-based approach in offering a comprehensive understanding of network behavior, contributing significantly to strategic network analysis and optimization.
翻訳日:2024-03-05 18:46:54 公開日:2024-02-29
# stackelbergゲームにおける分散学習がプレーヤユーティリティに与える影響

Impact of Decentralized Learning on Player Utilities in Stackelberg Games ( http://arxiv.org/abs/2403.00188v1 )

ライセンス: Link先を確認
Kate Donahue, Nicole Immorlica, Meena Jagadeesan, Brendan Lucier, and Aleksandrs Slivkins(参考訳) 世界展開時には、推薦システムやチャットボットなどの学習エージェントが、時間とともに他の学習エージェント(ユーザなど)と繰り返し対話することがある。 多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。 これらの事例をよりよく理解するために,二エージェントシステムの学習ダイナミクスと,各エージェントの目的に対する意味について検討する。 これらのシステムを分散学習を伴うstackelbergゲームとしてモデル化し、標準的な後悔のベンチマーク(stackelberg equilibrium payoffsなど)が少なくとも1人のプレイヤーに最悪のリニアな後悔をもたらすことを示した。 これらのシステムをよりよく捉えるため、エージェントによる小さな学習エラーに耐性のある緩和された後悔ベンチマークを構築した。 我々は、標準学習アルゴリズムが劣線形な後悔を与えていないことを示し、これらのベンチマークに関して両選手にほぼ最適の$o(t^{2/3})$後悔を達成するアルゴリズムを開発した。 より高速な学習(O(\sqrt{T})$)が可能な緩和環境をさらに設計する。 その結果,逐次および分散学習環境における2エージェントインタラクションが,両エージェントの有用性にどのように影響するかを評価するための一歩を踏み出した。

When deployed in the world, a learning agent such as a recommender system or a chatbot often repeatedly interacts with another learning agent (such as a user) over time. In many such two-agent systems, each agent learns separately and the rewards of the two agents are not perfectly aligned. To better understand such cases, we examine the learning dynamics of the two-agent system and the implications for each agent's objective. We model these systems as Stackelberg games with decentralized learning and show that standard regret benchmarks (such as Stackelberg equilibrium payoffs) result in worst-case linear regret for at least one player. To better capture these systems, we construct a relaxed regret benchmark that is tolerant to small learning errors by agents. We show that standard learning algorithms fail to provide sublinear regret, and we develop algorithms to achieve near-optimal $O(T^{2/3})$ regret for both players with respect to these benchmarks. We further design relaxed environments under which faster learning ($O(\sqrt{T})$) is possible. Altogether, our results take a step towards assessing how two-agent interactions in sequential and decentralized learning environments affect the utility of both agents.
翻訳日:2024-03-05 18:46:39 公開日:2024-02-29
# 非一様サンプリングによる低ランク行列完備化のためのエントリ固有境界

Entry-Specific Bounds for Low-Rank Matrix Completion under Highly Non-Uniform Sampling ( http://arxiv.org/abs/2403.00184v1 )

ライセンス: Link先を確認
Xumei Xi, Christina Lee Yu and Yudong Chen(参考訳) 低ランク行列の完備化は、観測されたエントリのスパース集合を用いて行列内の観測されていないエントリを推定する問題を懸念する。 我々は、観測されたエントリが非常に異なる確率でサンプリングされ、異なる漸近的スケーリングを持つような非一様集合を考える。 構造的サンプリング確率の下では、行列全体ではなく、より小さな部分行列上で推定アルゴリズムを実行する方が適している場合が多い。 特に,各エントリにカスタマイズされた誤差上界が,特定の条件下でのミニマックス下界と一致することを示す。 我々の境界は、各エントリを局所的なサンプリング確率の関数として推定する難しさを特徴付ける。 理論的結果を確認する数値実験を行った。

Low-rank matrix completion concerns the problem of estimating unobserved entries in a matrix using a sparse set of observed entries. We consider the non-uniform setting where the observed entries are sampled with highly varying probabilities, potentially with different asymptotic scalings. We show that under structured sampling probabilities, it is often better and sometimes optimal to run estimation algorithms on a smaller submatrix rather than the entire matrix. In particular, we prove error upper bounds customized to each entry, which match the minimax lower bounds under certain conditions. Our bounds characterize the hardness of estimating each entry as a function of the localized sampling probabilities. We provide numerical experiments that confirm our theoretical findings.
翻訳日:2024-03-05 18:46:21 公開日:2024-02-29
# SAT、ガジェット、Max2XOR、量子アニール

SAT, Gadgets, Max2XOR, and Quantum Annealers ( http://arxiv.org/abs/2403.00182v1 )

ライセンス: Link先を確認
Carlos Ans\'otegui and Jordi Levy(参考訳) 量子アナラー(Quantum Annealers)は、基本的には確率の高い量子コンピュータであり、ブール変数上の特定の二次関数を一定時間で最適化することができる。 これらの関数は基本的に、アニール過程の後、高い確率で基底エネルギー状態に達するイジング模型のハミルトニアンである。 SATを解く方法として提案されている。 これらのハミルトニアンはマックス2XOR問題、すなわち、満たされる少なくとも2つの変数のXOR節数を最大化する代入を見つける問題と見なすことができる。 本稿では,SAT を Max2XOR に還元するガジェットをいくつか提示する。 SATインスタンスを量子アニールの初期構成に変換する方法を示す。

Quantum Annealers are basically quantum computers that with high probability can optimize certain quadratic functions on Boolean variables in constant time. These functions are basically the Hamiltonian of Ising models that reach the ground energy state, with a high probability, after an annealing process. They have been proposed as a way to solve SAT. These Hamiltonians can be seen as Max2XOR problems, i.e. as the problem of finding an assignment that maximizes the number of XOR clauses of at most 2 variables that are satisfied. In this paper, we present several gadgets to reduce SAT to Max2XOR. We show how they can be used to translate SAT instances to initial configurations of a quantum annealer.
翻訳日:2024-03-05 18:46:08 公開日:2024-02-29
# "Flex Tape Can't Fix that": 編集言語モデルにおけるバイアスと誤報

"Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models ( http://arxiv.org/abs/2403.00180v1 )

ライセンス: Link先を確認
Karina Halevy, Anna Sotnikova, Badr AlKhamissi, Syrielle Montariol, Antoine Bosselut(参考訳) モデル編集は、言語モデルに格納された知識を更新するためのコスト効率の良い戦略として登場した。 しかし、モデル編集は、編集に関係のない情報を変更したり、モデルの他の一般的な振る舞いを誤って変更したりすることで、意図しない結果をもたらす可能性がある。 本研究では,モデル編集手法が不意にモデルバイアスを増幅する方法について検討する。 本稿では,モデル編集のバイアス関連害を計測し,重み付け手法の違いがモデルバイアスに与える影響を初めて詳細に検討する,新たなベンチマークデータセットであるseesaw-cfを提案する。 具体的には、人種、地理的起源、性別などの人口特性に関するバイアスと、編集された言語モデルによって生成される長文の質的欠陥に焦点を当てる。 編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する自信が薄れるにつれて、様々な程度に偏った行動を示すことがわかりました。 さらに、編集されたモデルは、一見コヒーレントで論理的なまま、テキスト世代における性差別と異種恐怖症を増幅する。 最後に、出生地、市民権国、性別に関する事実の編集は、特に労働分野のような無関係な特徴に関するモデルの知識に悪影響を及ぼす。

Model editing has emerged as a cost-effective strategy to update knowledge stored in language models. However, model editing can have unintended consequences after edits are applied: information unrelated to the edits can also be changed, and other general behaviors of the model can be wrongly altered. In this work, we investigate how model editing methods unexpectedly amplify model biases post-edit. We introduce a novel benchmark dataset, Seesaw-CF, for measuring bias-related harms of model editing and conduct the first in-depth investigation of how different weight-editing methods impact model bias. Specifically, we focus on biases with respect to demographic attributes such as race, geographic origin, and gender, as well as qualitative flaws in long-form texts generated by edited language models. We find that edited models exhibit, to various degrees, more biased behavior as they become less confident in attributes for Asian, African, and South American subjects. Furthermore, edited models amplify sexism and xenophobia in text generations while remaining seemingly coherent and logical. Finally, editing facts about place of birth, country of citizenship, or gender have particularly negative effects on the model's knowledge about unrelated features like field of work.
翻訳日:2024-03-05 18:45:56 公開日:2024-02-29
# 因果グラフODE:マルチエージェント力学系における連続処理効果モデリング

Causal Graph ODE: Continuous Treatment Effect Modeling in Multi-agent Dynamical Systems ( http://arxiv.org/abs/2403.00178v1 )

ライセンス: Link先を確認
Zijie Huang, Jeehyun Hwang, Junkai Zhang, Jinwoo Baik, Weitong Zhang, Dominik Wodarz, Yizhou Sun, Quanquan Gu, Wei Wang(参考訳) 実世界のマルチエージェントシステムは、しばしば動的かつ連続的であり、エージェントが協調して軌道や時間とともに相互作用を変化させる。 例えば、米国でのCOVID-19感染は、国家がエージェントとして行動し、それらの間の日々の人口移動が相互作用するマルチエージェントシステムと見なすことができる。 このようなシステムにおける反事実的な結果の推定は、covid-19ポリシーの策定など、正確な将来の予測と効果的な意思決定を可能にする。 しかし、既存の方法は、特に複数の治療(例えば、"stay-at-home"や"get-vaccine"ポリシー)が同時に適用された場合に、結果に対する治療の継続的な動的効果をモデル化できない。 この課題に対処するために、我々は、グラフニューラルネットワーク(GNN)をODE関数として、エージェント間の連続的な相互作用をキャプチャする新しいモデルであるCausal Graph Ordinary Differential Equations (CAG-ODE)を提案する。 我々のモデルの主な革新は、治療の時間依存表現を学習し、ODE関数にそれらを組み込むことで、潜在的な結果の正確な予測を可能にすることである。 統合バイアスを緩和するため,我々はさらに,治療や干渉の影響を受けないバランスのとれた連続表現を学習する2つのドメイン敵学習に基づく目標を提案する。 2つのデータセット(すなわち、COVID-19と腫瘍増殖)に対する実験は、提案モデルの優れた性能を示す。

Real-world multi-agent systems are often dynamic and continuous, where the agents co-evolve and undergo changes in their trajectories and interactions over time. For example, the COVID-19 transmission in the U.S. can be viewed as a multi-agent system, where states act as agents and daily population movements between them are interactions. Estimating the counterfactual outcomes in such systems enables accurate future predictions and effective decision-making, such as formulating COVID-19 policies. However, existing methods fail to model the continuous dynamic effects of treatments on the outcome, especially when multiple treatments (e.g., "stay-at-home" and "get-vaccine" policies) are applied simultaneously. To tackle this challenge, we propose Causal Graph Ordinary Differential Equations (CAG-ODE), a novel model that captures the continuous interaction among agents using a Graph Neural Network (GNN) as the ODE function. The key innovation of our model is to learn time-dependent representations of treatments and incorporate them into the ODE function, enabling precise predictions of potential outcomes. To mitigate confounding bias, we further propose two domain adversarial learning-based objectives, which enable our model to learn balanced continuous representations that are not affected by treatments or interference. Experiments on two datasets (i.e., COVID-19 and tumor growth) demonstrate the superior performance of our proposed model.
翻訳日:2024-03-05 18:45:37 公開日:2024-02-29
# 物理インフォームド自己監督学習を用いた非侵襲型医療デジタル双生児

Non-Invasive Medical Digital Twins using Physics-Informed Self-Supervised Learning ( http://arxiv.org/abs/2403.00177v1 )

ライセンス: Link先を確認
Keying Kuang, Frances Dean, Jack B. Jedlicki, David Ouyang, Anthony Philippakis, David Sontag, Ahmed M. Alaa(参考訳) デジタル・ツイン(digital twin)は、数学モデルを用いて特徴を特徴付け、シミュレートする現実世界の物理現象の仮想レプリカである。 疾患プロセスのためのデジタル双生児を構築することで、仮想的な環境での仮想的な介入の下で、患者の健康状態や非現実的成果を模倣するインシリコシミュレーションを行うことができる。 これにより、侵襲的な処置や不確実な治療決定が不要になる。 本稿では,非侵襲的な患者健康データのみを用いて,デジタル双対モデルパラメータを同定する手法を提案する。 我々は,デジタル双対モデリングを複合逆問題としてアプローチし,その構造が自己教師付き学習(SSL)における事前学習や微調整に似ていることを観察する。 そこで,本稿では,物理モデル方程式を解くプリテキストタスクでニューラルネットワークを事前学習する物理型sslアルゴリズムを提案する。 その後、モデルは、事前トレーニングで学んだ物理方程式に拘束されながら、非侵襲的なモードから低次元の健康測定を再構築するように訓練される。 本手法は非侵襲的心エコー画像を用いて心臓血行動態のデジタル双生児を同定し,非監督疾患検出およびシリコン内臨床試験における有用性を示す。

A digital twin is a virtual replica of a real-world physical phenomena that uses mathematical modeling to characterize and simulate its defining features. By constructing digital twins for disease processes, we can perform in-silico simulations that mimic patients' health conditions and counterfactual outcomes under hypothetical interventions in a virtual setting. This eliminates the need for invasive procedures or uncertain treatment decisions. In this paper, we propose a method to identify digital twin model parameters using only noninvasive patient health data. We approach the digital twin modeling as a composite inverse problem, and observe that its structure resembles pretraining and finetuning in self-supervised learning (SSL). Leveraging this, we introduce a physics-informed SSL algorithm that initially pretrains a neural network on the pretext task of solving the physical model equations. Subsequently, the model is trained to reconstruct low-dimensional health measurements from noninvasive modalities while being constrained by the physical equations learned in pretraining. We apply our method to identify digital twins of cardiac hemodynamics using noninvasive echocardiogram videos, and demonstrate its utility in unsupervised disease detection and in-silico clinical trials.
翻訳日:2024-03-05 18:44:55 公開日:2024-02-29
# SoD$^2$: 動的ディープニューラルネットワークの統計的最適化

SoD$^2$: Statically Optimizing Dynamic Deep Neural Network ( http://arxiv.org/abs/2403.00176v1 )

ライセンス: Link先を確認
Wei Niu, Gagan Agrawal, Bin Ren(参考訳) 近年、DNN向けに多くのコンパイルおよびランタイムシステムが開発されているが、主に静的DNNに焦点を当てている。 テンソルの形状やサイズ、あるいは使用される演算子のセットが入力や実行に依存する動的dnnが一般的になりつつある。 本稿では,動的DNNを最適化するための総合的なフレームワークであるSoD$^2$を提案する。 本手法の基礎は、dnnを形成する共通作用素の分類と、この分類を階数および次元伝播法(rdp)法に応用することである。 このフレームワークは、既知の定数、シンボル定数、あるいはそれらに対する演算子の形を静的に決定する。 次に、RDPを使用して、融合コード生成、実行(順序)計画、実行時のメモリ割り当て計画生成など、一連の最適化を可能にします。 新たに出現する10の動的dnn上でフレームワークを評価し,いくつかの既存システムと比較することにより,実行待ち時間とメモリ要求の削減と,rdp対応キー最適化の両立を実現した。 評価の結果,SoD$^2$はこれらのシステムよりも3.9\times$速く,最大8.8\%のピークメモリ消費を節約できることがわかった。

Though many compilation and runtime systems have been developed for DNNs in recent years, the focus has largely been on static DNNs. Dynamic DNNs, where tensor shapes and sizes and even the set of operators used are dependent upon the input and/or execution, are becoming common. This paper presents SoD$^2$, a comprehensive framework for optimizing Dynamic DNNs. The basis of our approach is a classification of common operators that form DNNs, and the use of this classification towards a Rank and Dimension Propagation (RDP) method. This framework statically determines the shapes of operators as known constants, symbolic constants, or operations on these. Next, using RDP we enable a series of optimizations, like fused code generation, execution (order) planning, and even runtime memory allocation plan generation. By evaluating the framework on 10 emerging Dynamic DNNs and comparing it against several existing systems, we demonstrate both reductions in execution latency and memory requirements, with RDP-enabled key optimizations responsible for much of the gains. Our evaluation results show that SoD$^2$ runs up to $3.9\times$ faster than these systems while saving up to $88\%$ peak memory consumption.
翻訳日:2024-03-05 18:44:20 公開日:2024-02-29
# FusionVision: YOLOと高速セグメンテーションを用いたRGB-Dカメラからの3Dオブジェクト再構成とセグメンテーションの総合的アプローチ

FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything ( http://arxiv.org/abs/2403.00175v1 )

ライセンス: Link先を確認
Safouane El Ghazouali, Youssef Mhirit, Ali Oukhrid, Umberto Michelucci, Hichem Nouira(参考訳) コンピュータビジョンの分野では、rgb-dカメラ入力の処理に高度な技術を統合することは、多様な環境条件と様々なオブジェクトの外観から生じる固有の複雑さを考えると、大きな課題となる。 そこで本研究では,RGB-D画像におけるオブジェクトのロバストな3次元セグメンテーションに適応した総括パイプラインFusionVisionを提案する。 従来のコンピュータビジョンシステムは、RGBカメラで主に提案されているように、精密な物体境界を同時に捉え、深度マップ上で高精度な物体検出を実現する際に制限に直面している。 この課題に対処するため、FusionVisionでは、最先端のオブジェクト検出技術を高度なインスタンスセグメンテーション手法と組み合わせた統合的なアプローチを採用している。 これらのコンポーネントの統合により、rgb-dデータの総合的な解釈(color \textit{rgb} と depth \textit{d} の両方から得られる情報の統一分析)が可能になり、包括的かつ正確なオブジェクト情報の抽出が容易になる。 提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。 続いて、革新的意味セグメンテーションモデルであるfastsamを用いてオブジェクト境界を記述し、洗練されたセグメンテーションマスクを生成する。 これらのコンポーネント間の相乗効果と3Dシーン理解への統合により、オブジェクト検出とセグメンテーションの結合が保証され、3Dオブジェクトセグメンテーションの全体的な精度が向上する。 コードと事前訓練されたモデルはhttps://github.com/safouaneelg/FusionVision/.comで公開されている。

In the realm of computer vision, the integration of advanced techniques into the processing of RGB-D camera inputs poses a significant challenge, given the inherent complexities arising from diverse environmental conditions and varying object appearances. Therefore, this paper introduces FusionVision, an exhaustive pipeline adapted for the robust 3D segmentation of objects in RGB-D imagery. Traditional computer vision systems face limitations in simultaneously capturing precise object boundaries and achieving high-precision object detection on depth map as they are mainly proposed for RGB cameras. To address this challenge, FusionVision adopts an integrated approach by merging state-of-the-art object detection techniques, with advanced instance segmentation methods. The integration of these components enables a holistic (unified analysis of information obtained from both color \textit{RGB} and depth \textit{D} channels) interpretation of RGB-D data, facilitating the extraction of comprehensive and accurate object information. The proposed FusionVision pipeline employs YOLO for identifying objects within the RGB image domain. Subsequently, FastSAM, an innovative semantic segmentation model, is applied to delineate object boundaries, yielding refined segmentation masks. The synergy between these components and their integration into 3D scene understanding ensures a cohesive fusion of object detection and segmentation, enhancing overall precision in 3D object segmentation. The code and pre-trained models are publicly available at https://github.com/safouaneelg/FusionVision/.
翻訳日:2024-03-05 18:43:45 公開日:2024-02-29
# ストリートビュー画像を用いた都市環境の人間知覚収集のための市民科学ツールキット

A citizen science toolkit to collect human perceptions of urban environments using open street view images ( http://arxiv.org/abs/2403.00174v1 )

ライセンス: Link先を確認
Matthew Danish and SM Labib and Britta Ricker and Marco Helbich(参考訳) ストリートビューレベルの画像(SVI)は、研究(環境評価、緑地識別、土地被覆分類など)にとって貴重なデータソースである。 商用SVIは利用可能だが、そのようなプロバイダは通常、研究に必要なコピーや再利用を制限している。 オープンsviデータセットは、mapillaryのような制限の少ないソースから容易に利用できるが、画像の多様性のため、かなりの前処理、フィルタリング、注意深い品質チェックが必要である。 本稿では,これらの画像に描かれた道路の人間の知覚調査に使用される,自動ダウンロード,処理,収穫,フィルタリングの効率的な方法を提案する。 我々は,アムステルダム(オランダ)を事例として,オープンソースの再利用可能なSVI準備とスマートフォンフレンドリーな知覚サーベイソフトウェアを実演する。 市民科学のアプローチを用いて、様々な基準に対する認識について331人22,637人のレーティングを収集した。 我々のソフトウェアは、将来の再利用と再現性のためにパブリックリポジトリに公開しました。

Street View-level Imagery (SVI) is a valuable data source for studies (e.g., environmental assessments, green space identification or land cover classification). While commercial SVI is available, such providers commonly restrict copying or reuse in ways necessary for research. Open SVI datasets are readily available from less restrictive sources, such as Mapillary, but due to the heterogeneity of the images, these require substantial preprocessing, filtering, and careful quality checks. We present an efficient method for automated downloading, processing, cropping, and filtering open SVI, to be used in a survey of human perceptions of the streets portrayed in these images. We demonstrate our open-source reusable SVI preparation and smartphone-friendly perception-survey software with Amsterdam (Netherlands) as the case study. Using a citizen science approach, we collected from 331 people 22,637 ratings about their perceptions for various criteria. We have published our software in a public repository for future re-use and reproducibility.
翻訳日:2024-03-05 18:42:59 公開日:2024-02-29
# 無コヒーレント照明下での電子励起輸送におけるコヒーレントビブロニックの2色光子相関

Two-colour photon correlations probe coherent vibronic contributions to electronic excitation transport under incoherent illumination ( http://arxiv.org/abs/2403.00857v1 )

ライセンス: Link先を確認
Charlie Nation, Valentina Notararigo, Hallmann Oskar Gestsson, Luca Sapienza, Alexandra Olaya-Castro(参考訳) 熱平衡から離れた定常状態において維持される光活性系における量子コヒーレント挙動のシグネチャの同定は、連続的非コヒーレント照明を受ける単一光合成錯体を含む様々な物理シナリオに広く関心を寄せている。 本稿では,コヒーレントおよび集団励起子-振動相互作用を示す光ハーブ型ヘテロダイマーのプロトタイプについて検討し,蛍光光子の2次周波数フィルター相関が,異なる遷移に対するコヒーレント相互作用の影響に関する洞察深い情報を提供し,光子計数統計を根本的に異なるものにすることを示す。 さらに,コヒーレントな振動機構は時間分解光子相互相関の非対称性に強く影響し,古典的変動場に対するコーシー・シュワルツ不等式に時間依存的に違反することを示した。 最終的に、このような二階相関非対称性がコヒーレントな振動子相互作用、指向性励起子集団輸送、量子詳細バランス違反の間の重要な関係をいかに確立するかを論じる。 その結果, 2色光子相関非対称性の測定は, 不整合照明条件下での単一光活性生体分子および化学系の量子挙動を調べる上で重要な方法であることが示唆された。

Identifying signatures of quantum coherent behaviour in photoactive systems that are maintained in stationary states away from thermal equilibrium is an open problem of wide interest in a variety of physical scenarios, including single photosynthetic complexes subjected to continuous incoherent illumination. Here we consider a prototype light-harvesting heterodimer exhibiting coherent and collective exciton-vibration interactions and show that the second-order frequency-filtered correlations of fluorescence photons provide insightful information on the influence of such coherent interactions for different transitions, thereby yielding fundamentally different photon-counting statistics. Furthermore, we show that coherent vibronic mechanisms strongly affect the asymmetries characteristic of time-resolved photon cross-correlations and manifest themselves in a time-dependent violation of the Cauchy-Schwarz inequality bounding cross-correlations for classically fluctuating fields. We finally discuss how such second-order correlation asymmetry establishes important connections between coherent vibronic interactions, directional exciton population transport, and violation of quantum detailed balance. Our work then indicates that measurement of two-colour photon correlation asymmetry can be an important avenue to investigate quantum behaviour of single photoactive biomolecular and chemical systems under incoherent illumination conditions.
翻訳日:2024-03-05 16:30:33 公開日:2024-02-29
# 自己教師付きトランスフォーマーとマルチタスク学習を用いた話者非依存性等級分類

Speaker-Independent Dysarthria Severity Classification using Self-Supervised Transformers and Multi-Task Learning ( http://arxiv.org/abs/2403.00854v1 )

ライセンス: Link先を確認
Lauren Stumpf and Balasundaram Kadirvelu and Sigourney Waibel and A. Aldo Faisal(参考訳) 神経疾患による舌の筋肉の制御障害から生じる疾患であるDysarthriaは、患者のコミュニケーションや生活の質に大きな影響を及ぼす。 条件の複雑さ、人間のスコア、様々なプレゼンテーションは評価と管理を困難にする。 本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。 客観的で反復可能で、アクセス性があり、標準化され、コスト効率が良く、従来の人間の専門家による評価方法と比較できる。 本研究では,話者非依存型多クラス重度分類のためのマルチタスク学習目標とコントラスト学習を組み込んだ,話者非依存型潜在正規化(salr)と呼ばれるトランスフォーマフレームワークを開発した。 マルチタスクフレームワークは、話者固有の特性への依存度を低減し、摂動性構音のクラス内変動性に対処するように設計されている。 その結果、従来の機械学習手法よりも優れた性能を示し、精度は70.48\%$、f1スコアは59.23\%$であった。 我々のSALRモデルは、サポートベクターマシンを使用したAIベースの分類の以前のベンチマークを16.58セントで上回った。 モデルが話者固有の手がかりを実質的に削減し、タスク固有のものを増幅し、その堅牢性を示すために、潜在空間を可視化することで、モデルのブラックボックスを開きます。 結論として、SALRは、生成AIを用いた話者非依存型多階級性難聴度分類の新しいベンチマークを確立した。 重症度自動評価における臨床応用の可能性について検討した。

Dysarthria, a condition resulting from impaired control of the speech muscles due to neurological disorders, significantly impacts the communication and quality of life of patients. The condition's complexity, human scoring and varied presentations make its assessment and management challenging. This study presents a transformer-based framework for automatically assessing dysarthria severity from raw speech data. It can offer an objective, repeatable, accessible, standardised and cost-effective and compared to traditional methods requiring human expert assessors. We develop a transformer framework, called Speaker-Agnostic Latent Regularisation (SALR), incorporating a multi-task learning objective and contrastive learning for speaker-independent multi-class dysarthria severity classification. The multi-task framework is designed to reduce reliance on speaker-specific characteristics and address the intrinsic intra-class variability of dysarthric speech. We evaluated on the Universal Access Speech dataset using leave-one-speaker-out cross-validation, our model demonstrated superior performance over traditional machine learning approaches, with an accuracy of $70.48\%$ and an F1 score of $59.23\%$. Our SALR model also exceeded the previous benchmark for AI-based classification, which used support vector machines, by $16.58\%$. We open the black box of our model by visualising the latent space where we can observe how the model substantially reduces speaker-specific cues and amplifies task-specific ones, thereby showing its robustness. In conclusion, SALR establishes a new benchmark in speaker-independent multi-class dysarthria severity classification using generative AI. The potential implications of our findings for broader clinical applications in automated dysarthria severity assessments.
翻訳日:2024-03-05 16:30:06 公開日:2024-02-29
# バイアス勾配推定に基づく分散モーメント法

Distributed Momentum Methods Under Biased Gradient Estimations ( http://arxiv.org/abs/2403.00853v1 )

ライセンス: Link先を確認
Ali Beikmohammadi, Sarit Khirirat, Sindri Magn\'usson(参考訳) 分散確率勾配法は、複数のノードに分散するデータを含む大規模機械学習問題の解決において注目されている。 しかし、最も理論的な研究の焦点となっている偏りのない確率勾配を得ることは、多くの分散機械学習アプリケーションにおいて困難である。 勾配推定は、例えば、勾配が圧縮されたり、切断されたり、データがシャッフルされたり、メタラーニングや強化学習で容易にバイアスとなる。 本研究では,一般非凸問題と$\mu$-pl非凸問題の両方に対する偏勾配推定の下で,分散運動量法における非漸近収束境界を確立する。 本分析は,一般的な分散最適化問題を対象としており,勾配推定が偏り,すなわちメタラーニングや,勾配が圧縮されたり,クリップされたりする場合など,特別な場合の意義について検討する。 我々は,Top-K$スペーシフィケーションとクリッピングによるディープニューラルネットワークのトレーニングに関する数値実験により,従来のバイアス勾配よりも高速なモーメント手法の収束性能を検証した。

Distributed stochastic gradient methods are gaining prominence in solving large-scale machine learning problems that involve data distributed across multiple nodes. However, obtaining unbiased stochastic gradients, which have been the focus of most theoretical research, is challenging in many distributed machine learning applications. The gradient estimations easily become biased, for example, when gradients are compressed or clipped, when data is shuffled, and in meta-learning and reinforcement learning. In this work, we establish non-asymptotic convergence bounds on distributed momentum methods under biased gradient estimation on both general non-convex and $\mu$-PL non-convex problems. Our analysis covers general distributed optimization problems, and we work out the implications for special cases where gradient estimates are biased, i.e., in meta-learning and when the gradients are compressed or clipped. Our numerical experiments on training deep neural networks with Top-$K$ sparsification and clipping verify faster convergence performance of momentum methods than traditional biased gradient descent.
翻訳日:2024-03-05 16:29:38 公開日:2024-02-29
# キャビティ電気力学による放射熱流の制御

Controlling radiative heat flow through cavity electrodynamics ( http://arxiv.org/abs/2403.00851v1 )

ライセンス: Link先を確認
Francesca Fassioli, Jerome Faist, Martin Eckstein, Daniele Fausti(参考訳) キャビティ電気力学は化学プロセスと量子材料特性を制御するための有望なツールとして登場している。 本研究では,物質と電磁環境との間の空洞媒介エネルギー交換を記述するフォーマリズムを開発する。 共平面キャビティは,自由空間の放射熱が支配する周波数領域にキャビティ共鳴が存在すれば試料の熱負荷に有意な影響を与えうるが,低周波数のキャビティに対してスペクトルフィルタリングが必要となる。

Cavity electrodynamics is emerging as a promising tool to control chemical processes and quantum material properties. In this work we develop a formalism to describe the cavity mediated energy exchange between a material and its electromagnetic environment. We show that coplanar cavities can significantly affect the heat load on the sample if the cavity resonance lies within the frequency region where free-space radiative heat dominates, typically the mid-IR at ambient temperature, while spectral filtering is necessary for having an effect with lower frequency cavities.
翻訳日:2024-03-05 16:29:21 公開日:2024-02-29
# NeuraLUT:ブール合成機能におけるニューラルネットワーク密度の維持

NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions ( http://arxiv.org/abs/2403.00849v1 )

ライセンス: Link先を確認
Marta Andronic and George A. Constantinides(参考訳) Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。 ニューラルネットワーク(NN)における最も計算集約的な操作の1つは、特徴ベクトルと重みベクトルの間のドット積である。 このように、従来のFPGAアクセラレーションでは、ハードウェア実装のために量子化された入力と出力を直接ルックアップテーブル(LUT)にマッピングするニューロンが提案されていた。 これらの研究において、ニューロンの境界はLUTの境界と一致する。 我々は、これらの境界を緩和し、サブネットワーク全体を単一のlutにマッピングする。 サブネットワークがLUTに吸収されるため、パーティション内のNNトポロジと精度は、生成されたルックアップテーブルのサイズに影響を与えない。 そこで,回路トポロジにNNトポロジが露出するパーティション間のみに厳密な間隔と量子化を施したユニバーサル関数近似器の恩恵を受けるため,各パーティション内で浮動小数点精度を持つ完全連結層を利用する。 実装コストは安いが、このアプローチは非常に深いNNにつながる可能性があるため、グラデーションの廃止などの課題に対処するため、パーティション内のスキップ接続も導入する。 結果として得られた方法論は、より浅い回路レベルのネットワークにマッピングできる特定のスパーシティパターンでdnnをトレーニングすることで、レイテンシを大幅に改善することができる。 提案手法は,既知のレイテンシクリティカルタスクであるjetサブストラクチャータグと,従来のコンピュータビジョンタスクであるmnistを用いた桁分類について検証した。 提案手法により,既存の作業に比べてLUT内での関数表現性が向上し,同じ精度でNNのレイテンシが低下する。

Field-Programmable Gate Array (FPGA) accelerators have proven successful in handling latency- and resource-critical deep neural network (DNN) inference tasks. Among the most computationally intensive operations in a neural network (NN) is the dot product between the feature and weight vectors. Thus, some previous FPGA acceleration works have proposed mapping neurons with quantized inputs and outputs directly to lookup tables (LUTs) for hardware implementation. In these works, the boundaries of the neurons coincide with the boundaries of the LUTs. We propose relaxing these boundaries and mapping entire sub-networks to a single LUT. As the sub-networks are absorbed within the LUT, the NN topology and precision within a partition do not affect the size of the lookup tables generated. Therefore, we utilize fully connected layers with floating-point precision inside each partition, which benefit from being universal function approximators, with rigid sparsity and quantization enforced only between partitions, where the NN topology becomes exposed to the circuit topology. Although cheap to implement, this approach can lead to very deep NNs, and so to tackle challenges like vanishing gradients, we also introduce skip connections inside the partitions. The resulting methodology can be seen as training DNNs with a specific sparsity pattern that allows them to be mapped to much shallower circuit-level networks, thereby significantly improving latency. We validate our proposed method on a known latency-critical task, jet substructure tagging, and on the classical computer vision task, the digit classification using MNIST. Our approach allows for greater function expressivity within the LUTs compared to existing work, leading to lower latency NNs for the same accuracy.
翻訳日:2024-03-05 16:29:10 公開日:2024-02-29
# 縮退性原子系の左利き性に及ぼす自然発生コヒーレンスの影響

Effect of spontaneously generated coherence on left-handedness in a degeneracy atomic system ( http://arxiv.org/abs/2403.00848v1 )

ライセンス: Link先を確認
Shun-Cai Zhao(参考訳) 4レベルY型原子系の左利き性に及ぼす自然発生コヒーレンス(SGC)の影響について理論的検討を行った。 自発的に生じるコヒーレンス強度の増強により、原子系は徐々に左利きを同時に負の誘電率と透過性で表示する。 また、屈折率の上昇はSGCの強度の増加とともに増大するが、SGCが大きな強度を持つときのSGC効果により吸収が抑制されるが、プローブ場が原子系とほぼ共鳴している場合、SGCの出現は必ずしも正から負に変化せず、SGCが大きな強度に達する限り左利きの挙動を許容するわけではない。

A theoretical investigation is carried out into the effect of spontaneously generated coherence(SGC) on the left-handedness in a four-level Y-type atomic system with two highest nearly degenerate lying levels. It is found, with the spontaneously generated coherence intensity enhancing, the atomic system gradually displays left-handedness with simultaneous negative permittivity and permeability. And the refractive index enhances with the increasing intensity of SGC.However, the absorption is suppressed by the SGC effect when the SGC has a large intensity.When the probe field is near-resonant coupled to the atomic system, the appearance of SGC doesn't always change the permeability from positive to negative and allow for left-handed behavior,unless the SGC reaches a large intensity.
翻訳日:2024-03-05 16:28:42 公開日:2024-02-29
# 4レベル左利き原子系におけるコヒーレント場と非コヒーレント場を経由しない負の屈折

Negative refraction without absorption via both coherent and incoherent fields in a four-level left-handed atomic system ( http://arxiv.org/abs/2403.00847v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Zheng-Dong Liu and Qi-Xuan Wu(参考訳) This paper attempts a probe into negative refraction without absorption by means of an incoherent pump field and a strong coherent field coupling the dense four-level atomic system.With the application of the incoherent pump field to manipulate the populations in atomic levels and the variable strong coherent field to create quantum coherence, the constraint condition of two equal transition frequencies responding to the probe field in the atomic system isn't required.And these lead to the propagation transparency and strong magnetic response of the probe field,left-handedness with vanishing absorption in the atomic system.However,an excessive coherent field intensity would increase the absorption.

This paper attempts a probe into negative refraction without absorption by means of an incoherent pump field and a strong coherent field coupling the dense four-level atomic system.With the application of the incoherent pump field to manipulate the populations in atomic levels and the variable strong coherent field to create quantum coherence, the constraint condition of two equal transition frequencies responding to the probe field in the atomic system isn't required.And these lead to the propagation transparency and strong magnetic response of the probe field,left-handedness with vanishing absorption in the atomic system.However,an excessive coherent field intensity would increase the absorption.
翻訳日:2024-03-05 16:28:27 公開日:2024-02-29
# 重力波の正規化を伴う量子ベイズ推定

Quantum Bayesian Inference with Renormalization for Gravitational Waves ( http://arxiv.org/abs/2403.00846v1 )

ライセンス: Link先を確認
Gabriel Escrig, Roberto Campos, Hong Qi and M. A. Martin-Delgado(参考訳) 重力波干渉計の進歩、特に次世代は、重力波天文学とマルチメースセンガー天体物理学に大きな影響を与える可能性がある。 重力波干渉計で検出された小型のバイナリコレッセンスからパラメータの量子推論を行うために,ハイブリッド量子アルゴリズムを提案する。 量子ベイズ推論と再正規化とダウンサンプリング(qBIRD)を行う。 LIGO観測所から二元ブラックホール(BBH)の融合をアルゴリズムをテストする最初のケースとして選択するが、その応用はより一般的なインスタンスに拡張できる。 量子アルゴリズムは、ゼロノイズ、ガウスノイズ、実データを持つ既知の注入パラメータ値を持つ模擬重力波の推定により、チャープ質量、質量比、スピンなどの関連するパラメータのコーナープロットを生成することができ、古典的なマルコフ連鎖モンテカルロ推論と同等の精度を回復することができる。 シミュレーションは2と4のパラメータのセットで実行される。 これらの結果から, より長い時間にわたって, 重力波パラメータ推定の精度と速さを延ばす低い周波数で, 合体信号の追跡能力を高めることが可能となった。

Advancements in gravitational-wave interferometers, particularly the next generation, are poised to profoundly impact gravitational wave astronomy and multimessenger astrophysics. A hybrid quantum algorithm is proposed to carry out quantum inference of parameters from compact binary coalescences detected in gravitational-wave interferometers. It performs quantum Bayesian Inference with Renormalization and Downsampling (qBIRD). We choose binary black hole (BBH) mergers from LIGO observatories as the first case to test the algorithm, but its application can be extended to more general instances. The quantum algorithm is able to generate corner plots of relevant parameters such as chirp mass, mass ratio, spins, etc. by inference of simulated gravitational waves with known injected parameter values with zero noise, Gaussian noise and real data, thus recovering an accuracy equivalent to that of classical Markov Chain Monte Carlo inferences. The simulations are performed with sets of 2 and 4 parameters. These results enhance the possibilities to extend our capacity to track signals from coalescences over longer durations and at lower frequencies extending the accuracy and promptness of gravitational wave parameter estimation.
翻訳日:2024-03-05 16:28:18 公開日:2024-02-29
# 広告オークションにおけるCTR予測のためのオンライン学習アルゴリズムの改良

Improved Online Learning Algorithms for CTR Prediction in Ad Auctions ( http://arxiv.org/abs/2403.00845v1 )

ライセンス: Link先を確認
Zhe Feng, Christopher Liaw, Zixin Zhou(参考訳) 本研究では,広告主が各広告候補のクリックスルーレート(CTR)を学習し,クリック単価で勝者の価格を課金する必要がある広告オークションにおける収益最大化のオンライン学習問題について検討する。 広告主の戦略行動の2つのモデルに焦点を当てます。 まず、広告主が完全に筋電図であると仮定する。つまり、各ラウンドにおいて、彼らは現在のラウンドでのみ有効性を最大化することを目指している。 この設定では、全てのオークションで値が静的であり、最大期待値(すなわち、CTRによって乗算される値)と2番目に高い期待値広告の間にギャップがある場合、最悪のケースではO(\sqrt{T})$後悔と負の後悔を達成できる上限に基づくオンラインメカニズムを開発する。 次に、広告主は非名物であり、その長期的な効用を気にかけていると仮定する。 この設定は、広告主が前回のラウンドで戦略的に入札することでメカニズムに影響を与えるインセンティブを与えるため、はるかに複雑である。 この設定では、静的な評価設定(正のギャップを持つ)に対する否定的な後悔を達成するアルゴリズムを提供するが、これは、相手によって評価が生成されると、$O(T^{2/3})の後悔を示す以前の作業と対照的である。

In this work, we investigate the online learning problem of revenue maximization in ad auctions, where the seller needs to learn the click-through rates (CTRs) of each ad candidate and charge the price of the winner through a pay-per-click manner. We focus on two models of the advertisers' strategic behaviors. First, we assume that the advertiser is completely myopic; i.e.~in each round, they aim to maximize their utility only for the current round. In this setting, we develop an online mechanism based on upper-confidence bounds that achieves a tight $O(\sqrt{T})$ regret in the worst-case and negative regret when the values are static across all the auctions and there is a gap between the highest expected value (i.e.~value multiplied by their CTR) and second highest expected value ad. Next, we assume that the advertiser is non-myopic and cares about their long term utility. This setting is much more complex since an advertiser is incentivized to influence the mechanism by bidding strategically in earlier rounds. In this setting, we provide an algorithm to achieve negative regret for the static valuation setting (with a positive gap), which is in sharp contrast with the prior work that shows $O(T^{2/3})$ regret when the valuation is generated by adversary.
翻訳日:2024-03-05 16:27:56 公開日:2024-02-29
# 下肢部分AUC : 勧告のための効率的かつ効率的な最適化基準

Lower-Left Partial AUC: An Effective and Efficient Optimization Metric for Recommendation ( http://arxiv.org/abs/2403.00844v1 )

ライセンス: Link先を確認
Wentao Shi, Chenxu Wang, Fuli Feng, Yang Zhang, Wenjie Wang, Junkang Wu, Xiangnan He(参考訳) 最適化メトリクスは、大規模にレコメンデーションシステムを構築するために重要です。 しかし、実用上の有効かつ効率的な測定基準はいまだ解明されていない。 トップkランキング指標は最適化の金の基準であるが、計算のオーバーヘッドは大きい。 あるいは、より効率的な精度とAUCメトリクスは、しばしばレコメンデーションタスクの真のターゲットを捉えていないため、亜最適パフォーマンスにつながる。 このジレンマを克服するために、AUCと同様に計算効率が良く、Top-Kランキングと強く相関する新しい最適化指標であるLLPAUCを提案する。 AUCと比較すると、LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに重点を置いている。 LLPAUCとTop-Kランキングの相関関係を理論的に検証し,ノイズの多いユーザフィードバックに対するロバスト性を示す。 さらに、LLPAUCを最大化するために効率的なポイントワイドレコメンデーション損失を設計し、3つのデータセットで評価し、その有効性と堅牢性を検証する。

Optimization metrics are crucial for building recommendation systems at scale. However, an effective and efficient metric for practical use remains elusive. While Top-K ranking metrics are the gold standard for optimization, they suffer from significant computational overhead. Alternatively, the more efficient accuracy and AUC metrics often fall short of capturing the true targets of recommendation tasks, leading to suboptimal performance. To overcome this dilemma, we propose a new optimization metric, Lower-Left Partial AUC (LLPAUC), which is computationally efficient like AUC but strongly correlates with Top-K ranking metrics. Compared to AUC, LLPAUC considers only the partial area under the ROC curve in the Lower-Left corner to push the optimization focus on Top-K. We provide theoretical validation of the correlation between LLPAUC and Top-K ranking metrics and demonstrate its robustness to noisy user feedback. We further design an efficient point-wise recommendation loss to maximize LLPAUC and evaluate it on three datasets, validating its effectiveness and robustness.
翻訳日:2024-03-05 16:27:28 公開日:2024-02-29
# 双方向学習可能な大規模言語モデル計画による長期勧告の強化

Enhancing Long-Term Recommendation with Bi-level Learnable Large Language Model Planning ( http://arxiv.org/abs/2403.00843v1 )

ライセンス: Link先を確認
Wentao Shi, Xiangnan He, Yang Zhang, Chongming Gao, Xinyue Li, Jizhi Zhang, Qifan Wang, Fuli Feng(参考訳) 従来のレコメンデーション設定は、ユーザの直接の関心を過度に満たし、長期的なエンゲージメントを無視する傾向がある。 即時利益と長期エンゲージメントの両方を考慮に入れた政策を策定するため、提案決定プロセスに計画機能を組み込むことが重要である。 強化学習(RL)は累積報酬を最大化することで計画能力を学ぶことができるが、推奨データの不足は、RLモデルをゼロからトレーニングする際の不安定性や過度な適合性といった課題を提示する。 本稿では,Large Language Models (LLMs) のスパースデータよりも,長期的推薦に優れた計画能力を活用することを提案する。 キーとなるのは、言語モデルがパーソナライズされたレコメンデーションシナリオにおいて、タスク解決の原則を効果的に理解し、適用できるようにすることである。 そこで本研究では,マクロラーニングとマイクロラーニングを階層的な機構で組み合わせたBi-level Learnable LLM Plannerフレームワークを提案する。 このフレームワークには、高レベルのガイド原則を取得するためのプランナーとリフレクタと、パーソナライゼーションを計画するためのアクタ・クリティカルコンポーネントが含まれている。 大規模な実験は、長期的勧告を計画する学習におけるフレームワークの優位性を検証する。

Traditional recommendation setting tends to excessively cater to users' immediate interests and neglect their long-term engagement. To address it, it is crucial to incorporate planning capabilities into the recommendation decision-making process to develop policies that take into account both immediate interests and long-term engagement. Despite Reinforcement Learning (RL) can learn planning capacity by maximizing cumulative reward, the scarcity of recommendation data presents challenges such as instability and susceptibility to overfitting when training RL models from scratch. In this context, we propose to leverage the remarkable planning capabilities over sparse data of Large Language Models (LLMs) for long-term recommendation. The key lies in enabling a language model to understand and apply task-solving principles effectively in personalized recommendation scenarios, as the model's pre-training may not naturally encompass these principles, necessitating the need to inspire or teach the model. To achieve this, we propose a Bi-level Learnable LLM Planner framework, which combines macro-learning and micro-learning through a hierarchical mechanism. The framework includes a Planner and Reflector for acquiring high-level guiding principles and an Actor-Critic component for planning personalization. Extensive experiments validate the superiority of the framework in learning to plan for long-term recommendations.
翻訳日:2024-03-05 16:27:10 公開日:2024-02-29
# 競合ゲームのためのオフライン架空のセルフプレイ

Offline Fictitious Self-Play for Competitive Games ( http://arxiv.org/abs/2403.00841v1 )

ライセンス: Link先を確認
Jingxiao Chen, Weiji Xie, Weinan Zhang, Yong yu, Ying Wen(参考訳) オフライン強化学習(RL)は、オンラインインタラクションなしで以前に収集されたデータセットのポリシーを改善する能力により、大きな関心を集めている。 シングルエージェント設定での成功にもかかわらず、オフラインマルチエージェントRLは、特に競争ゲームにおいて課題である。 第一に、ゲーム構造に気付かず、対戦相手と対話し、対戦ゲームのための主要な学習パラダイムであるセルフプレイを実行することは不可能である。 第二に、現実世界のデータセットはゲームのすべての状態とアクション空間をカバーできないため、ナッシュ均衡(NE)を特定する障壁となる。 そこで本稿では,競争ゲームのためのモデルフリーオフラインrlアルゴリズムであるoff-fspを提案する。 まず,重み付けしたデータセットの重み付けを調整することで,様々な相手とのインタラクションをシミュレートすることから始める。 このテクニックにより、異なる対戦相手に対するベストレスポンスを学習し、オフラインの自己プレイ学習フレームワークを活用できます。 このフレームワークでは、NEを近似するためにFSP(Fictitious Self-Play)をさらに実装する。 実世界の部分的データセットでは, 単一エージェントのオフラインRL手法を組み込んでNEにアプローチする可能性を示した。 Leduc Hold'em Pokerの実験結果から,本手法は最先端のベースラインに比べて性能を著しく向上することが示された。

Offline Reinforcement Learning (RL) has received significant interest due to its ability to improve policies in previously collected datasets without online interactions. Despite its success in the single-agent setting, offline multi-agent RL remains a challenge, especially in competitive games. Firstly, unaware of the game structure, it is impossible to interact with the opponents and conduct a major learning paradigm, self-play, for competitive games. Secondly, real-world datasets cannot cover all the state and action space in the game, resulting in barriers to identifying Nash equilibrium (NE). To address these issues, this paper introduces Off-FSP, the first practical model-free offline RL algorithm for competitive games. We start by simulating interactions with various opponents by adjusting the weights of the fixed dataset with importance sampling. This technique allows us to learn best responses to different opponents and employ the Offline Self-Play learning framework. In this framework, we further implement Fictitious Self-Play (FSP) to approximate NE. In partially covered real-world datasets, our methods show the potential to approach NE by incorporating any single-agent offline RL method. Experimental results in Leduc Hold'em Poker show that our method significantly improves performances compared with state-of-the-art baselines.
翻訳日:2024-03-05 16:26:44 公開日:2024-02-29
# eyegpt: 大きな言語モデルを持つ眼科用アシスタント

EyeGPT: Ophthalmic Assistant with Large Language Models ( http://arxiv.org/abs/2403.00840v1 )

ライセンス: Link先を確認
Xiaolan Chen, Ziwei Zhao, Weiyi Zhang, Pusheng Xu, Le Gao, Mingpu Xu, Yue Wu, Yinwen Li, Danli Shi, Mingguang He(参考訳) 人工知能(ai)は、臨床ワークフローの改善と医療コミュニケーションの強化の可能性から、医療相談において大きな注目を集めている。 しかし、医療情報の複雑な性質から、一般世界の知識で訓練された大規模言語モデル(LLM)には、専門家レベルで医療関連課題に取り組む能力がない可能性がある。 本稿では,眼科専門の眼科用llmであるeyegptについて,ロールプレイング,微調整,検索適応生成の3つの最適化戦略を用いて紹介する。 特に,眼科の様々な亜種,異なるユーザ,多様な探究意図を網羅した,多様なデータセットを含む包括的評価フレームワークを提案する。 さらに, 正確性, 理解性, 信頼性, 共感, 幻覚の比率など, 複数の評価指標を検討した。 異なるeyegpt変異体の性能を評価することで、ヒトの眼科医(全ps>0.05)に対する理解性、信頼性、共感のレベルに匹敵する、最も効果的なものを特定する。 総じて、我々の研究は将来の研究に貴重な洞察を与え、眼科における特殊なLSMを開発するための様々な戦略の総合的な比較と評価を促進する。 潜在的な利点は、アイケアにおける患者体験の向上と眼科医のサービスを最適化することである。

Artificial intelligence (AI) has gained significant attention in healthcare consultation due to its potential to improve clinical workflow and enhance medical communication. However, owing to the complex nature of medical information, large language models (LLM) trained with general world knowledge might not possess the capability to tackle medical-related tasks at an expert level. Here, we introduce EyeGPT, a specialized LLM designed specifically for ophthalmology, using three optimization strategies including role-playing, finetuning, and retrieval-augmented generation. In particular, we proposed a comprehensive evaluation framework that encompasses a diverse dataset, covering various subspecialties of ophthalmology, different users, and diverse inquiry intents. Moreover, we considered multiple evaluation metrics, including accuracy, understandability, trustworthiness, empathy, and the proportion of hallucinations. By assessing the performance of different EyeGPT variants, we identify the most effective one, which exhibits comparable levels of understandability, trustworthiness, and empathy to human ophthalmologists (all Ps>0.05). Overall, ur study provides valuable insights for future research, facilitating comprehensive comparisons and evaluations of different strategies for developing specialized LLMs in ophthalmology. The potential benefits include enhancing the patient experience in eye care and optimizing ophthalmologists' services.
翻訳日:2024-03-05 16:26:07 公開日:2024-02-29
# toolnet: ツールグラフによる大規模言語モデルと大規模ツールの接続

ToolNet: Connecting Large Language Models with Massive Tools via Tool Graph ( http://arxiv.org/abs/2403.00839v1 )

ライセンス: Link先を確認
Xukun Liu, Zhiyuan Peng, Xiaoyuan Yi, Xing Xie, Lirong Xiang, Yuchen Liu, Dongkuan Xu(参考訳) 幅広いタスクで顕著な進歩を遂げる一方で、大規模言語モデル(llm)は、大規模な外部ツールを使用しても大幅に制限されている。 既存のテキスト内学習アプローチは、ツールを単純なテキスト記述のリストにフォーマットし、LSMに入力することで、LSMはツールコールのシーケンスを生成して、問題を段階的に解決する。 このようなパラダイムは、ツール間の固有の依存関係を無視し、すべての推論負荷をLLMにオフロードする。 したがって、LLMが大規模なツールのライブラリで運用することは依然として困難であり、現実のシナリオに直面すると大きな制限が課される。 本稿では,トークン消費を緩やかに増やしながらツール数を数千に拡大するプラグイン・アンド・プレイフレームワークである toolnet を提案する。 ToolNetはツールを有向グラフに整理する。 各ノードはツールを表し、重み付きエッジはツール遷移を表す。 最初のツールノードから始めて、LCMはタスクが解決されるまで、その後継ノードから次のツールを反復的に選択することでグラフをナビゲートする。 広範な実験により、ツールネットは、マルチホップツール学習データセットに挑戦し、ツールの失敗に対して弾力性のある、素晴らしい結果を得ることができることが示されている。

While achieving remarkable progress in a broad range of tasks, large language models (LLMs) remain significantly limited in properly using massive external tools. Existing in-context learning approaches simply format tools into a list of plain text descriptions and input them to LLMs, from which, LLMs generate a sequence of tool calls to solve problems step by step. Such a paradigm ignores the intrinsic dependency between tools and offloads all reasoning loads to LLMs, making them restricted to a limited number of specifically designed tools. It thus remains challenging for LLMs to operate on a library of massive tools, casting a great limitation when confronted with real-world scenarios. This paper proposes ToolNet, a plug-and-play framework that scales up the number of tools to thousands with a moderate increase in token consumption. ToolNet organizes tools into a directed graph. Each node represents a tool, and weighted edges denote tool transition. Starting from an initial tool node, an LLM navigates in the graph by iteratively choosing the next one from its successors until the task is resolved. Extensive experiments show that ToolNet can achieve impressive results in challenging multi-hop tool learning datasets and is resilient to tool failures.
翻訳日:2024-03-05 16:25:27 公開日:2024-02-29
# LLMアンサンブル:Eコマース製品属性値抽出のための最適大言語モデルアンサンブル法

LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction ( http://arxiv.org/abs/2403.00863v1 )

ライセンス: Link先を確認
Chenhao Fang, Xiaohan Li, Zezhong Fan, Jianpeng Xu, Kaushiki Nag, Evren Korpeoglu, Sushant Kumar, Kannan Achan(参考訳) 商品属性値抽出は自然言語処理(NLP)と現代電子商取引業界において重要な要素である。 製品属性の正確な値の提供は、高品質なレコメンデーションの確保と顧客満足度の向上に不可欠である。 最近登場した大規模言語モデル(llms)は、ドメイン固有のトレーニングデータを必要としない、多数の属性抽出タスクで最先端のパフォーマンスを示している。 それでも、データ、アーキテクチャ、ハイパーパラメータの多様性のため、様々な長所と短所が異なるLCMによって示される。 この変異は相互に相補的であり、LLMが他の全てを独占することはない。 LLMの多様な長所と短所を考えると、それらの相補的ポテンシャルを利用するアンサンブル法を開発する必要がある。 本稿では,属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルという新しいアルゴリズムを提案する。 異なるLLMの重みを反復的に学習し、ラベルを重みで集約し、最終的な属性値を予測する。 提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。 Walmartの内部データからLlama2-13B,Llama2-70B,PaLM-2,GPT-3.5,GPT-4など,最先端LLMのさまざまな実験を行った。 我々のオフラインメトリクスは、LLMアンサンブルメソッドがWalmartの内部データセット上の最先端の単一のLLMよりも優れていることを示している。 この方法はいくつかの生産モデルでローンチされ、Gross Merchandise Volume (GMV)、Click-Through Rate (CTR)、Conversion Rate (CVR)、Add-to-Cart Rate (ATC)が改善された。

Product attribute value extraction is a pivotal component in Natural Language Processing (NLP) and the contemporary e-commerce industry. The provision of precise product attribute values is fundamental in ensuring high-quality recommendations and enhancing customer satisfaction. The recently emerging Large Language Models (LLMs) have demonstrated state-of-the-art performance in numerous attribute extraction tasks, without the need for domain-specific training data. Nevertheless, varying strengths and weaknesses are exhibited by different LLMs due to the diversity in data, architectures, and hyperparameters. This variation makes them complementary to each other, with no single LLM dominating all others. Considering the diverse strengths and weaknesses of LLMs, it becomes necessary to develop an ensemble method that leverages their complementary potentials. In this paper, we propose a novel algorithm called LLM-ensemble to ensemble different LLMs' outputs for attribute value extraction. We iteratively learn the weights for different LLMs to aggregate the labels with weights to predict the final attribute value. Not only can our proposed method be proven theoretically optimal, but it also ensures efficient computation, fast convergence, and safe deployment. We have also conducted extensive experiments with various state-of-the-art LLMs, including Llama2-13B, Llama2-70B, PaLM-2, GPT-3.5, and GPT-4, on Walmart's internal data. Our offline metrics demonstrate that the LLM-ensemble method outperforms all the state-of-the-art single LLMs on Walmart's internal dataset. This method has been launched in several production models, leading to improved Gross Merchandise Volume (GMV), Click-Through Rate (CTR), Conversion Rate (CVR), and Add-to-Cart Rate (ATC).
翻訳日:2024-03-05 16:16:40 公開日:2024-02-29
# NewsBench:中国のジャーナリズム編集応用における筆記能力と安全性向上のためのLCMの体系的評価

NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications ( http://arxiv.org/abs/2403.00862v1 )

ライセンス: Link先を確認
Miao Li and Ming-Bin Chen and Bo Tang and Shengbin Hou and Pengyu Wang and Haiying Deng and Zhiyu Li and Feiyu Xiong and Keming Mao and Peng Cheng and Yi Luo(参考訳) 本研究は,中国ジャーナリズム書記熟練度(JWP)におけるLarge Language Models(LLMs)の能力と,ジャーナリズム倫理とAI利用に伴うリスクとのギャップに対処するために開発された,新たなベンチマークフレームワークであるNewsBenchを提案する。 5つの編集アプリケーションにわたる1,267のタスクと7つの側面(安全性と4つの詳細なファセットを持つジャーナリストの執筆を含む)、24のニューストピックドメインを含むNewsBenchは、2つのGPT-4ベースの自動評価プロトコルを人間の評価によって検証している。 GPT-4, ERNIE Botをトップパフォーマーとして紹介したが, クリエイティブな執筆作業において, ジャーナリストの倫理的順守が比較的不十分であった。 これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。

This study presents NewsBench, a novel benchmark framework developed to evaluate the capability of Large Language Models (LLMs) in Chinese Journalistic Writing Proficiency (JWP) and their Safety Adherence (SA), addressing the gap between journalistic ethics and the risks associated with AI utilization. Comprising 1,267 tasks across 5 editorial applications, 7 aspects (including safety and journalistic writing with 4 detailed facets), and spanning 24 news topics domains, NewsBench employs two GPT-4 based automatic evaluation protocols validated by human assessment. Our comprehensive analysis of 11 LLMs highlighted GPT-4 and ERNIE Bot as top performers, yet revealed a relative deficiency in journalistic ethic adherence during creative writing tasks. These findings underscore the need for enhanced ethical guidance in AI-generated journalistic content, marking a step forward in aligning AI capabilities with journalistic standards and safety considerations.
翻訳日:2024-03-05 16:16:09 公開日:2024-02-29
# ディープジェネレーティブ技術による小売サプライチェーンの転換--分類学、調査、洞察

Pivoting Retail Supply Chain with Deep Generative Techniques: Taxonomy, Survey and Insights ( http://arxiv.org/abs/2403.00861v1 )

ライセンス: Link先を確認
Yuan Wang, Lokesh Kumar Sambasivan, Mingang Fu, Prakhar Mehrotra(参考訳) ChatGPTやDALL-EといったジェネレーティブAIアプリケーションは、人間のようなテキストや画像を生成する上で、世界が素晴らしい能力を持っていることを示している。 より深く、これらのAIアプリケーションの科学ステークホルダーはDeep Generative Models、別名DGMであり、データの基礎となる分布を学習し、統計学的に元のデータセットに類似した新しいデータポイントを生成するように設計されている。 1つの重要な疑問が浮かび上がっている。DGMをいかにして小売サプライチェーンの領域に活用できるか? そこで本稿では,(1)最先端dgmとその派生品の分類と概要,(2)小売サプライチェーンにおける既存dgmアプリケーションのエンド・ツー・エンドの視点からのレビュー,(3)小売サプライチェーン問題を解決する上での留意点と潜在的方向性について論じることにより,小売サプライチェーンにおけるdgmの包括的レビューと,それらの既存および潜在的ユースケースについて議論する。

Generative AI applications, such as ChatGPT or DALL-E, have shown the world their impressive capabilities in generating human-like text or image. Diving deeper, the science stakeholder for those AI applications are Deep Generative Models, a.k.a DGMs, which are designed to learn the underlying distribution of the data and generate new data points that are statistically similar to the original dataset. One critical question is raised: how can we leverage DGMs into morden retail supply chain realm? To address this question, this paper expects to provide a comprehensive review of DGMs and discuss their existing and potential usecases in retail supply chain, by (1) providing a taxonomy and overview of state-of-the-art DGMs and their variants, (2) reviewing existing DGM applications in retail supply chain from a end-to-end view of point, and (3) discussing insights and potential directions on how DGMs can be further utilized on solving retail supply chain problems.
翻訳日:2024-03-05 16:15:48 公開日:2024-02-29
# ニューラルネットワーク活性化領域の厳密な列挙のための並列アルゴリズム

Parallel Algorithms for Exact Enumeration of Deep Neural Network Activation Regions ( http://arxiv.org/abs/2403.00860v1 )

ライセンス: Link先を確認
Sabrina Drammis, Bowen Zheng, Karthik Srinivasan, Robert C. Berwick, Nancy A. Lynch, Robert Ajemian(参考訳) 整列線形ユニットを用いたフィードフォワードニューラルネットワークは、入力空間を単一のアフィン変換を共有する一連の凸領域に分割することにより、入力から出力へのマッピングを構築する。 ニューラルネットワークがどのように機能するか、いつ、なぜ失敗するのか、そしてどのように生物学的知性と比較するのかを理解するためには、これらの領域の組織と形成を理解する必要がある。 ステップ1は、おもちゃ以外のネットワークにおける正確な領域列挙のためのアルゴリズムの設計と実装である。 本研究では,深部(および浅部)ニューラルネットワークの正確な列挙のための並列アルゴリズムを提案する。 提案手法は,(1)新しいアルゴリズムフレームワークと領域列挙のための並列アルゴリズム,(2)様々なネットワークアーキテクチャ上でアルゴリズムの1つを実装し,その領域がランタイムをどのように決定しているかを実験的に示すこと,(3)アルゴリズムの出力を用いて,領域のアフィン変換の次元がより深い層による領域の分割にどのように影響するかを示すこと,の3つの大きな貢献がある。 我々の知る限り、既存の地域列挙文献で使われている全てのネットワークよりも大きいネットワーク上で実装されたアルゴリズムを実行する。 さらに,任意のネットワークの領域列挙における並列性の重要性を実験的に示す。

A feedforward neural network using rectified linear units constructs a mapping from inputs to outputs by partitioning its input space into a set of convex regions where points within a region share a single affine transformation. In order to understand how neural networks work, when and why they fail, and how they compare to biological intelligence, we need to understand the organization and formation of these regions. Step one is to design and implement algorithms for exact region enumeration in networks beyond toy examples. In this work, we present parallel algorithms for exact enumeration in deep (and shallow) neural networks. Our work has three main contributions: (1) we present a novel algorithm framework and parallel algorithms for region enumeration; (2) we implement one of our algorithms on a variety of network architectures and experimentally show how the number of regions dictates runtime; and (3) we show, using our algorithm's output, how the dimension of a region's affine transformation impacts further partitioning of the region by deeper layers. To our knowledge, we run our implemented algorithm on networks larger than all of the networks used in the existing region enumeration literature. Further, we experimentally demonstrate the importance of parallelism for region enumeration of any reasonably sized network.
翻訳日:2024-03-05 16:15:26 公開日:2024-02-29
# 紛争中のチーム形成

Team Formation amidst Conflicts ( http://arxiv.org/abs/2403.00859v1 )

ライセンス: Link先を確認
Iasonas Nikolaou, Evimaria Terzi(参考訳) 本研究では、対立の中でチーム形成の問題を定式化する。 目的は、個人のタスク嗜好とそれらの間の対立を考慮して、与えられた能力を持つタスクに個人を割り当てることである。 主ツールボックスとして従属的な丸めスキームを用い,効率的な近似アルゴリズムを提供する。 当社のフレームワークは非常に多用途であり,教育環境や人材管理において発生するさまざまな現実シナリオをモデル化することができる。 実世界のデータセット上でアルゴリズムをテストし、デプロイし、我々のアルゴリズムが自然なベースラインで見つかるものよりも優れた割り当てを見つけることを示す。 教育環境では、人間の専門家が手作業で行うよりも、我々の課題がいかに優れているかを示す。 ヒューマンリソース管理アプリケーションでは、タスクがどのようにチームの多様性を高めるかを示します。 最後に、合成データセットを用いて、我々のアルゴリズムが実際に非常にうまくスケールしていることを示します。

In this work, we formulate the problem of team formation amidst conflicts. The goal is to assign individuals to tasks, with given capacities, taking into account individuals' task preferences and the conflicts between them. Using dependent rounding schemes as our main toolbox, we provide efficient approximation algorithms. Our framework is extremely versatile and can model many different real-world scenarios as they arise in educational settings and human-resource management. We test and deploy our algorithms on real-world datasets and we show that our algorithms find assignments that are better than those found by natural baselines. In the educational setting we also show how our assignments are far better than those done manually by human experts. In the human resource management application we show how our assignments increase the diversity of teams. Finally, using a synthetic dataset we demonstrate that our algorithms scale very well in practice.
翻訳日:2024-03-05 16:15:03 公開日:2024-02-29
# Chat-Fine-Tuned LLMを用いた投機復号のためのドラフトモデルの直接アライメント

Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs ( http://arxiv.org/abs/2403.00858v1 )

ライセンス: Link先を確認
Raghavv Goel, Mukul Gagrani, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott(参考訳) 大規模言語モデル(llms)を用いたテキスト生成は、その自己回帰性、巨大なパラメータ数、メモリ帯域幅の制限の組み合わせによってメモリバインドであることが知られており、トークンレートが低くなることが多い。 LLM推論加速の解法として投機的復号法が提案されている。 しかし、Llama 2 7Bのような現代のオープンソースのLLMファミリでは、ドラフトモデルは利用できないことが多いため、投機的復号化による推論アクセラレーションを可能にするために、高品質のドラフトモデルを訓練する必要がある。 本稿では,チャット可能なターゲットモデルに直接アライメントするための簡易なモデルトレーニングフレームワークを提案する。 提案したフレームワークでは、Llama 2 Chat 7B以上のドラフトモデルであるLlama 2 Chat Drafter 115Mを、オリジナルサイズのわずか1.64\%でトレーニングする。 トレーニングフレームワークは,事前学習,蒸留データセット生成,知識蒸留による微調整のみで,追加のアライメント処理は行わない。 微調整のステップでは,ターゲットモデルが生成した命令応答対を用いて可算データ分布の蒸留を行い,強化学習におけるポリシー勾配法に触発された分散低減手法を組み込んだ新しい全変動距離++(tvd++)損失を提案する。 実験結果から,llama 2 chat drafter 115mの投機的復号化は,最大2.3ブロック効率と2.4$\times$の高速化を実現する。

Text generation with Large Language Models (LLMs) is known to be memory bound due to the combination of their auto-regressive nature, huge parameter counts, and limited memory bandwidths, often resulting in low token rates. Speculative decoding has been proposed as a solution for LLM inference acceleration. However, since draft models are often unavailable in the modern open-source LLM families, e.g., for Llama 2 7B, training a high-quality draft model is required to enable inference acceleration via speculative decoding. In this paper, we propose a simple draft model training framework for direct alignment to chat-capable target models. With the proposed framework, we train Llama 2 Chat Drafter 115M, a draft model for Llama 2 Chat 7B or larger, with only 1.64\% of the original size. Our training framework only consists of pretraining, distillation dataset generation, and finetuning with knowledge distillation, with no additional alignment procedure. For the finetuning step, we use instruction-response pairs generated by target model for distillation in plausible data distribution, and propose a new Total Variation Distance++ (TVD++) loss that incorporates variance reduction techniques inspired from the policy gradient method in reinforcement learning. Our empirical results show that Llama 2 Chat Drafter 115M with speculative decoding achieves up to 2.3 block efficiency and 2.4$\times$ speed-up relative to autoregressive decoding on various tasks with no further task-specific fine-tuning.
翻訳日:2024-03-05 16:14:51 公開日:2024-02-29
# CorruptEncoder: コントラスト学習のためのデータポリシベースのバックドアアタック

CorruptEncoder: Data Poisoning based Backdoor Attacks to Contrastive Learning ( http://arxiv.org/abs/2211.08229v5 )

ライセンス: Link先を確認
Jinghuai Zhang and Hongbin Liu and Jinyuan Jia and Neil Zhenqiang Gong(参考訳) コントラスト学習(cl)は、画像または画像テキストペアからなるラベルなし事前学習データセットを使用して、汎用エンコーダを事前学習する。 clはデータ中毒ベースのバックドア攻撃(dpbas)に対して脆弱であり、攻撃者はプリトレーニングデータセットに毒入り入力を注入し、エンコーダはバックドアされる。 しかし,既存のDPBAは有効性に限界がある。 本研究では,既存のバックドア攻撃の限界を分析し,CorruptEncoderと呼ばれる新しいDPBAをCLに提案する。 rotencoderは毒入り入力を作成するための新しい攻撃戦略を導入し、攻撃効果を最大化するために理論に導かれた方法を使用する。 実験の結果,CorruptEncoderは既存のDPBAよりも大幅に優れていた。 特に腐ったエンコーダーは、90%以上の攻撃成功率を達成できた最初のdpbaであり、参照画像は数箇所のみであり、少量の中毒率は0.5%である。 さらに,dpbasに対する防御策として,局所クロッピング(localized cropping)を提案する。 我々の防衛はDPBAの有効性を低下させるが,エンコーダの実用性を犠牲にし,新たな防衛の必要性を浮き彫りにしている。

Contrastive learning (CL) pre-trains general-purpose encoders using an unlabeled pre-training dataset, which consists of images or image-text pairs. CL is vulnerable to data poisoning based backdoor attacks (DPBAs), in which an attacker injects poisoned inputs into the pre-training dataset so the encoder is backdoored. However, existing DPBAs achieve limited effectiveness. In this work, we take the first step to analyze the limitations of existing backdoor attacks and propose new DPBAs called CorruptEncoder to CL. CorruptEncoder introduces a new attack strategy to create poisoned inputs and uses a theory-guided method to maximize attack effectiveness. Our experiments show that CorruptEncoder substantially outperforms existing DPBAs. In particular, CorruptEncoder is the first DPBA that achieves more than 90% attack success rates with only a few (3) reference images and a small poisoning ratio 0.5%. Moreover, we also propose a defense, called localized cropping, to defend against DPBAs. Our results show that our defense can reduce the effectiveness of DPBAs, but it sacrifices the utility of the encoder, highlighting the need for new defenses.
翻訳日:2024-03-04 14:49:46 公開日:2024-02-29
# トーリック符号の量子回路とXキューブフラクトンモデル

Quantum circuits for toric code and X-cube fracton model ( http://arxiv.org/abs/2210.01682v3 )

ライセンス: Link先を確認
Penghua Chen, Bowen Yan, and Shawn X. Cui(参考訳) 本稿では,表面符号モデルの基底状態のシミュレーションのために,クリフォードゲートのみからなる系統的かつ効率的な量子回路を提案する。 このアプローチにより、 toric コードの基底状態は$\lceil 2l+2+log_{2}(d)+\frac{l}{2d} \rceil$ 時間ステップとなり、ここで $l$ はシステムサイズを参照し、$d$ は cnot ゲートの適用を制限する最大距離を表す。 このアルゴリズムは, 3次元トリックモデル(3L+8$ステップ), X-キューブフラクトンモデル(12L+11$ステップ)の3次元トリックモデル(3Dトリックモデル)など, 特定の位相の基底状態の達成を容易にする。 さらに,任意の平面格子上での2次元トーリック符号の基底状態を把握し,より複雑な3次元トポロジ相への道を開くため,測定を含むグルーイング手法を提案する。

We propose a systematic and efficient quantum circuit composed solely of Clifford gates for simulating the ground state of the surface code model. This approach yields the ground state of the toric code in $\lceil 2L+2+log_{2}(d)+\frac{L}{2d} \rceil$ time steps, where $L$ refers to the system size and $d$ represents the maximum distance to constrain the application of the CNOT gates. Our algorithm reformulates the problem into a purely geometric one, facilitating its extension to attain the ground state of certain 3D topological phases, such as the 3D toric model in $3L+8$ steps and the X-cube fracton model in $12L+11$ steps. Furthermore, we introduce a gluing method involving measurements, enabling our technique to attain the ground state of the 2D toric code on an arbitrary planar lattice and paving the way to more intricate 3D topological phases.
翻訳日:2024-03-04 14:49:25 公開日:2024-02-29
# 気候ダウンスケーリングのためのハードコントラスト深層学習

Hard-Constrained Deep Learning for Climate Downscaling ( http://arxiv.org/abs/2208.05424v9 )

ライセンス: Link先を確認
Paula Harder, Alex Hernandez-Garcia, Venkatesh Ramesh, Qidong Yang, Prasanna Sattigeri, Daniela Szwarcman, Campbell Watson, David Rolnick(参考訳) 信頼性の高い高解像度の気候データと気象データの提供は、気候適応と緩和に関する長期的な決定を通知し、極端な出来事に対する迅速な対応を導くために重要である。 予測モデルは計算コストによって制限されるため、しばしば粗い解像度予測を生成する。 深層学習からの超解像法を含む統計的ダウンスケーリングは、低解像データを効率的にアップサンプリングする方法を提供する。 しかし、ある場合には視覚的に説得力のある結果が得られたにもかかわらず、そのようなモデルは物理変数を予測するときにしばしば保存則に違反する。 本稿では、物理量を保存するために、ディープラーニングダウンスケーリングモデルによって統計的制約が満たされることを保証するとともに、従来のメトリクスによるパフォーマンスを向上させる手法を提案する。 さまざまな制約アプローチを比較して、さまざまなニューラルネットワークと、さまざまな気候および気象データセットに適用可能性を示します。 ダウンスケーリングによるより高速で正確な気候予測を可能にすることに加え、我々の新しい手法は衛星データや自然画像データセットの超解像を改善することができることを示す。

The availability of reliable, high-resolution climate and weather data is important to inform long-term decisions on climate adaptation and mitigation and to guide rapid responses to extreme events. Forecasting models are limited by computational costs and, therefore, often generate coarse-resolution predictions. Statistical downscaling, including super-resolution methods from deep learning, can provide an efficient method of upsampling low-resolution data. However, despite achieving visually compelling results in some cases, such models frequently violate conservation laws when predicting physical variables. In order to conserve physical quantities, here we introduce methods that guarantee statistical constraints are satisfied by a deep learning downscaling model, while also improving their performance according to traditional metrics. We compare different constraining approaches and demonstrate their applicability across different neural architectures as well as a variety of climate and weather data sets. Besides enabling faster and more accurate climate predictions through downscaling, we also show that our novel methodologies can improve super-resolution for satellite data and natural images data sets.
翻訳日:2024-03-04 14:48:46 公開日:2024-02-29
# DeepGD:ディープニューラルネットワークのための多目的ブラックボックステスト選択アプローチ

DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks ( http://arxiv.org/abs/2303.04878v5 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Mahboubeh Dadkhah, Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、音声認識、自然言語処理などの様々なアプリケーション領域で広く使われている。 しかし、DNNモデルのテストは、入力ドメインの複雑さとサイズのために難しいかもしれない。 特に、DNNモデルをテストするには、大きなラベルのないデータセットの生成や探索が必要となることが多い。 実際には、入力の正しい出力を識別するdnn test oracleは、テストデータのラベル付けに高価な手動作業を必要とすることが多い。 本稿では,DNNモデルに対するブラックボックス多目的テスト選択手法であるDeepGDを提案する。 大規模なラベル付けされていないデータセットから高い障害を露呈するパワーでテスト入力の選択を優先順位付けすることで、ラベル付けのコストを削減する。 DeepGDは、高い不確実性スコアを持つテスト入力を選択して、可能な限り多くの誤予測入力をトリガーするだけでなく、多様な誤予測入力を選択してDNNモデルに異なる障害を明らかにする確率を最大化する。 4つの広く使用されているデータセットと5つのDNNモデルで実施された実験結果から,(1)ホワイトボックス,カバレッジベースのアプローチは不十分,(2)DeepGDは既存のブラックボックステスト選択アプローチよりも優れた性能を示し,(3)DeepGDは,選択した入力を使用してトレーニングセットを増強する際のDNNモデルトレーニングのガイダンスも向上した。

Deep neural networks (DNNs) are widely used in various application domains such as image processing, speech recognition, and natural language processing. However, testing DNN models may be challenging due to the complexity and size of their input domain. Particularly, testing DNN models often requires generating or exploring large unlabeled datasets. In practice, DNN test oracles, which identify the correct outputs for inputs, often require expensive manual effort to label test data, possibly involving multiple experts to ensure labeling correctness. In this paper, we propose DeepGD, a black-box multi-objective test selection approach for DNN models. It reduces the cost of labeling by prioritizing the selection of test inputs with high fault revealing power from large unlabeled datasets. DeepGD not only selects test inputs with high uncertainty scores to trigger as many mispredicted inputs as possible but also maximizes the probability of revealing distinct faults in the DNN model by selecting diverse mispredicted inputs. The experimental results conducted on four widely used datasets and five DNN models show that in terms of fault-revealing ability: (1) White-box, coverage-based approaches fare poorly, (2) DeepGD outperforms existing black-box test selection approaches in terms of fault detection, and (3) DeepGD also leads to better guidance for DNN model retraining when using selected inputs to augment the training set.
翻訳日:2024-03-04 14:39:30 公開日:2024-02-29
# 位置スケールと形状のためのニューラル付加モデル:平均を超えた解釈可能なニューラル回帰のためのフレームワーク

Neural Additive Models for Location Scale and Shape: A Framework for Interpretable Neural Regression Beyond the Mean ( http://arxiv.org/abs/2301.11862v2 )

ライセンス: Link先を確認
Anton Thielmann, Ren\'e-Marcel Kruse, Thomas Kneib, Benjamin S\"afken(参考訳) ディープニューラルネットワーク(DNN)は様々なタスクにおいて非常に効果的であることが証明されており、高いレベルの予測力を必要とする問題に対するゴーツーメソッドとなっている。 この成功にもかかわらず、dnnの内部動作はしばしば透明ではなく、解釈や理解が困難である。 この解釈可能性の欠如により、近年は本質的に解釈可能なニューラルネットワークの研究が増加している。 ニューラル加算モデル(NAM)のようなモデルは、古典的な統計手法とDNNを組み合わせることで視覚的解釈性を実現する。 しかし、これらのアプローチは平均応答予測のみに集中し、基礎となるデータの応答分布の他の特性を除外する。 我々は,従来のディープラーニングモデルの予測能力と,適応モデルの解釈可能性を維持しつつ,分布回帰の固有の利点を組み合わせたモデルフレームワークであるNeural Additive Models for Location Scale and Shape (NAMLSS)を提案する。 コードは以下のリンクで入手できる。

Deep neural networks (DNNs) have proven to be highly effective in a variety of tasks, making them the go-to method for problems requiring high-level predictive power. Despite this success, the inner workings of DNNs are often not transparent, making them difficult to interpret or understand. This lack of interpretability has led to increased research on inherently interpretable neural networks in recent years. Models such as Neural Additive Models (NAMs) achieve visual interpretability through the combination of classical statistical methods with DNNs. However, these approaches only concentrate on mean response predictions, leaving out other properties of the response distribution of the underlying data. We propose Neural Additive Models for Location Scale and Shape (NAMLSS), a modelling framework that combines the predictive power of classical deep learning models with the inherent advantages of distributional regression while maintaining the interpretability of additive models. The code is available at the following link: https://github.com/AnFreTh/NAMpy
翻訳日:2024-03-04 14:38:34 公開日:2024-02-29
# あなたのデータは調整可能ですか。 原理的・解釈可能な整合性試験と単細胞データの統合

Is your data alignable? Principled and interpretable alignability testing and integration of single-cell data ( http://arxiv.org/abs/2308.01839v2 )

ライセンス: Link先を確認
Rong Ma, Eric D. Sun, David Donoho and James Zou(参考訳) 単細胞データ統合は、細胞の包括的な分子ビューを提供することができ、多くのアルゴリズムが不要な技術的または生物学的なバリエーションを取り除き、異種単細胞データセットを統合するために開発されている。 広く使われているにもかかわらず、既存の手法にはいくつかの基本的な制限がある。 特に、2つの高次元のシングルセルデータセットが整列可能であるかどうかの厳密な統計試験が欠如している(従って整列すべきである)。 さらに、一般的な手法は、アライメント中にデータを実質的に歪め、アライメントされたデータと下流分析を解釈しにくくする。 これらの制約を克服するために、スペクトル多様体アライメントと推論(SMAI)フレームワークを提案する。これは、原理的かつ解釈可能な整合性テストと、同じタイプの特徴を持つ単一セルデータの構造保存統合を可能にする。 SMAIは、誤解を招く推論を避けるためにデータセット間の整合性をしっかりと評価する統計テストを提供し、高次元統計理論によって正当化される。 さまざまなリアルデータセットとシミュレートされたベンチマークデータセットでは、一般的に使用されるアライメントメソッドよりも優れています。 さらに, smaiは, 遺伝的に発現した遺伝子の同定や, 単細胞空間転写産物のインプテーションなど, 下流の様々な解析方法を改善し, さらなる生物学的知見を提供する。 SMAIの解釈可能性はまた、単一セルデータにおける技術共同創設者の情報源の定量化とより深い理解を可能にする。

Single-cell data integration can provide a comprehensive molecular view of cells, and many algorithms have been developed to remove unwanted technical or biological variations and integrate heterogeneous single-cell datasets. Despite their wide usage, existing methods suffer from several fundamental limitations. In particular, we lack a rigorous statistical test for whether two high-dimensional single-cell datasets are alignable (and therefore should even be aligned). Moreover, popular methods can substantially distort the data during alignment, making the aligned data and downstream analysis difficult to interpret. To overcome these limitations, we present a spectral manifold alignment and inference (SMAI) framework, which enables principled and interpretable alignability testing and structure-preserving integration of single-cell data with the same type of features. SMAI provides a statistical test to robustly assess the alignability between datasets to avoid misleading inference, and is justified by high-dimensional statistical theory. On a diverse range of real and simulated benchmark datasets, it outperforms commonly used alignment methods. Moreover, we show that SMAI improves various downstream analyses such as identification of differentially expressed genes and imputation of single-cell spatial transcriptomics, providing further biological insights. SMAI's interpretability also enables quantification and a deeper understanding of the sources of technical confounders in single-cell data.
翻訳日:2024-03-04 14:33:07 公開日:2024-02-29
# $\lambda$-models: 潜在モデルによる効果的な意思決定型強化学習

$\lambda$-models: Effective Decision-Aware Reinforcement Learning with Latent Models ( http://arxiv.org/abs/2306.17366v3 )

ライセンス: Link先を確認
Claas A Voelcker, Arash Ahmadian, Romina Abachi, Igor Gilitschenski, Amir-massoud Farahmand(参考訳) 意思決定に重要な場所ではモデルが正確であるべきだという意思決定モデル学習の考え方は、モデルベースの強化学習において注目を集めている。 有望な理論的結果が確立されている一方で、特に連続制御問題において、決定認識損失を利用したアルゴリズムの実証的性能が欠如している。 本稿では,意思決定対応強化学習モデルに必要な要素について検討し,優れたアルゴリズムを実現する設計選択について述べる。 この目的のために、この分野におけるアルゴリズム的アイデアの理論的および実証的研究を行う。 muzeroラインで確立された経験的設計決定、最も重要な潜在モデルの使用は、関連するアルゴリズムのパフォーマンスを達成する上で不可欠であることを強調する。 さらに,MuZero損失関数は確率的環境において偏りがあり,この偏りが現実的な結果をもたらすことを示す。 本研究は,これらの知見に基づいて,現場の実践者に対して,経験的シナリオにどのような意思決定認識損失関数が最適かを示す。

The idea of decision-aware model learning, that models should be accurate where it matters for decision-making, has gained prominence in model-based reinforcement learning. While promising theoretical results have been established, the empirical performance of algorithms leveraging a decision-aware loss has been lacking, especially in continuous control problems. In this paper, we present a study on the necessary components for decision-aware reinforcement learning models and we showcase design choices that enable well-performing algorithms. To this end, we provide a theoretical and empirical investigation into algorithmic ideas in the field. We highlight that empirical design decisions established in the MuZero line of works, most importantly the use of a latent model, are vital to achieving good performance for related algorithms. Furthermore, we show that the MuZero loss function is biased in stochastic environments and establish that this bias has practical consequences. Building on these findings, we present an overview of which decision-aware loss functions are best used in what empirical scenarios, providing actionable insights to practitioners in the field.
翻訳日:2024-03-04 14:31:50 公開日:2024-02-29
# 時系列分析のための自己監督型学習:分類学、進歩、展望

Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects ( http://arxiv.org/abs/2306.10125v3 )

ライセンス: Link先を確認
Kexin Zhang, Qingsong Wen, Chaoli Zhang, Rongyao Cai, Ming Jin, Yong Liu, James Zhang, Yuxuan Liang, Guansong Pang, Dongjin Song, Shirui Pan(参考訳) 自己教師付き学習(SSL)は、最近、様々な時系列タスクで素晴らしいパフォーマンスを達成した。 SSLの最も重要な利点は、ラベル付きデータへの依存を減らすことである。 事前トレーニングと微調整の戦略に基づいて、少量のラベル付きデータでも高いパフォーマンスを達成できる。 コンピュータビジョンと自然言語処理に関する多くの自己監督調査と比較すると、時系列sslに関する包括的な調査はまだ欠落している。 このギャップを埋めるため、本稿では、時系列データに対する現在のsslメソッドについて検討する。 この目的のために、SSLと時系列に関する既存の調査を総合的にレビューし、生成ベース、コントラストベース、および敵ベースという3つの視点から、既存の時系列SSLメソッドの新しい分類法を提供する。 これらの手法はさらに10のサブカテゴリに分けられ、重要な直観、主要なフレームワーク、利点、デメリットについて詳細なレビューと議論がなされている。 また,時系列SSL手法の実験と検証を容易にするため,時系列予測,分類,異常検出,クラスタリングタスクでよく使用されるデータセットを要約する。 最後に,時系列解析におけるSSLの今後の方向性を示す。

Self-supervised learning (SSL) has recently achieved impressive performance on various time series tasks. The most prominent advantage of SSL is that it reduces the dependence on labeled data. Based on the pre-training and fine-tuning strategy, even a small amount of labeled data can achieve high performance. Compared with many published self-supervised surveys on computer vision and natural language processing, a comprehensive survey for time series SSL is still missing. To fill this gap, we review current state-of-the-art SSL methods for time series data in this article. To this end, we first comprehensively review existing surveys related to SSL and time series, and then provide a new taxonomy of existing time series SSL methods by summarizing them from three perspectives: generative-based, contrastive-based, and adversarial-based. These methods are further divided into ten subcategories with detailed reviews and discussions about their key intuitions, main frameworks, advantages and disadvantages. To facilitate the experiments and validation of time series SSL methods, we also summarize datasets commonly used in time series forecasting, classification, anomaly detection, and clustering tasks. Finally, we present the future directions of SSL for time series analysis.
翻訳日:2024-03-04 14:31:06 公開日:2024-02-29
# VarSaw: 変分量子アルゴリズムにおける測定誤差低減の応用

VarSaw: Application-tailored Measurement Error Mitigation for Variational Quantum Algorithms ( http://arxiv.org/abs/2306.06027v2 )

ライセンス: Link先を確認
Siddharth Dangwal, Gokul Subramanian Ravi, Poulami Das, Kaitlin N. Smith, Jonathan M. Baker, Frederic T. Chong(参考訳) 潜在的な量子優位性のために、変分量子アルゴリズム(VQA)は、今日のNISQデバイスの能力を超える高い精度を必要とするため、エラー軽減の恩恵を受ける。 本研究は,回路実行後のキュービット計測において発生する測定誤差を軽減し,特にVQAに対して最もエラーが発生しやすい操作であることを示す。 初期の研究であるJigSawは、回路キュービットの小さなサブセットのみを一度に測定し、その結果を全てのサブセット回路に集めることで測定誤差を低減できることを示した。 次に、(球状)原回路全体を実行し、キュービット-量子計測相関を抽出することにより、サブセットと組み合わせて原回路の高忠実な出力分布を構築することができる。 残念なことに、JigSawの実行コストは回路内のキュービット数で多項式的にスケールし、VQAの回路数と繰り返し数で合成されると、結果として実行コストは急速に増大する。 本稿では,異なるVQA回路のサブセット間の空間的冗長性や,異なるVQAイテレーションのグローバル領域間の時間的冗長性といった,VQAに対するJigSawアプローチのかなりの冗長性を特定することにより,JigSawをアプリケーションに適した方法で改善するVarSawを提案する。 次に、VarSawはサブセット回路を交換し、グローバル回路を選択的に実行することでこれらの冗長性を排除し、同じVQA精度で平均25倍、最大1000倍の計算コストを削減した。 さらに、ノイズの多いVQAベースラインにおける測定誤差から、平均して45%の不確かさを回復することができる。 最後に、固定された計算予算に対して、jigsawを平均して55%改善する。 VarSawはこちらからアクセスできる。

For potential quantum advantage, Variational Quantum Algorithms (VQAs) need high accuracy beyond the capability of today's NISQ devices, and thus will benefit from error mitigation. In this work we are interested in mitigating measurement errors which occur during qubit measurements after circuit execution and tend to be the most error-prone operations, especially detrimental to VQAs. Prior work, JigSaw, has shown that measuring only small subsets of circuit qubits at a time and collecting results across all such subset circuits can reduce measurement errors. Then, running the entire (global) original circuit and extracting the qubit-qubit measurement correlations can be used in conjunction with the subsets to construct a high-fidelity output distribution of the original circuit. Unfortunately, the execution cost of JigSaw scales polynomially in the number of qubits in the circuit, and when compounded by the number of circuits and iterations in VQAs, the resulting execution cost quickly turns insurmountable. To combat this, we propose VarSaw, which improves JigSaw in an application-tailored manner, by identifying considerable redundancy in the JigSaw approach for VQAs: spatial redundancy across subsets from different VQA circuits and temporal redundancy across globals from different VQA iterations. VarSaw then eliminates these forms of redundancy by commuting the subset circuits and selectively executing the global circuits, reducing computational cost (in terms of the number of circuits executed) over naive JigSaw for VQA by 25x on average and up to 1000x, for the same VQA accuracy. Further, it can recover, on average, 45% of the infidelity from measurement errors in the noisy VQA baseline. Finally, it improves fidelity by 55%, on average, over JigSaw for a fixed computational budget. VarSaw can be accessed here: https://github.com/siddharthdangwal/VarSaw.
翻訳日:2024-03-04 14:30:14 公開日:2024-02-29
# Alt-Text with Context: Twitter上の画像のアクセシビリティ改善

Alt-Text with Context: Improving Accessibility for Images on Twitter ( http://arxiv.org/abs/2305.14779v3 )

ライセンス: Link先を確認
Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor Berg-Kirkpatrick(参考訳) 本研究では,ソーシャルメディア,特にTwitterで共有された画像に対して,代替テキスト(あるいはalt-text)記述を生成するアプローチを提案する。 画像キャプションの特別な場合だけでなく、alt-textは文字通り記述的でコンテキストに特有です。 また、Twitterに投稿された画像には、必ずしもその画像を記述する必要がなくても、適切に活用された場合、有益なコンテキストを提供する、ユーザ記述のテキストが添付されることが多い。 この課題をマルチモーダルモデルで解決し,関連するソーシャルメディア投稿からのテキスト情報と画像からの視覚信号の両方を条件とし,これら2つの情報ソースの有効性を示す。 私たちは、twitterから削除されたalt-textとつぶやきを組み合わせた371kの画像の新しいデータセットを作成し、さまざまな自動メトリクスと人的評価で評価しました。 従来の作業では, BLEU@4で2倍以上に向上し, ツイートテキストと視覚情報の両方の条件付けのアプローチが著しく優れていた。

In this work we present an approach for generating alternative text (or alt-text) descriptions for images shared on social media, specifically Twitter. More than just a special case of image captioning, alt-text is both more literally descriptive and context-specific. Also critically, images posted to Twitter are often accompanied by user-written text that despite not necessarily describing the image may provide useful context that if properly leveraged can be informative. We address this task with a multimodal model that conditions on both textual information from the associated social media post as well as visual signal from the image, and demonstrate that the utility of these two information sources stacks. We put forward a new dataset of 371k images paired with alt-text and tweets scraped from Twitter and evaluate on it across a variety of automated metrics as well as human evaluation. We show that our approach of conditioning on both tweet text and visual information significantly outperforms prior work, by more than 2x on BLEU@4.
翻訳日:2024-03-04 14:28:09 公開日:2024-02-29
# FLATTEN:一貫したテキスト・ビデオ編集のための光導波路型ATTENtion

FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing ( http://arxiv.org/abs/2310.05922v3 )

ライセンス: Link先を確認
Yuren Cong, Mengmeng Xu, Christian Simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, Sen He(参考訳) text-to-video編集は、テキストプロンプトに基づいて、ソースビデオの視覚的な外観を編集することを目的としている。 このタスクの大きな課題は、編集されたビデオのすべてのフレームが視覚的に一貫性があることを保証することである。 最近の研究は、U-Netにおける2次元空間的注意を時空間的注意に膨らませることで、このタスクに高度なテキスト・画像拡散モデルを適用している。 時間的文脈は時空間的注意によって追加することができるが、パッチごとに無関係な情報を導入し、編集されたビデオに不整合を引き起こす可能性がある。 本稿では,拡散モデルのU-Netにおける注目モジュールへの光フローを初めて導入し,テキスト・ビデオ編集の不整合問題に対処する。 提案手法であるFLATTENでは,異なるフレームにまたがる同じフローパス上のパッチをアテンションモジュールで相互に適用することにより,編集したビデオの視覚的一貫性を向上する。 さらに,本手法はトレーニング不要であり,任意の拡散ベースのテキスト・ビデオ編集手法にシームレスに統合し,視覚的整合性を向上させることができる。 既存のテキスト・ビデオ編集ベンチマークによる実験結果から,提案手法が新たな最先端性能を実現することを示す。 特に,本手法は,編集ビデオの視覚的一貫性を維持するのに優れている。

Text-to-video editing aims to edit the visual appearance of a source video conditional on textual prompts. A major challenge in this task is to ensure that all frames in the edited video are visually consistent. Most recent works apply advanced text-to-image diffusion models to this task by inflating 2D spatial attention in the U-Net into spatio-temporal attention. Although temporal context can be added through spatio-temporal attention, it may introduce some irrelevant information for each patch and therefore cause inconsistency in the edited video. In this paper, for the first time, we introduce optical flow into the attention module in the diffusion model's U-Net to address the inconsistency issue for text-to-video editing. Our method, FLATTEN, enforces the patches on the same flow path across different frames to attend to each other in the attention module, thus improving the visual consistency in the edited videos. Additionally, our method is training-free and can be seamlessly integrated into any diffusion-based text-to-video editing methods and improve their visual consistency. Experiment results on existing text-to-video editing benchmarks show that our proposed method achieves the new state-of-the-art performance. In particular, our method excels in maintaining the visual consistency in the edited videos.
翻訳日:2024-03-04 14:24:21 公開日:2024-02-29
# バックドアクリティカルレイヤの毒殺によるバックドアフェデレート学習

Backdoor Federated Learning by Poisoning Backdoor-Critical Layers ( http://arxiv.org/abs/2308.04466v2 )

ライセンス: Link先を確認
Haomin Zhuang, Mingxian Yu, Hao Wang, Yang Hua, Jian Li, and Xu Yuan(参考訳) フェデレートラーニング(FL)は、分散デバイス間の機密データに対する機械学習トレーニングを可能にするために広くデプロイされている。 しかし、FLの分散学習パラダイムと不均一性は、バックドア攻撃の攻撃面をさらに拡張する。 既存のFL攻撃と防衛方法は通常、モデル全体に焦点を当てる。 いずれも、モデル脆弱性を支配しているバックドアクリティカル(BC)層の存在を認識していない。 bc層を攻撃することは、モデル全体を攻撃することと同等の効果をもたらすが、最先端の防御(sota)によって検出される可能性ははるかに低い。 本稿では,攻撃者の視点からBC層を同定し,検証する一般のin-situアプローチを提案する。 識別されたbc層に基づき、様々な防御戦略の下で攻撃効果とステルスネスの基本的なバランスを適応的に求める新しいバックドア攻撃手法を慎重に作成する。 広範囲な実験によって、bc層対応のバックドア攻撃は7つのsota防御の下でflをうまくバックドアすることができ、悪意のあるクライアントはわずか10%であり、最新のバックドア攻撃方法よりも優れています。

Federated learning (FL) has been widely deployed to enable machine learning training on sensitive data across distributed devices. However, the decentralized learning paradigm and heterogeneity of FL further extend the attack surface for backdoor attacks. Existing FL attack and defense methodologies typically focus on the whole model. None of them recognizes the existence of backdoor-critical (BC) layers-a small subset of layers that dominate the model vulnerabilities. Attacking the BC layers achieves equivalent effects as attacking the whole model but at a far smaller chance of being detected by state-of-the-art (SOTA) defenses. This paper proposes a general in-situ approach that identifies and verifies BC layers from the perspective of attackers. Based on the identified BC layers, we carefully craft a new backdoor attack methodology that adaptively seeks a fundamental balance between attacking effects and stealthiness under various defense strategies. Extensive experiments show that our BC layer-aware backdoor attacks can successfully backdoor FL under seven SOTA defenses with only 10% malicious clients and outperform the latest backdoor attack methods.
翻訳日:2024-03-04 14:18:55 公開日:2024-02-29
# 量子ロータモデルにおける2乗和緩和の解析

Analysis of sum-of-squares relaxations for the quantum rotor model ( http://arxiv.org/abs/2311.09010v2 )

ライセンス: Link先を確認
Sujit Rao(参考訳) noncommutative sum-of-squares (ncsos) 階層はnavascu\'{e}s-pironio-ac\'{i}nによって、非局所ゲームの量子値の一般化を意図した非可換多項式最適化問題の値近似のための半定義型プログラミング緩和の列として導入された。 最近の研究は、まず量子マックスカットに適用された次数2 ncSoSの積状態を出力する丸いアルゴリズムを用いて、局所ハミルトンの基底エネルギーを近似する階層を解析し始めた。 いくつかの丸め法は、出力の絡み合った状態が知られているが、次数-4 ncSoS を用いる。 これに基づいて、Hwang-Neeman-Parekh-Thompson-Wright は、次数 2 ncSoS が量子マックス・カットの積状態近似に勝ることができないと推測し、ボレルの不等式を導出した。 この研究において、無限次元局所ヒルベルト空間 $L^{2}(S^{k - 1})$ を持つハミルトニアンの族(凝縮物質文学における量子ローターモデルまたは量子場理論における格子 $O(k)$ベクトルモデル)を考えると、次数 2 ncSoS 緩和は任意の積状態よりも基底状態エネルギーを近似することを示す。

The noncommutative sum-of-squares (ncSoS) hierarchy was introduced by Navascu\'{e}s-Pironio-Ac\'{i}n as a sequence of semidefinite programming relaxations for approximating values of noncommutative polynomial optimization problems, which were originally intended to generalize quantum values of nonlocal games. Recent work has started to analyze the hierarchy for approximating ground energies of local Hamiltonians, initially through rounding algorithms which output product states for degree-2 ncSoS applied to Quantum Max-Cut. Some rounding methods are known which output entangled states, but they use degree-4 ncSoS. Based on this, Hwang-Neeman-Parekh-Thompson-Wright conjectured that degree-2 ncSoS cannot beat product state approximations for Quantum Max-Cut and gave a partial proof relying on a conjectural generalization of Borrell's inequality. In this work we consider a family of Hamiltonians (called the quantum rotor model in condensed matter literature or lattice $O(k)$ vector model in quantum field theory) with infinite-dimensional local Hilbert space $L^{2}(S^{k - 1})$, and show that a degree-2 ncSoS relaxation approximates the ground state energy better than any product state.
翻訳日:2024-03-04 14:13:03 公開日:2024-02-29
# 模倣ブートストラップ強化学習

Imitation Bootstrapped Reinforcement Learning ( http://arxiv.org/abs/2311.02198v4 )

ライセンス: Link先を確認
Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh(参考訳) 強化学習(rl)のかなりの可能性にもかかわらず、ロボット制御タスクはサンプル効率が良いため、主に模倣学習(il)に依存している。 しかし、ilが可能なすべてのシナリオを一般化できるようにする総合的な専門家のデモンストレーションを収集するのはコストがかかります。 したがって、RL は効率的な自己改善手順として IL 上に構築できることをアピールしている。 提案手法は,提案する実演において,まずILポリシーを訓練し,それを用いて,オンライン探索とブートストラップ対象値の両方に対する代替行動を提案する,サンプル効率の高いRLのための新しいフレームワークである。 IBRLは、デモンストレーションのオーバーサンプリングやRLの正規化と追加の模倣損失とを比較し、トレーニングの開始以来ILポリシーからの高品質なアクションを活用することができ、探索と訓練の効率を大幅に向上させる。 IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。 IBRLは従来の手法よりも優れており、特に難しい作業では改善が顕著である。

Despite the considerable potential of reinforcement learning (RL), robotic control tasks predominantly rely on imitation learning (IL) due to its better sample efficiency. However, it is costly to collect comprehensive expert demonstrations that enable IL to generalize to all possible scenarios, and any distribution shift would require recollecting data for finetuning. Therefore, RL is appealing if it can build upon IL as an efficient autonomous self-improvement procedure. We propose imitation bootstrapped reinforcement learning (IBRL), a novel framework for sample-efficient RL with demonstrations that first trains an IL policy on the provided demonstrations and then uses it to propose alternative actions for both online exploration and bootstrapping target values. Compared to prior works that oversample the demonstrations or regularize RL with an additional imitation loss, IBRL is able to utilize high quality actions from IL policies since the beginning of training, which greatly accelerates exploration and training efficiency. We evaluate IBRL on 6 simulation and 3 real-world tasks spanning various difficulty levels. IBRL significantly outperforms prior methods and the improvement is particularly more prominent in harder tasks.
翻訳日:2024-03-04 14:11:22 公開日:2024-02-29
# 粒子混合の有効場理論

Effective field theory of particle mixing ( http://arxiv.org/abs/2310.17070v2 )

ライセンス: Link先を確認
Shuyang Cao, Daniel Boyanovsky(参考訳) 媒質中の共役減衰チャネルへの結合によって引き起こされる2つの場の非間接的混合の研究に有効な場理論を導入する。 調味された中間子におけるcp違反の解析の基礎となるlee, oehme, yang法の拡張は、異なる質量の粒子の混合を含むことで、実効場理論のガイドとベンチマークを提供する。 この解析は、広く使われている非エルミート実効ハミルトニアン(非退化の場合より急性)のミキシングの記述における微妙な注意点を明らかにしている。 実効場理論は、共通中間状態が熱平衡で浴槽を浮上させる場混合の力学を \emph{open quantum system} として記述する。 カップリングにおいて, 間接混合が外対角自己エネルギー成分の結果となる2次までの有効作用を得る。 混合フィールドの一方のみが初期期待値を特徴付ける場合、間接混合は他方のフィールドの期待値を誘導する。 等時2点相関関数は、定常熱状態への漸近的なアプローチを示し、媒体中の準正規モードの干渉の結果量子ビートを表示する長寿命な 'emph{bath induced} coherence の出現を示す。 量子ビートの振幅は、観測結果のほぼ退化した場合において共鳴的に増強される。

We introduce an effective field theory to study \emph{indirect} mixing of two fields induced by their couplings to a common decay channel in a medium. The extension of the method of Lee, Oehme and Yang, the cornerstone of analysis of CP violation in flavored mesons, to include mixing of particles with different masses provides a guide to and benchmark for the effective field theory. The analysis reveals subtle caveats in the description of mixing in terms of the widely used non-Hermitian effective Hamiltonian, more acute in the non-degenerate case. The effective field theory describes the dynamics of field mixing where the common intermediate states populate a bath in thermal equilibrium, as an \emph{open quantum system}. We obtain the effective action up to second order in the couplings, where indirect mixing is a consequence of off-diagonal self-energy components. We find that if only one of the mixing fields features an initial expectation value, indirect mixing induces an expectation value of the other field. The equal time two point correlation functions exhibit asymptotic approach to a stationary thermal state, and the emergence of long-lived \emph{bath induced} coherence which display quantum beats as a consequence of interference of quasinormal modes in the medium. The amplitudes of the quantum beats are resonantly enhanced in the nearly degenerate case with potential observational consequences.
翻訳日:2024-03-04 14:10:28 公開日:2024-02-29
# シミュレーションに基づく積み重ね

Simulation-based stacking ( http://arxiv.org/abs/2310.17009v2 )

ライセンス: Link先を確認
Yuling Yao, Bruno R\'egaldo-Saint Blancard, Justin Domke(参考訳) シミュレーションに基づく推論は、償却ベイズ計算に人気がある。 それは、異なる推論アルゴリズム、異なるアーキテクチャ、あるいは単に初期化と確率勾配のランダム性から、複数の後部近似を持つのが典型的である。 整合性を保証するため、利用可能な全ての近似を利用するための一般的な後方積み重ねフレームワークを提案する。 重ね合わせ手法は,密度,シミュレーションドロー,信頼区間,モーメントを組み合わせることで,後方近似の全体的な精度,校正,カバレッジ,バイアスを同時に取り扱うことができる。 本稿では,いくつかのベンチマークシミュレーションと宇宙論的推論課題について述べる。

Simulation-based inference has been popular for amortized Bayesian computation. It is typical to have more than one posterior approximation, from different inference algorithms, different architectures, or simply the randomness of initialization and stochastic gradients. With a consistency guarantee, we present a general posterior stacking framework to make use of all available approximations. Our stacking method is able to combine densities, simulation draws, confidence intervals, and moments, and address the overall precision, calibration, coverage, and bias of the posterior approximation at the same time. We illustrate our method on several benchmark simulations and a challenging cosmological inference task.
翻訳日:2024-03-04 14:10:01 公開日:2024-02-29
# 変圧器の追加を理解する

Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v6 )

ライセンス: Link先を確認
Philip Quirke, Fazl Barez(参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。 本稿では,n桁整数加算のための1層トランスフォーマーモデルの詳細解析を行う。 本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。 我々の研究は、モデルが計算を遅く開始するが、迅速に実行することも見出した。 高損失の稀なユースケースが同定され、説明される。 全体として、モデルのアルゴリズムは詳細に説明されている。 これらの発見は厳密なテストと数学的モデリングを通じて検証され、機械的解釈可能性、AI安全性、アライメントにおける幅広い研究に貢献した。 我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for n-digit integer addition. We reveal that the model divides the task into parallel, digit-specific streams and employs distinct algorithms for different digit positions. Our study also finds that the model starts calculations late but executes them rapidly. A rare use case with high loss is identified and explained. Overall, the model's algorithm is explained in detail. These findings are validated through rigorous testing and mathematical modeling, contributing to the broader works in Mechanistic Interpretability, AI safety, and alignment. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.
翻訳日:2024-03-04 14:09:24 公開日:2024-02-29
# ログ分析によるドキュメント利用の理解: 4つのクラウドサービスの探索的ケーススタディ

Understanding Documentation Use Through Log Analysis: An Exploratory Case Study of Four Cloud Services ( http://arxiv.org/abs/2310.10817v2 )

ライセンス: Link先を確認
Daye Nam and Andrew Macvean and Brad Myers and Bogdan Vasilescu(参考訳) 現代のソフトウェアシステムはほとんどゼロから書かれておらず、開発者はサードパーティーのライブラリやソフトウェアサービスの使用を効果的に学ばなければならない。 そのため、多くの実践者や研究者が、開発者の学習をサポートする効果的なドキュメントを作成する方法を模索している。 しかしながら、人々が実際にドキュメントを使う方法に焦点を当てている取り組みはほとんどない。 本稿では,4つのクラウドベースの産業サービスからのドキュメントページビューログの探索的,多相混合手法に関する実証研究について報告する。 10万人以上のユーザのページビューログを分析することで、さまざまなドキュメントページ訪問パターンが見つかる。 さらに,どのドキュメンテーションページを訪れているかは,特定の製品に対する過去の経験や将来的なAPIの採用など,ユーザ特性と相関することが多いことを統計的に示す。 我々は、これらの結果がドキュメント設計に与える影響について議論し、ドキュメントの監査を設計するための実行可能なテクニックとしてドキュメントページビューログ分析を提案し、ソフトウェア開発者向けに書かれたものからエンドユーザをサポートするように設計されたもの(Adobe Photoshopなど)まで。

Almost no modern software system is written from scratch, and developers are required to effectively learn to use third-party libraries or software services. Thus, many practitioners and researchers have looked for ways to create effective documentation that supports developers' learning. However, few efforts have focused on how people actually use the documentation. In this paper, we report on an exploratory, multi-phase, mixed methods empirical study of documentation page-view logs from four cloud-based industrial services. By analyzing page-view logs for over 100,000 users, we find diverse patterns of documentation page visits. Moreover, we show statistically that which documentation pages people visit often correlates with user characteristics such as past experience with the specific product, on the one hand, and with future adoption of the API on the other hand. We discuss the implications of these results on documentation design and propose documentation page-view log analysis as a feasible technique for design audits of documentation, from ones written for software developers to ones designed to support end users (e.g., Adobe Photoshop).
翻訳日:2024-03-04 14:08:31 公開日:2024-02-29
# メタ認知は必要なだけか? 生成剤の検査によるゴール指向行動の改善

Metacognition is all you need? Using Introspection in Generative Agents to Improve Goal-directed Behavior ( http://arxiv.org/abs/2401.10910v2 )

ライセンス: Link先を確認
Jason Toy, Josh MacAdam, Phil Tabor(参考訳) 大規模言語モデル(llm)の最近の進歩は、様々なアプリケーションで印象的な能力を示しているが、コンテキストウィンドウの制限や一般化の困難など、llmは課題に直面している。 本稿では、生成エージェントのメタ認知モジュールを導入し、それらが自身の思考過程や行動を観察できるようにする。 このメタ認知的アプローチは、システム1とシステム2の認知プロセスをエミュレートするために設計され、エージェントは戦略を変更してパフォーマンスを大幅に向上させることができる。 生成エージェントがゾンビの黙示録を生き残らなければならない状況を含む様々なシナリオでメタ認知モジュールをテストし、エージェントが時間とともにタスクを完了するための戦略を適応し改善する一方で、我々のシステムが他よりも優れていることを観察した。

Recent advances in Large Language Models (LLMs) have shown impressive capabilities in various applications, yet LLMs face challenges such as limited context windows and difficulties in generalization. In this paper, we introduce a metacognition module for generative agents, enabling them to observe their own thought processes and actions. This metacognitive approach, designed to emulate System 1 and System 2 cognitive processes, allows agents to significantly enhance their performance by modifying their strategy. We tested the metacognition module on a variety of scenarios, including a situation where generative agents must survive a zombie apocalypse, and observe that our system outperform others, while agents adapt and improve their strategies to complete tasks over time.
翻訳日:2024-03-04 14:03:39 公開日:2024-02-29
# 観測可能データとプリバタイズデータからのレート最適分割分類について

On Rate-Optimal Partitioning Classification from Observable and from Privatised Data ( http://arxiv.org/abs/2312.14889v2 )

ライセンス: Link先を確認
Bal\'azs Csan\'ad Cs\'aji, L\'aszl\'o Gy\"orfi, Ambrus Tam\'as, Harro Walk(参考訳) 本稿では,従来の分割分類法を再検討し,その収束率について,可観測性(非民営化)と民営化データの両方について検討する。 特徴ベクトル $X$ は $\mathbb{R}^d$ で値を取り、そのラベルを $Y$ で表す。 分割分類器の以前の結果は、単純な例で示すように、強い密度の仮定で動作した。 x$ の分布は絶対連続と離散分布の混合であり、絶対連続成分は $d_a$ 次元部分空間に集中していると仮定する。 標準リプシッツおよびマージン条件に加えて、二項および多段の場合の両方において、分類誤差確率の正確な収束率を計算した絶対連続成分の新たな特性が導入された。 興味深いことに、この収束速度は内在次元 $d_a$ にのみ依存する。 プライバシーの制約は、データ $(x_1,y_1), \dots ,(x_n,y_n)$ が直接観測できないことを意味し、分類器は適切な局所微分プライバシー機構のランダム化結果の関数である。 統計学者は、このプライバシーメカニズムの形式を自由に選択でき、ここでは、特徴ベクトル $x_i$ とラベル $y_i$ の全ての可能な箇所の停止にラプラス分散ノイズを追加します。 繰り返しになるが、分類誤差確率の収束率に関する厳密な上限は、強い密度の仮定なしで導出され、この値は 2 , d_a$ に依存する。

In this paper we revisit the classical method of partitioning classification and study its convergence rate under relaxed conditions, both for observable (non-privatised) and for privatised data. Let the feature vector $X$ take values in $\mathbb{R}^d$ and denote its label by $Y$. Previous results on the partitioning classifier worked with the strong density assumption, which is restrictive, as we demonstrate through simple examples. We assume that the distribution of $X$ is a mixture of an absolutely continuous and a discrete distribution, such that the absolutely continuous component is concentrated to a $d_a$ dimensional subspace. Here, we study the problem under much milder assumptions: in addition to the standard Lipschitz and margin conditions, a novel characteristic of the absolutely continuous component is introduced, by which the exact convergence rate of the classification error probability is calculated, both for the binary and for the multi-label cases. Interestingly, this rate of convergence depends only on the intrinsic dimension $d_a$. The privacy constraints mean that the data $(X_1,Y_1), \dots ,(X_n,Y_n)$ cannot be directly observed, and the classifiers are functions of the randomised outcome of a suitable local differential privacy mechanism. The statistician is free to choose the form of this privacy mechanism, and here we add Laplace distributed noises to the discontinuations of all possible locations of the feature vector $X_i$ and to its label $Y_i$. Again, tight upper bounds on the rate of convergence of the classification error probability are derived, without the strong density assumption, such that this rate depends on $2\,d_a$.
翻訳日:2024-03-04 14:01:40 公開日:2024-02-29
# 平均埋め込み上の分布ベルマン演算子

Distributional Bellman Operators over Mean Embeddings ( http://arxiv.org/abs/2312.07358v2 )

ライセンス: Link先を確認
Li Kevin Wenliang, Gr\'egoire D\'eletang, Matthew Aitchison, Marcus Hutter, Anian Ruoss, Arthur Gretton, Mark Rowland(参考訳) 本稿では,回帰分布の有限次元平均埋め込み学習に基づく分布強化学習のための新しいアルゴリズムフレームワークを提案する。 この枠組みに基づく動的プログラミングと時間微分学習のためのいくつかの新しいアルゴリズムを導出し、漸近収束理論を提供し、一連の表状タスクにおけるアルゴリズムの経験的性能を検証した。 さらに,本手法を深層強化学習と容易に組み合わせることができることを示し,アーケード学習環境におけるベースライン分散アプローチよりも優れた新しい深層rlエージェントを得る。

We propose a novel algorithmic framework for distributional reinforcement learning, based on learning finite-dimensional mean embeddings of return distributions. We derive several new algorithms for dynamic programming and temporal-difference learning based on this framework, provide asymptotic convergence theory, and examine the empirical performance of the algorithms on a suite of tabular tasks. Further, we show that this approach can be straightforwardly combined with deep reinforcement learning, and obtain a new deep RL agent that improves over baseline distributional approaches on the Arcade Learning Environment.
翻訳日:2024-03-04 14:00:34 公開日:2024-02-29
# segvol:ユニバーサルでインタラクティブなボリュームリカルな医用画像セグメンテーション

SegVol: Universal and Interactive Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2311.13385v2 )

ライセンス: Link先を確認
Yuxin Du, Fan Bai, Tiejun Huang, Bo Zhao(参考訳) 精密画像分割は、臨床研究にインストラクティブ情報を提供する。 医用画像のセグメンテーションにおける顕著な進歩にもかかわらず、ユーザインタラクションを容易にすることで、幅広い解剖学的カテゴリをセグメンテーションできる3d基盤セグメンテーションモデルがいまだに存在しない。 本稿では,汎用的でインタラクティブな医用画像分割を支援する3D基盤セグメンテーションモデルであるSegVolを提案する。 トレーニングデータを90kの未ラベルCTボリュームと6kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは意味的および空間的プロンプトを用いて200以上の解剖学的カテゴリのセグメンテーションをサポートする。 10の内部検証タスクと18の外部検証タスクに関する大規模な実験は、SegVolが大きなマージンで芸術の状態を上回ることを検証している。 様々な解剖学的カテゴリにわたる正確なボリュームセグメンテーションを提供する能力を通じて、SegVolは、医療画像診断の進歩を加速し、治療の最適化を促進する可能性がある。

Precise image segmentation provides clinical study with instructive information. Despite the remarkable progress achieved in medical image segmentation, there is still an absence of 3D foundation segmentation model that can segment a wide range of anatomical categories with easy user interaction. In this paper, we propose a 3D foundation segmentation model, named SegVol, supporting universal and interactive volumetric medical image segmentation. By scaling up training data to 90k unlabeled Computed Tomography (CT) volumes and 6k labeled CT volumes, this foundation model supports the segmentation of over 200 anatomical categories using semantic and spatial prompts. Extensive experiments on 10 internal validation tasks and 18 external validation tasks verify that SegVol outperforms the state of the art by a large margin. Through its capacity to provide precise volumetric segmentation across various anatomical categories, SegVol has the potential to accelerate advancements in medical imaging diagnosis and facilitate treatment optimization.
翻訳日:2024-03-04 13:59:14 公開日:2024-02-29
# オンラインAIフィードバックによる直接言語モデルアライメント

Direct Language Model Alignment from Online AI Feedback ( http://arxiv.org/abs/2402.04792v2 )

ライセンス: Link先を確認
Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi Liu, Misha Khalman, Felipe Llinares, Alexandre Rame, Thomas Mesnard, Yao Zhao, Bilal Piot, Johan Ferret, Mathieu Blondel(参考訳) dpoなどのdapメソッドからの直接的なアライメントは、人的フィードバック(rlhf)からの強化学習の効率的な代替手段として最近登場し、個別の報酬モデルを必要としない。 しかしながら、DAPメソッドで使用される好みデータセットは通常、トレーニング前に収集され、更新されないため、フィードバックは純粋にオフラインである。 さらに、これらのデータセットの応答は、アライメントされているものと異なる言語モデルからサンプリングされることが多く、トレーニングによってモデルが進化するので、アライメントフェーズは必然的にオフポリシーである。 本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。 オンラインAIフィードバック(OAIF)は,LLMをアノテータとして使用する。トレーニングイテレーション毎に,現在のモデルから2つの応答をサンプリングし,LLMアノテータにどちらが好まれるかを選択し,オンラインフィードバックを提供する。 その単純さにもかかわらず、OAIFがオフラインDAP法とRLHF法の両方に優れるいくつかのタスクにおいて、人間の評価によって実証する。 さらに,OAIFのフィードバックはLLMアノテータへの命令プロンプトを介して容易に制御可能であることを示す。

Direct alignment from preferences (DAP) methods, such as DPO, have recently emerged as efficient alternatives to reinforcement learning from human feedback (RLHF), that do not require a separate reward model. However, the preference datasets used in DAP methods are usually collected ahead of training and never updated, thus the feedback is purely offline. Moreover, responses in these datasets are often sampled from a language model distinct from the one being aligned, and since the model evolves over training, the alignment phase is inevitably off-policy. In this study, we posit that online feedback is key and improves DAP methods. Our method, online AI feedback (OAIF), uses an LLM as annotator: on each training iteration, we sample two responses from the current model and prompt the LLM annotator to choose which one is preferred, thus providing online feedback. Despite its simplicity, we demonstrate via human evaluation in several tasks that OAIF outperforms both offline DAP and RLHF methods. We further show that the feedback leveraged in OAIF is easily controllable, via instruction prompts to the LLM annotator.
翻訳日:2024-03-04 13:51:59 公開日:2024-02-29
# 推論経路集約の観点からの言語モデルの推論能力の理解

Understanding the Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation ( http://arxiv.org/abs/2402.03268v2 )

ライセンス: Link先を確認
Xinyi Wang, Alfonso Amayuelas, Kexun Zhang, Liangming Pan, Wenhu Chen, William Yang Wang(参考訳) 事前訓練された言語モデル(LM)は、明示的な微調整なしで複雑な推論を行うことができる。 予測対象の事前学習が推論能力の出現にどのように寄与するかを理解するために,事前学習時に見られる間接的推論パスを集約することにより,lmを新たな結論の導出と捉えることを提案する。 この視点は知識グラフを用いた論理推論(KG)と数学語問題による数学推論(MWP)の2つの重要な場合において有効であることがわかった。 具体的には、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。 学習されたlm分布の解析は、関連するランダムウォークパス確率の重み付き和が lms の理由を説明する合理的な方法であることを示唆している。 複数のKGおよびMWPデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかになり、ラベルなしランダムウォーク推論パスの増大が実世界のマルチステップ推論性能を向上させることが示唆された。 コード: https://github.com/wangxinyilinda/lm_random_walk

Pre-trained language models (LMs) are able to perform complex reasoning without explicit fine-tuning. To understand how pre-training with a next-token prediction objective contributes to the emergence of such reasoning capability, we propose that we can view an LM as deriving new conclusions by aggregating indirect reasoning paths seen at pre-training time. We found this perspective effective in two important cases of reasoning: logic reasoning with knowledge graphs (KGs) and math reasoning with math word problems (MWPs). More specifically, we formalize the reasoning paths as random walk paths on the knowledge/reasoning graphs. Analyses of learned LM distributions suggest that a weighted sum of relevant random walk path probabilities is a reasonable way to explain how LMs reason. Experiments and analysis on multiple KG and MWP datasets reveal the effect of training on random walk paths and suggest that augmenting unlabeled random walk reasoning paths can improve real-world multi-step reasoning performance. code: https://github.com/WANGXinyiLinda/LM_random_walk
翻訳日:2024-03-04 13:50:44 公開日:2024-02-29
# サブグループフェアネスのための分布特異監査

Distribution-Specific Auditing For Subgroup Fairness ( http://arxiv.org/abs/2401.16439v2 )

ライセンス: Link先を確認
Daniel Hsu, Jizhou Huang, Brendan Juba(参考訳) 統計的サブグループフェアネスの概念を用いた監査分類器の問題について検討する。 kearns et al. (2018) は、組合せ的部分群を公正に監査する問題は無知な学習と同じくらい難しいことを示した。 本質的に、サブグループに対する差別の統計的尺度の修正に取り組んでいるすべての作業は、効率的なアルゴリズムが知られていないにもかかわらず、この問題に対するオラクルへのアクセスを前提にしている。 データ分布がガウスあるいは単に対数凹であるとするならば、最近の研究でハーフスペースの効率的な非依存学習アルゴリズムが発見された。 不幸なことに、カーンズらの削減は、弱く「分配のない」学習という観点から定式化されており、ログコンケーブ分布のような家族とのつながりを確立していなかった。 本研究では,ガウス分布の監査について,肯定的かつ否定的な結果を与える: 正の面では,これらの進歩を不可知学習で活用し,非自明な組合せ的部分群フェアネスを監査するための最初の多項式時間近似スキーム(PTAS)を得るための代替アプローチを提案する。 負の面では、暗号の仮定の下では、一般半空間部分群に対するガウス的特徴分布の下でも多項式時間アルゴリズムはいかなる非自明な監査も保証できない。

We study the problem of auditing classifiers with the notion of statistical subgroup fairness. Kearns et al. (2018) has shown that the problem of auditing combinatorial subgroups fairness is as hard as agnostic learning. Essentially all work on remedying statistical measures of discrimination against subgroups assumes access to an oracle for this problem, despite the fact that no efficient algorithms are known for it. If we assume the data distribution is Gaussian, or even merely log-concave, then a recent line of work has discovered efficient agnostic learning algorithms for halfspaces. Unfortunately, the reduction of Kearns et al. was formulated in terms of weak, "distribution-free" learning, and thus did not establish a connection for families such as log-concave distributions. In this work, we give positive and negative results on auditing for Gaussian distributions: On the positive side, we present an alternative approach to leverage these advances in agnostic learning and thereby obtain the first polynomial-time approximation scheme (PTAS) for auditing nontrivial combinatorial subgroup fairness: we show how to audit statistical notions of fairness over homogeneous halfspace subgroups when the features are Gaussian. On the negative side, we find that under cryptographic assumptions, no polynomial-time algorithm can guarantee any nontrivial auditing, even under Gaussian feature distributions, for general halfspace subgroups.
翻訳日:2024-03-04 13:49:21 公開日:2024-02-29
# バイオカルトゴナル偏光による開非エルミート系におけるギャップクロージングの同定

Identifying gap-closings in open non-Hermitian systems by Biorthogonal Polarization ( http://arxiv.org/abs/2401.12213v2 )

ライセンス: Link先を確認
Ipsita Mandal(参考訳) 非エルミートホッピング項と開境界条件(obcs)を含む2バンドの1次元および2次元タイト結合モデルにおけるギャップクロースについて検討した。 我々は, バルクOBCスペクトルと周期境界条件(PBC)スペクトルを比較し, 非エルミート系の固有特性であるそれらが一致しないことを指摘した。 したがって、非ハーモニティ性は、エルミート系で見られるバルク境界対応のよく知られた概念の失敗をもたらす。 これは開非エルミート系におけるギャップ閉包を正しくかつ曖昧に特徴づける位相不変量の探索を必要とする。 1次元スライスに適用可能な2つの候補の挙動を,(1)一般ブリルアンゾーン上で定義される2つのバンドの巻数の総和と(2)生体直交偏光(bp)の挙動を明らかにした。 前者は、ここで研究されている非エルミート系の一部のジャンプ/不連続を示すが、エッジモードがバルク状態に入り非局在化となる点では、与えられた位相相において量子化値を保持しない。 反対にBPは相転移においてジャンプを示し、実際のエッジモードが存在するか、そのモードがバルク内で非局在化され吸収されているか(もはやエッジモードではない)に対応する1または0の量子化値を取る。

We investigate gap-closings in one- and two-dimensional tight-binding models with two bands, containing non-Hermitian hopping terms, and open boundary conditions (OBCs) imposed along one direction. We compare the bulk OBC spectra with the periodic boundary condition (PBC) spectra, pointing out that they do not coincide, which is an intrinsic characteristic of non-Hermitian systems. The non-Hermiticity, thus, results in the failure of the familiar notions of bulk-boundary correspondence found for Hermitian systems. This necessitates the search for topological invariants which can characterize gap-closings in open non-Hermitian systems correctly and unambiguously. We elucidate the behaviour of two possible candidates applicable for one-dimensional slices -- (1) the sum of winding numbers for the two bands defined on a generalized Brillouin zone and (2) the biorthogonal polarization (BP). While the former shows jumps/discontinuities for some of the non-Hermitian systems studied here, at points when an edge mode enters the bulk states and becomes delocalized, it does not maintain quantized values in a given topological phase. On the contrary, BP shows jumps at phase transitions, and takes the quantized value of one or zero, which corresponds to whether an actual edge mode exists or whether that mode is delocalized and absorbed within the bulk (not being an edge mode anymore).
翻訳日:2024-03-04 13:48:43 公開日:2024-02-29
# AIによる増補型ブレインライト:グループ思考におけるLLMの利用を探る

AI-Augmented Brainwriting: Investigating the use of LLMs in group ideation ( http://arxiv.org/abs/2402.14978v2 )

ライセンス: Link先を確認
Orit Shaer, Angelora Cooper, Osnat Mokryn, Andrew L. Kun, Hagit Ben Shoshan(参考訳) 大規模言語モデル(LLMs)のような生成AI技術の普及は、創造的な作業に重大な影響を及ぼす。 本稿では, LLM を創造的プロセス, アイデア生成の分岐段階, およびアイデアの評価と選択の収束段階に統合する2つの側面について考察する。 我々は,LLMをグループ思考プロセスの強化として組み込んだ協調グループAIブレインライト構想フレームワークを考案し,アイデア生成プロセスと結果のソリューション空間を評価した。 アイデア評価プロセスにおけるLLMの使用可能性を評価するため,評価エンジンを設計し,これらを3人の専門家と6人の初心者によるアイデア評価と比較した。 以上の結果から,LEMを脳書記に組み込むことで,思考過程と結果の両面で向上できる可能性が示唆された。 また,LLMがアイデア評価を支持できることを示す。 我々は、HCI教育と実践の意義について論じる。

The growing availability of generative AI technologies such as large language models (LLMs) has significant implications for creative work. This paper explores twofold aspects of integrating LLMs into the creative process - the divergence stage of idea generation, and the convergence stage of evaluation and selection of ideas. We devised a collaborative group-AI Brainwriting ideation framework, which incorporated an LLM as an enhancement into the group ideation process, and evaluated the idea generation process and the resulted solution space. To assess the potential of using LLMs in the idea evaluation process, we design an evaluation engine and compared it to idea ratings assigned by three expert and six novice evaluators. Our findings suggest that integrating LLM in Brainwriting could enhance both the ideation process and its outcome. We also provide evidence that LLMs can support idea evaluation. We conclude by discussing implications for HCI education and practice.
翻訳日:2024-03-04 13:42:42 公開日:2024-02-29
# 名前の由来は? レースとジェンダーバイアスのための大規模言語モデルの検討

What's in a Name? Auditing Large Language Models for Race and Gender Bias ( http://arxiv.org/abs/2402.14875v2 )

ライセンス: Link先を確認
Amit Haim, Alejandro Salinas, Julian Nyarko(参考訳) 我々はGPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。 本研究では,車購入交渉や選挙結果の予測など,さまざまなシナリオにおいて,名前付き個人に関するアドバイスをモデルに促す。 このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。 黒人女性にまつわる名前は、最も有利な結果を得る。 バイアスは42のプロンプトテンプレートといくつかのモデルで一貫性があり、孤立したインシデントではなく、システム的な問題を示している。 プロンプトに数値的かつ決定関連のあるアンカーを提供することで、バイアスをうまく対処できるが、質的詳細は矛盾する効果を持ち、不一致を増加させることもある。 本研究は, LLMの展開と実施の時点での監査の実施の重要性を浮き彫りにした。

We employ an audit design to investigate biases in state-of-the-art large language models, including GPT-4. In our study, we prompt the models for advice involving a named individual across a variety of scenarios, such as during car purchase negotiations or election outcome predictions. We find that the advice systematically disadvantages names that are commonly associated with racial minorities and women. Names associated with Black women receive the least advantageous outcomes. The biases are consistent across 42 prompt templates and several models, indicating a systemic issue rather than isolated incidents. While providing numerical, decision-relevant anchors in the prompt can successfully counteract the biases, qualitative details have inconsistent effects and may even increase disparities. Our findings underscore the importance of conducting audits at the point of LLM deployment and implementation to mitigate their potential for harm against marginalized communities.
翻訳日:2024-03-04 13:42:25 公開日:2024-02-29
# セマンティックスを次の単語予測で学べるか? エンターメントの事例

Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment ( http://arxiv.org/abs/2402.13956v2 )

ライセンス: Link先を確認
William Merrill and Zhaofeng Wu and Norihito Naka and Yoon Kim and Tal Linzen(参考訳) LMはトレーニングデータ中の共起パターンからテキストの意味を推測するだろうか? Merrill et al. (2022) は、理論上、最適LMにより予測される確率は、包含関係に関する意味情報を符号化するが、Merrill et al による強い理想化仮定のため、コーポラで訓練された神経的LMが、この方法で包含を学習するかどうかは不明である。 そこで本研究では,その理論がニューラルネットワークから係り受け判定を復号するために有効かどうかを考察する。 彼らのテストに似たテストは、多くのデータセットとlmsで、ランダムな確率をはるかに上回っても、自然文間の関係をデコードできることがわかりました。 これは、lmsが暗黙的に意味論の側面をモデル化し、文の共起パターンに対する意味的効果を予測することを示唆する。 しかし,実際に係り受けを予測できるテストは理論テストとは反対の方向に働くことがわかった。 そこで,本研究では,原本テストの前提となる仮定を再検討し,その導出が人間の文章の冗長性を十分に考慮していないことを発見した。 説明に関係した冗長性を正しく説明することは、観察されたフリップテストの結果であり、より一般的には、人間の話者の言語理論を改善する可能性があると論じる。

Do LMs infer the semantics of text from co-occurrence patterns in their training data? Merrill et al. (2022) argue that, in theory, probabilities predicted by an optimal LM encode semantic information about entailment relations, but it is unclear whether neural LMs trained on corpora learn entailment in this way because of strong idealizing assumptions made by Merrill et al. In this work, we investigate whether their theory can be used to decode entailment judgments from neural LMs. We find that a test similar to theirs can decode entailment relations between natural sentences, well above random chance, though not perfectly, across many datasets and LMs. This suggests LMs implicitly model aspects of semantics to predict semantic effects on sentence co-occurrence patterns. However, we find the test that predicts entailment in practice works in the opposite direction to the theoretical test. We thus revisit the assumptions underlying the original test, finding its derivation did not adequately account for redundancy in human-written text. We argue that correctly accounting for redundancy related to explanations might derive the observed flipped test and, more generally, improve linguistic theories of human speakers.
翻訳日:2024-03-04 13:40:54 公開日:2024-02-29
# 古典的な潤滑液

A Classical Luttinger liquid ( http://arxiv.org/abs/2402.13283v2 )

ライセンス: Link先を確認
Riccardo Fantoni(参考訳) ルッティンガー液体の古典的極限の例として,二成分非添加の朝倉大沢様混合物を提案する。 この混合状態の方程式と構造を定式化し、基底状態を持たない量子液体を扱う際に直面するパラドックス的状況について議論する。 次に, 1次元古典流体の新しいクラスを提案する。

We propose a binary nonadditive Asakura-Oosawa-like mixture as an example for the classical limit of a Luttinger liquid. We determine the equation of state and structure of this mixture and discuss the paradoxical situation that one faces when working with a quantum liquid without a ground state. We then propose a new class of one dimensional classical fluids.
翻訳日:2024-03-04 13:39:24 公開日:2024-02-29
# Cieran: In-Situ Active Preference Learningによる逐次カラーマップの設計

Cieran: Designing Sequential Colormaps via In-Situ Active Preference Learning ( http://arxiv.org/abs/2402.15997v2 )

ライセンス: Link先を確認
Matt-Heun Hong, Zachary N. Sunberg, Danielle Albers Szafir(参考訳) 品質のカラーマップは重要なデータパターンを伝えるのに役立つ。 しかし、あるシナリオに対して"正しい"ように見える美的なカラーマップを見つけるには、かなりの設計と技術的な専門知識が必要です。 これは、データアナリストがJupyter Notebooks内のチャートを設計しながら、質の高いカラーマップを素早く見つけることができるツールです。 本システムでは,専門家が設計したカラーマップをランク付けし,ペアワイズ比較から新たな色マップを作成するために,アクティブな選好学習パラダイムを採用している。 カラーマップ設計をCIELABカラースペースの経路計画問題としてコンテキスト固有報酬モデルを用いて扱うことにより,この問題を実現する。 12人の科学者による評価の結果、Cieran氏はカラーマップのランク付けにユーザの好みを効果的にモデル化し、このモデルを利用して新しい品質設計を作成した。 本研究は,効率的な可視化設計最適化を支援するために,能動的選好学習の可能性を示す。

Quality colormaps can help communicate important data patterns. However, finding an aesthetically pleasing colormap that looks "just right" for a given scenario requires significant design and technical expertise. We introduce Cieran, a tool that allows any data analyst to rapidly find quality colormaps while designing charts within Jupyter Notebooks. Our system employs an active preference learning paradigm to rank expert-designed colormaps and create new ones from pairwise comparisons, allowing analysts who are novices in color design to tailor colormaps to their data context. We accomplish this by treating colormap design as a path planning problem through the CIELAB colorspace with a context-specific reward model. In an evaluation with twelve scientists, we found that Cieran effectively modeled user preferences to rank colormaps and leveraged this model to create new quality designs. Our work shows the potential of active preference learning for supporting efficient visualization design optimization.
翻訳日:2024-03-04 13:30:29 公開日:2024-02-29
# prejudiceとcaprice:大規模言語モデルにおける社会的差別を測定するための統計的枠組み

Prejudice and Caprice: A Statistical Framework for Measuring Social Discrimination in Large Language Models ( http://arxiv.org/abs/2402.15481v3 )

ライセンス: Link先を確認
Yiran Liu (1 and 2), Ke Yang (1 and 3), Zehan Qi (2), Xiao Liu (2), Yang Yu (2), Chengxiang Zhai (3) ((1) Equal contributions, (2) Tsinghua University, (3) University of Illinois Urbana-Champaign)(参考訳) 大規模言語モデル(LLM)の社会活動への統合は、経済、法律、教育、医療といった重要な分野における決定に対する影響を増幅し、これらのモデルの差別に関する安全性と信頼性に対する公衆の懸念を高めている。 しかしながら、事前の差別測定フレームワークは LLM の平均的な差別行動のみを評価するものであり、様々な文脈における LLM の予測変動が、追加の差別誘導因子の見落としにより、しばしば不適切であることが証明される。 本研究では,LLMにおける差別を包括的に評価するPrejudice-Caprice Framework(PCF)を提案する。 具体的には、LLMの集合的文脈的識別リスクを、LLMの持続的偏見から生じる偏見リスクと、それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。 さらに,データマイニング手法を用いて,属性表示のない文骨格から好み検出プローブを収集し,LLMの適用文脈を近似する。 当初 LLM における差別評価を目的としていたが,提案した PCF は,偏見を伴う知識を含むあらゆる帰納バイアスの包括的かつ柔軟な測定を容易にする。 差別計測の枠組みを12の共通LLMに適用し、興味深い結果を得た。 一 現代LPMは、有意な前雄性ステレオタイプを示す。 二 LLMの表示された差別は、いくつかの社会的・経済的要因と相関する。 三 偏見リスクが全体の差別リスクを支配し、正常な分布に従うこと、及び 四 キャプライスリスクは、全体的なリスクに最小限に寄与するが、脂肪分分布に従わなければならず、監視の強化を必要とする危険なリスクである。

The growing integration of large language models (LLMs) into social operations amplifies their impact on decisions in crucial areas such as economics, law, education, and healthcare, raising public concerns about these models' discrimination-related safety and reliability. However, prior discrimination measuring frameworks solely assess the average discriminatory behavior of LLMs, often proving inadequate due to the overlook of an additional discrimination-leading factor, i.e., the LLMs' prediction variation across diverse contexts. In this work, we present the Prejudice-Caprice Framework (PCF) that comprehensively measures discrimination in LLMs by considering both their consistently biased preference and preference variation across diverse contexts. Specifically, we mathematically dissect the aggregated contextualized discrimination risk of LLMs into prejudice risk, originating from LLMs' persistent prejudice, and caprice risk, stemming from their generation inconsistency. In addition, we utilize a data-mining approach to gather preference-detecting probes from sentence skeletons, devoid of attribute indications, to approximate LLMs' applied contexts. While initially intended for assessing discrimination in LLMs, our proposed PCF facilitates the comprehensive and flexible measurement of any inductive biases, including knowledge alongside prejudice, across various modality models. We apply our discrimination-measuring framework to 12 common LLMs, yielding intriguing findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii) LLMs' exhibited discrimination correlates with several social and economic factors, iii) prejudice risk dominates the overall discrimination risk and follows a normal distribution, and iv) caprice risk contributes minimally to the overall risk but follows a fat-tailed distribution, suggesting that it is wild risk requiring enhanced surveillance.
翻訳日:2024-03-04 13:29:12 公開日:2024-02-29
# 量子エミッタからのquditフォトニックグラフ状態の決定論的生成

Deterministic generation of qudit photonic graph states from quantum emitters ( http://arxiv.org/abs/2211.13242v2 )

ライセンス: Link先を確認
Zahra Raissi, Edwin Barnes, Sophia E. Economou(参考訳) 量子エミッタからquditフォトニックグラフを生成する決定論的プロトコルを提案し,解析する。 提案手法は任意のquditグラフ状態を生成するために適用可能であり、量子誤り訂正符号の1次元および2次元quditクラスタ状態、極端に絡み合った状態、および論理状態を生成するプロトコルを構築してその例を示す。 これらのプロトコルのいくつかは遅延したフィードバックを利用するが、他のプロトコルは利用しない。 qubitの場合と比較して追加のリソース要件は、マルチレベルエミッターを制御できることだ。 これらの結果は、量子エミッタから決定論的に生成できる多光子絡み合い状態の範囲を大きく広げる。

We propose and analyze deterministic protocols to generate qudit photonic graph states from quantum emitters. We show that our approach can be applied to generate any qudit graph state, and we exemplify it by constructing protocols to generate one- and two-dimensional qudit cluster states, absolutely maximally entangled states, and logical states of quantum error correcting codes. Some of these protocols make use of time-delayed feedback, while others do not. The only additional resource requirement compared to the qubit case is the ability to control multi-level emitters. These results significantly broaden the range of multi-photon entangled states that can be produced deterministically from quantum emitters.
翻訳日:2024-03-03 15:30:17 公開日:2024-02-29
# SeaTurtleID: 野生生物の再識別におけるタイムスタンプの重要性を強調する新しい長期データセット

SeaTurtleID: A novel long-span dataset highlighting the importance of timestamps in wildlife re-identification ( http://arxiv.org/abs/2211.10307v3 )

ライセンス: Link先を確認
Kostas Papafitsoros, Luk\'a\v{s} Adam, Vojt\v{e}ch \v{C}erm\'ak, Luk\'a\v{s} Picek(参考訳) 本稿では,野生で捕獲されたウミガメの写真を収めた最初の大規模長期データセットであるSeaTurtleIDを紹介する。 このデータセットは、再識別方法のベンチマークや、他のコンピュータビジョンタスクの評価に適している。 データセットは、1081年の遭遇から12年以内に収集された400人の独特な人物の7774枚の高解像度写真で構成されている。 各写真には、アイデンティティラベル、ヘッドセグメンテーションマスク、出会いタイムスタンプなど、豊富なメタデータが添付されている。 データセットの12年にわたる期間は、タイムスタンプを備えた最も長い公開野生動物データセットとなる。 この特徴を生かして、タイムスタンプは、データセットを参照とクエリセットに分割できるため、動物の再識別方法のバイアスのない評価に必要であることを示す。 時間非認識(ランダム)分割は,特徴量とCNNに基づく再同定手法の時間非認識分割と比較して100%以上の性能過大評価につながることを示す。 タイムアウェアの分割は、タイムアウェアの分割よりも現実的な再識別パイプラインに対応しているとも主張する。 動物の再同定方法は時間認識スプリットを用いたタイムスタンプ付きデータセットでのみテストすべきであり、データセットキュレーターは関連するメタデータにそのような情報を含めることを推奨する。

This paper introduces SeaTurtleID, the first public large-scale, long-span dataset with sea turtle photographs captured in the wild. The dataset is suitable for benchmarking re-identification methods and evaluating several other computer vision tasks. The dataset consists of 7774 high-resolution photographs of 400 unique individuals collected within 12 years in 1081 encounters. Each photograph is accompanied by rich metadata, e.g., identity label, head segmentation mask, and encounter timestamp. The 12-year span of the dataset makes it the longest-spanned public wild animal dataset with timestamps. By exploiting this unique property, we show that timestamps are necessary for an unbiased evaluation of animal re-identification methods because they allow time-aware splits of the dataset into reference and query sets. We show that time-unaware (random) splits can lead to performance overestimation of more than 100% compared to the time-aware splits for both feature- and CNN-based re-identification methods. We also argue that time-aware splits correspond to more realistic re-identification pipelines than the time-unaware ones. We recommend that animal re-identification methods should only be tested on datasets with timestamps using time-aware splits, and we encourage dataset curators to include such information in the associated metadata.
翻訳日:2024-03-03 15:30:05 公開日:2024-02-29
# 量子鍵リピータの性能と汎用プライベートビットと独立ビットのセキュアコンテンツに基づくリラクシド境界

Relaxed bound on performance of quantum key repeaters and secure content of generic private and independent bits ( http://arxiv.org/abs/2206.00993v3 )

ライセンス: Link先を確認
Karol Horodecki and {\L}ukasz Pawela(参考訳) Quantum key repeaterは、将来のQuantum Internetのバックボーンである。 これは、量子鍵リピータのステーション間で共有される任意の混合二部状態の開問題であり、その2つのエンドノード間で鍵のどれだけが生成されるかである。 量子鍵リピータの相対エントロピー距離を利用する量子鍵リピータ率に束縛された新規な量子状態を置く。 これは M. Christandl と R. Ferrara [Phys. Rev. Lett. 119, 220506] のキーリピータ上の有界化を可能にする。 境界はより厳密ではないが、より一般的な状態のクラスである。 次に、いわゆる鍵-相関状態の繰り返し鍵は、攻撃されたバージョンの絡み合いの最大相対エントロピーの2倍、最大で1方向蒸留可能な絡み合いの2倍を超えることができることを示す。 また、汎用独立ビットのプライベートランダム性量に対する非自明な上限を提供する。

Quantum key repeater is the backbone of the future Quantum Internet. It is an open problem for an arbitrary mixed bipartite state shared between stations of a quantum key repeater, how much of the key can be generated between its two end-nodes. We place a novel bound on quantum key repeater rate, which uses relative entropy distance from, in general, entangled quantum states. It allows us to generalize bound on key repeaters of M. Christandl and R. Ferrara [Phys. Rev. Lett. 119, 220506]. The bound, albeit not tighter, holds for a more general class of states. In turn, we show that the repeated key of the so called key-correlated states can exceed twice the one-way distillable entanglement at most by twice the max-relative entropy of entanglement of its attacked version. We also provide a non-trivial upper bound on the amount of private randomness of a generic independent bit.
翻訳日:2024-03-03 15:29:41 公開日:2024-02-29
# 高次元進化方程式に対するアクティブラーニングを用いたニューラルガレルキンスキーム

Neural Galerkin Schemes with Active Learning for High-Dimensional Evolution Equations ( http://arxiv.org/abs/2203.01360v4 )

ライセンス: Link先を確認
Joan Bruna and Benjamin Peherstorfer and Eric Vanden-Eijnden(参考訳) ディープニューラルネットワークは高次元の正確な関数近似を提供することが示されている。 しかし、ネットワークパラメータの適合には、科学や工学の応用において収集することがしばしば難しい情報的トレーニングデータが必要である。 本研究では,高次元偏微分方程式の数値解法として,アクティブラーニングを用いたトレーニングデータを生成する深層学習に基づくニューラルガレルキンスキームを提案する。 ニューラル・ガレルキンスキームはディラック・フランケル変分法に基づいて、残差を時間とともに最小化し、偏微分方程式によって記述される力学によって導かれる自己インフォームドな方法で新しいトレーニングデータを適応的に収集することができる。 これは、トレーニングデータ取得を考慮せずに、ネットワークパラメータをグローバルに適合させる他の機械学習手法とは対照的である。 提案するニューラルガレルキンスキームの学習データ収集のアクティブな形式は,ネットワークの表現力の高次元化を数値的に実現するための鍵となる。 数値実験により、ニューラル・ガレルキンスキームは、特に高次元波動伝搬問題やフォッカー・プランク方程式(英語版)や運動方程式(英語版)によって記述された相互作用粒子系(英語版)などの解の特徴が局所的に進化する場合に、伝統的および他のディープラーニングベースの解法が失敗する多くの変数を持つ現象や過程をシミュレートできる可能性が示されている。

Deep neural networks have been shown to provide accurate function approximations in high dimensions. However, fitting network parameters requires informative training data that are often challenging to collect in science and engineering applications. This work proposes Neural Galerkin schemes based on deep learning that generate training data with active learning for numerically solving high-dimensional partial differential equations. Neural Galerkin schemes build on the Dirac-Frenkel variational principle to train networks by minimizing the residual sequentially over time, which enables adaptively collecting new training data in a self-informed manner that is guided by the dynamics described by the partial differential equations. This is in contrast to other machine learning methods that aim to fit network parameters globally in time without taking into account training data acquisition. Our finding is that the active form of gathering training data of the proposed Neural Galerkin schemes is key for numerically realizing the expressive power of networks in high dimensions. Numerical experiments demonstrate that Neural Galerkin schemes have the potential to enable simulating phenomena and processes with many variables for which traditional and other deep-learning-based solvers fail, especially when features of the solutions evolve locally such as in high-dimensional wave propagation problems and interacting particle systems described by Fokker-Planck and kinetic equations.
翻訳日:2024-03-03 15:29:25 公開日:2024-02-29
# CAREER:労働シーケンスデータの基礎モデル

CAREER: A Foundation Model for Labor Sequence Data ( http://arxiv.org/abs/2202.08370v4 )

ライセンス: Link先を確認
Keyon Vafa, Emil Palikot, Tianyu Du, Ayush Kanodia, Susan Athey, David M. Blei(参考訳) 労働経済学者は、小規模で注意深く構築された縦断調査データセットに予測モデルを適用することで、雇用データを定期的に分析する。 機械学習の手法はそのような問題に対する保証を提供するが、これらの調査データセットは小さすぎて活用できない。 近年、オンライン履歴書の大規模なデータセットも利用可能になり、数百万人の個人のキャリア跡に関するデータを提供している。 しかし、標準計量モデルは、そのスケールを活用できないし、サーベイデータの分析に組み込むことはできない。 そこで我々は,ジョブシーケンスの基礎モデルであるCAREERを開発した。 キャリアはまず、大きく、受動的に収集された履歴データに適合し、次に経済推論のためのより小さく、より正確なデータセットに微調整される。 履歴書から2400万のジョブシーケンスのデータセットにキャリアを適合させ、小さな縦断調査データセットに調整します。 我々はCAREERがジョブシーケンスの正確な予測をし、広く使われている3つの経済データセットのエコノメトリベースラインを上回ります。 さらに,CAREERは,他の下流変数の予測に有効であることがわかった。 例えば、CAREERを賃金モデルに組み込むことで、現在使用されている計量モデルよりも優れた予測が可能になる。

Labor economists regularly analyze employment data by fitting predictive models to small, carefully constructed longitudinal survey datasets. Although machine learning methods offer promise for such problems, these survey datasets are too small to take advantage of them. In recent years large datasets of online resumes have also become available, providing data about the career trajectories of millions of individuals. However, standard econometric models cannot take advantage of their scale or incorporate them into the analysis of survey data. To this end we develop CAREER, a foundation model for job sequences. CAREER is first fit to large, passively-collected resume data and then fine-tuned to smaller, better-curated datasets for economic inferences. We fit CAREER to a dataset of 24 million job sequences from resumes, and adjust it on small longitudinal survey datasets. We find that CAREER forms accurate predictions of job sequences, outperforming econometric baselines on three widely-used economics datasets. We further find that CAREER can be used to form good predictions of other downstream variables. For example, incorporating CAREER into a wage model provides better predictions than the econometric models currently in use.
翻訳日:2024-03-03 15:28:37 公開日:2024-02-29
# 画像分類作業の実践的伝達可能性推定

Practical Transferability Estimation for Image Classification Tasks ( http://arxiv.org/abs/2106.10479v3 )

ライセンス: Link先を確認
Yang Tan, Yang Li, Shao-Lun Huang(参考訳) 伝達可能性の推定は、対象タスクにソースモデル(またはソースタスク)を転送する際のパフォーマンスがどの程度良いかを予測するために、転送学習において不可欠な問題である。 最近の解析的転送可能性メトリクスは、ソースモデル選択とマルチタスク学習に広く使われている。 大きな課題は、クロスドメインのクロスタスク設定で転送可能性の推定を堅牢にする方法だ。 最近提案されたOTCEスコアは、補助的なタスクにおける転送経験の助けを借りて、ドメインとタスクの違いの両方を考慮することでこの問題を解決する。 本研究では,OTCEにおけるタスク差分推定のロバスト性を大幅に向上させ,補助的タスクの必要性を解消する,JC-NCEスコアと呼ばれる実用的な転送可能性指標を提案する。 具体的には、サンプル距離とラベル距離の両方を考慮した地上コストで最適な輸送問題を解くことにより、ソースデータとターゲットデータとの結合関係を構築し、一致するラベルの負条件エントロピーとして転送可能性スコアを算出する。 データセット内およびデータセット間転送設定下での大規模な検証では,JC-NCEスコアがOTCEの補助タスクフリーバージョンを7%,12%で上回り,既存の転送可能性指標よりも堅牢であることが示された。

Transferability estimation is an essential problem in transfer learning to predict how good the performance is when transferring a source model (or source task) to a target task. Recent analytical transferability metrics have been widely used for source model selection and multi-task learning. A major challenge is how to make transfereability estimation robust under the cross-domain cross-task settings. The recently proposed OTCE score solves this problem by considering both domain and task differences, with the help of transfer experiences on auxiliary tasks, which causes an efficiency overhead. In this work, we propose a practical transferability metric called JC-NCE score that dramatically improves the robustness of the task difference estimation in OTCE, thus removing the need for auxiliary tasks. Specifically, we build the joint correspondences between source and target data via solving an optimal transport problem with a ground cost considering both the sample distance and label distance, and then compute the transferability score as the negative conditional entropy of the matched labels. Extensive validations under the intra-dataset and inter-dataset transfer settings demonstrate that our JC-NCE score outperforms the auxiliary-task free version of OTCE for 7% and 12%, respectively, and is also more robust than other existing transferability metrics on average.
翻訳日:2024-03-03 15:27:57 公開日:2024-02-29
# 静止グラフ信号の平均点変化点のオフライン検出

Offline detection of change-points in the mean for stationary graph signals ( http://arxiv.org/abs/2006.10628v2 )

ライセンス: Link先を確認
Alejandro de la Concha, Nicolas Vayatis, Argyris Kalogeratos(参考訳) 本稿では,既知のグラフのノード上で定義された多変量信号の平均値の変化を検出することを目的として,グラフ信号のストリームをセグメント化する問題に対処する。 本稿では,グラフ信号定常性の概念に依存したオフライン手法を提案し,問題を元の頂点領域からスペクトル領域(グラフフーリエ変換)への便利な変換を可能にした。 得られたスペクトル表現は実際の応用では少ないが、我々の知る限り、この性質は既存の関連文献では十分に活用されていない。 本手法は,スペクトル表現のスパース性を考慮したモデル選択手法を採用し,変更点数を自動的に決定する。 我々の検出器は、漸近的でないオラクルの不平等の証明を伴っている。 数値実験により提案手法の性能を実証した。

This paper addresses the problem of segmenting a stream of graph signals: we aim to detect changes in the mean of a multivariate signal defined over the nodes of a known graph. We propose an offline method that relies on the concept of graph signal stationarity and allows the convenient translation of the problem from the original vertex domain to the spectral domain (Graph Fourier Transform), where it is much easier to solve. Although the obtained spectral representation is sparse in real applications, to the best of our knowledge this property has not been sufficiently exploited in the existing related literature. Our change-point detection method adopts a model selection approach that takes into account the sparsity of the spectral representation and determines automatically the number of change-points. Our detector comes with a proof of a non-asymptotic oracle inequality. Numerical experiments demonstrate the performance of the proposed method.
翻訳日:2024-03-03 15:27:30 公開日:2024-02-29
# ほぼ公共の量子コイン

Almost Public Quantum Coins ( http://arxiv.org/abs/2002.12438v4 )

ライセンス: Link先を確認
Amit Behera, Or Sattath(参考訳) 量子マネースキームでは、銀行はユーザーが偽造できないお金を発行できる。 紙幣の紙幣と同様に、ほとんどの量子マネースキームは各通貨状態に対してユニークなシリアル番号を割り当て、量子マネーの利用者のプライバシーを侵害する可能性がある。 しかし、従来の通貨貨幣方式と同様に、量子コイン方式では、全ての通貨状態は互いに正確なコピーであり、ユーザーにとってより良いプライバシーレベルを提供する。 量子マネースキーム(quantum money scheme)は、プライベート(プライベート)、すなわち、銀行だけがマネーステートやパブリックを検証できる、すなわち誰でも検証できる。 そこで本研究では,ji,liu,song (crypto'18) による一方向関数の存在に基づいて存在することが知られている任意のプライベート量子コインスキームを,公開量子コインスキームによく似たスキームへ持ち上げる手法を提案する。 新しいコインの検証は、ユーザーが既に持っているコインと比較し、プロジェクターを対称部分空間に使用することによって行われる。 この作品以前には公的な貨幣計画が知られていなかった。 これはまた、公的な量子マネースキームに非常に近い最初の構成であり、標準仮定に基づいて確実に安全である。 最後に、持ち上げテクニックは、プライベート量子コインスキーム~\cite{ms10}でインスタンス化されると、非効率で無条件にセキュアな公開量子マネースキームに近い最初の構成となる。

In a quantum money scheme, a bank can issue money that users cannot counterfeit. Similar to bills of paper money, most quantum money schemes assign a unique serial number to each money state, thus potentially compromising the privacy of the users of quantum money. However in a quantum coins scheme, just like the traditional currency coin scheme, all the money states are exact copies of each other, providing a better level of privacy for the users. A quantum money scheme can be private, i.e., only the bank can verify the money states, or public, meaning anyone can verify. In this work, we propose a way to lift any private quantum coin scheme -- which is known to exist based on the existence of one-way functions, due to Ji, Liu, and Song (CRYPTO'18) -- to a scheme that closely resembles a public quantum coin scheme. Verification of a new coin is done by comparing it to the coins the user already possesses, by using a projector on to the symmetric subspace. No public coin scheme was known prior to this work. It is also the first construction that is very close to a public quantum money scheme and is provably secure based on standard assumptions. Finally, the lifting technique, when instantiated with the private quantum coins scheme~\cite{MS10}, gives rise to the first construction that is close to an inefficient unconditionally secure public quantum money scheme.
翻訳日:2024-03-03 15:27:18 公開日:2024-02-29
# 階層的深層集合におけるコスト特性の分類

Classification with Costly Features in Hierarchical Deep Sets ( http://arxiv.org/abs/1911.08756v6 )

ライセンス: Link先を確認
Jarom\'ir Janisch, Tom\'a\v{s} Pevn\'y and Viliam Lis\'y(参考訳) コスト特徴の分類 (CwCF) は、最適化基準に含まれる特徴のコストを含む分類問題である。 個々のサンプルについて、その特徴を逐次取得して精度を最大化し、取得した特徴のコストを最小化する。 しかし、既存のアプローチでは、固定長のベクトルとして表現できるデータしか処理できない。 実生活では、データはしばしばリッチで複雑な構造を持ち、xmlやjsonのようなフォーマットでより正確に記述できる。 データは階層的であり、しばしばネストしたオブジェクトのリストを含む。 本研究では,階層的深層集合と階層的ソフトマックスを用いて,既存の深部強化学習に基づくアルゴリズムを拡張し,このデータを直接処理できるようにする。 拡張メソッドは、取得可能な機能をより多く制御でき、7つのデータセットを用いた実験では、優れたパフォーマンスをもたらすことが示される。 本手法の実際の使用例を示すために,オンラインサービスを用いて悪意あるWebドメインを分類する現実的な問題に適用する。

Classification with Costly Features (CwCF) is a classification problem that includes the cost of features in the optimization criteria. Individually for each sample, its features are sequentially acquired to maximize accuracy while minimizing the acquired features' cost. However, existing approaches can only process data that can be expressed as vectors of fixed length. In real life, the data often possesses rich and complex structure, which can be more precisely described with formats such as XML or JSON. The data is hierarchical and often contains nested lists of objects. In this work, we extend an existing deep reinforcement learning-based algorithm with hierarchical deep sets and hierarchical softmax, so that it can directly process this data. The extended method has greater control over which features it can acquire and, in experiments with seven datasets, we show that this leads to superior performance. To showcase the real usage of the new method, we apply it to a real-life problem of classifying malicious web domains, using an online service.
翻訳日:2024-03-03 15:26:53 公開日:2024-02-29
# 委員会機械:二層ニューラルネットワーク学習における統計的ギャップの計算

The committee machine: Computational to statistical gaps in learning a two-layers neural network ( http://arxiv.org/abs/1806.05451v3 )

ライセンス: Link先を確認
Benjamin Aubin, Antoine Maillard, Jean Barbier, Florent Krzakala, Nicolas Macris and Lenka Zdeborov\'a(参考訳) 統計物理学からのヒューリスティックツールは、過去に相転移を見つけ出し、多層ニューラルネットワークの教師/学生シナリオにおける最適学習および一般化誤差を計算するために用いられてきた。 本稿では,2層ニューラルネットワークモデルであるcommitted machineに対して,これらのアプローチを厳密に正当化することを提案する。 また,多数のパラメータの集合に対して多項式時間で最適な学習を行うための,委員会機械のための近似メッセージパッシング(AMP)アルゴリズムのバージョンも導入する。 AMPアルゴリズムでは,これらのケースに効率的なアルゴリズムが存在しないことを強く示唆し,大きな計算ギャップを露呈する一方で,低一般化誤差が情報理論的に達成できる体制が存在することがわかった。

Heuristic tools from statistical physics have been used in the past to locate the phase transitions and compute the optimal learning and generalization errors in the teacher-student scenario in multi-layer neural networks. In this contribution, we provide a rigorous justification of these approaches for a two-layers neural network model called the committee machine. We also introduce a version of the approximate message passing (AMP) algorithm for the committee machine that allows to perform optimal learning in polynomial time for a large set of parameters. We find that there are regimes in which a low generalization error is information-theoretically achievable while the AMP algorithm fails to deliver it, strongly suggesting that no efficient algorithm exists for those cases, and unveiling a large computational gap.
翻訳日:2024-03-03 15:26:38 公開日:2024-02-29
# 赤外線による外科的刺青 : 組織追跡とマッピングの定量化のためのデータセット

Surgical Tattoos in Infrared: A Dataset for Quantifying Tissue Tracking and Mapping ( http://arxiv.org/abs/2309.16782v2 )

ライセンス: Link先を確認
Adam Schmidt, Omid Mohareri, Simon DiMaio, Septimiu E. Salcudean(参考訳) 内視鏡下組織を追跡・マッピングする手法の性能の定量化は, 画像指導と医療介入・手術の自動化に不可欠である。 これまでに開発されたデータセットは、厳格な環境や目に見えるマーカーを使用するか、あるいはアノテータに収集後のビデオにサルエントポイントをラベル付ける必要がある。 これらはそれぞれ一般的なものではなく、アルゴリズムに可視である。 そこで本研究では, 赤外線手術用タトゥー(stir)を用いた新しいラベリング法について紹介する。 STIRには永続性があるが、可視光スペクトルアルゴリズムには見えないラベルがある。 これは、組織点をIR蛍光染料、インドシアニングリーン(ICG)でラベル付けし、可視光ビデオクリップを収集する。 STIRは、in-vivoとex-vivoの両方で数百のステレオビデオクリップで構成されており、スタートとエンドポイントはIRスペクトルにラベル付けされている。 3000以上のラベル付きポイントを持つSTIRは、トラッキングとマッピングの方法の定量化とより良い分析を可能にする。 STIRを導入した後、3次元および2次元の終端誤差と精度の指標を用いて、STIR上の複数のフレームベースのトラッキング手法を解析した。 STIRはhttps://dx.doi.org/10.21227/w8g4-g548で利用可能である。

Quantifying performance of methods for tracking and mapping tissue in endoscopic environments is essential for enabling image guidance and automation of medical interventions and surgery. Datasets developed so far either use rigid environments, visible markers, or require annotators to label salient points in videos after collection. These are respectively: not general, visible to algorithms, or costly and error-prone. We introduce a novel labeling methodology along with a dataset that uses said methodology, Surgical Tattoos in Infrared (STIR). STIR has labels that are persistent but invisible to visible spectrum algorithms. This is done by labelling tissue points with IR-fluorescent dye, indocyanine green (ICG), and then collecting visible light video clips. STIR comprises hundreds of stereo video clips in both in-vivo and ex-vivo scenes with start and end points labelled in the IR spectrum. With over 3,000 labelled points, STIR will help to quantify and enable better analysis of tracking and mapping methods. After introducing STIR, we analyze multiple different frame-based tracking methods on STIR using both 3D and 2D endpoint error and accuracy metrics. STIR is available at https://dx.doi.org/10.21227/w8g4-g548
翻訳日:2024-03-02 04:03:30 公開日:2024-02-29
# Qubit と Cavity の分散非相互性

Dispersive Non-reciprocity between a Qubit and a Cavity ( http://arxiv.org/abs/2307.05298v2 )

ライセンス: Link先を確認
Ying-Ying Wang, Yu-Xin Wang, Sean van Geldern, Thomas Connolly, Aashish A. Clerk, Chen Wang(参考訳) 量子ビットとキャビティの間の分散相互作用は、回路とキャビティ量子電磁力学においてユビキタスである。 これは一方の量子モードの周波数シフトを、もう一方の励起に応答して記述し、閉系では必然的に双方向である。 本稿では, 経モン量子ビットと超伝導キャビティとの非相反分散型相互作用を, 時間反転対称性の破れのある散逸中間モードへの共通結合から実験的に検討する。 フェライト成分の磁場バイアスをその場で調整することにより,非対称周波数プルやフォトンショットノイズ強調を含む量子キャビティダイナミクスを,非相反性の程度に応じて特徴付ける。 本稿では,分散系における非相互相互作用の一般主方程式モデルを導入し,中間系に非依存な観測量子ビットキャビティダイナミクスのコンパクトな記述を提供する。 この結果は、非エルミートハミルトン系とカスケード系の典型的なパラダイムを超えた量子非相反現象の例を提供する。

The dispersive interaction between a qubit and a cavity is ubiquitous in circuit and cavity quantum electrodynamics. It describes the frequency shift of one quantum mode in response to excitations in the other, and in closed systems is necessarily bidirectional, i.e. reciprocal. Here, we present an experimental study of a nonreciprocal dispersive-type interaction between a transmon qubit and a superconducting cavity, arising from a common coupling to dissipative intermediary modes with broken time reversal symmetry. We characterize the qubit-cavity dynamics, including asymmetric frequency pulls and photon shot-noise dephasing, under varying degrees of nonreciprocity by tuning the magnetic field bias of a ferrite component in situ. We introduce a general master-equation model for nonreciprocal interactions in the dispersive regime, providing a compact description of the observed qubit-cavity dynamics agnostic to the intermediary system. Our result provides an example of quantum nonreciprocal phenomena beyond the typical paradigms of non-Hermitian Hamiltonians and cascaded systems.
翻訳日:2024-03-02 04:03:07 公開日:2024-02-29
# 計算量的または難解な確率をもつ空間過程のニューラルラバース曲面

Neural Likelihood Surfaces for Spatial Processes with Computationally Intensive or Intractable Likelihoods ( http://arxiv.org/abs/2305.04634v3 )

ライセンス: Link先を確認
Julia Walchessen, Amanda Lenzi, Mikael Kuusela(参考訳) 空間統計学において、不確実性定量化の信頼できる手段と組み合わされた高速で正確なパラメータ推定は、空間過程を実世界データに適合させる際に困難である。 本研究では,畳み込みニューラルネットワークを用いて空間過程の帰結関数を学習する手法を提案する。 特別に設計された分類タスクを通じて、ニューラルネットワークは、正確な可能性が明確に利用できない状況でも、暗黙的に可能性関数を学習します。 分類タスクでトレーニングをすると、ニューラルネットワークはプラッツスケーリングを使用して校正され、ニューラルチャンス表面の精度が向上する。 そこで本研究では,2つの異なる空間過程 (ガウス過程, ブラウン・レズニック過程) について, 計算量的に集中的かつ難解な確率で, 推定値の最大推定値と近似的信頼領域を比較した。 提案手法は,標準手法が望ましくない,あるいは不正確である状況において,信頼性の高い不確実性定量化法を用いて高速かつ正確なパラメータ推定を行う。 この方法は、高速なシミュレーションが利用できるグリッド上の任意の空間過程に適用できる。

In spatial statistics, fast and accurate parameter estimation, coupled with a reliable means of uncertainty quantification, can be challenging when fitting a spatial process to real-world data because the likelihood function might be slow to evaluate or wholly intractable. In this work, we propose using convolutional neural networks to learn the likelihood function of a spatial process. Through a specifically designed classification task, our neural network implicitly learns the likelihood function, even in situations where the exact likelihood is not explicitly available. Once trained on the classification task, our neural network is calibrated using Platt scaling which improves the accuracy of the neural likelihood surfaces. To demonstrate our approach, we compare neural likelihood surfaces and the resulting maximum likelihood estimates and approximate confidence regions with the equivalent for exact or approximate likelihood for two different spatial processes: a Gaussian process and a Brown-Resnick process which have computationally intensive and intractable likelihoods, respectively. We conclude that our method provides fast and accurate parameter estimation with a reliable method of uncertainty quantification in situations where standard methods are either undesirably slow or inaccurate. The method is applicable to any spatial process on a grid from which fast simulations are available.
翻訳日:2024-03-02 04:02:50 公開日:2024-02-29
# LLMは人間の嗜好を捉えることができるか?

Can LLMs Capture Human Preferences? ( http://arxiv.org/abs/2305.02531v6 )

ライセンス: Link先を確認
Ali Goli, Amandeep Singh(参考訳) 人事調査の回答者のエミュレートや選好の選考において,特に OpenAI の GPT-3.5 と GPT-4 の生存可能性について検討し,時間的選択に着目した。 ベンチマークのための時間的ディスカウントに関する広範な文献を活用することで、様々な言語にわたるllmからの応答を調べ、人間の反応と比較し、より小さい、より早い、より大きい、後の報酬の選好を探求する。 以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示す。 GPT-4はレキソグラフィーの嗜好を示さないが、測定された割引率はヒトよりもかなり大きい。 興味深いことに、gptモデルは、ドイツ語やマンダリンのような将来の時制参照が弱い言語において、言語構造と時間的選好の相関を示唆する既存の文献と一致している。 gptが意思決定をいかに促すかを実証し、我々が「思考の連鎖」と呼ぶ手続きは、llmと人間の反応の相違を緩和するが排除しない。 LLMを用いた嗜好を直接引き出すと誤解を招く可能性があるが、仮説生成においてチェーン・オブ・ソート・コンジョイントとトピックモデリング支援を組み合わせることで、研究者は選好の基盤を探ることができる。 チェーン・オブ・コンジョイント(Chain-of- Thought Conjoint)は、マーケティング担当者がLCMを使用して潜在的な属性や要因を特定するための構造化されたフレームワークを提供する。

We explore the viability of Large Language Models (LLMs), specifically OpenAI's GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting preferences, with a focus on intertemporal choices. Leveraging the extensive literature on intertemporal discounting for benchmarking, we examine responses from LLMs across various languages and compare them to human responses, exploring preferences between smaller, sooner, and larger, later rewards. Our findings reveal that both GPT models demonstrate less patience than humans, with GPT-3.5 exhibiting a lexicographic preference for earlier rewards, unlike human decision-makers. Though GPT-4 does not display lexicographic preferences, its measured discount rates are still considerably larger than those found in humans. Interestingly, GPT models show greater patience in languages with weak future tense references, such as German and Mandarin, aligning with existing literature that suggests a correlation between language structure and intertemporal preferences. We demonstrate how prompting GPT to explain its decisions, a procedure we term "chain-of-thought conjoint," can mitigate, but does not eliminate, discrepancies between LLM and human responses. While directly eliciting preferences using LLMs may yield misleading results, combining chain-of-thought conjoint with topic modeling aids in hypothesis generation, enabling researchers to explore the underpinnings of preferences. Chain-of-thought conjoint provides a structured framework for marketers to use LLMs to identify potential attributes or factors that can explain preference heterogeneity across different customers and contexts.
翻訳日:2024-03-02 00:36:43 公開日:2024-02-29
# 自律型aiエージェントのための自己開始型オープンワールド学習

Self-Initiated Open World Learning for Autonomous AI Agents ( http://arxiv.org/abs/2110.11385v3 )

ライセンス: Link先を確認
Bing Liu, Eric Robertson, Scott Grigsby, Sahisnu Mazumder(参考訳) より多くのaiエージェントが実際に使われるようになるにつれ、トレーニングデータの拡張を使用して、人間エンジニアの開始に定期的に再訓練されるのではなく、自己モチベーションと自己監督の方法で学習できるように、これらのエージェントを完全自律的にする方法を考える時が来ている。 現実の世界は未知やノベルティを持つオープン環境であり、ノベルティや未知を検知し、特徴付けし、それらに適応し、適応し、真正なトレーニングデータを集め、未知/ノベルティを段階的に学習することは、エージェントを時間とともにより知識豊かで強力にする上で重要である。 主要な課題は、エージェント自身のイニシアチブや、人間や環境との相互作用を通じて実行されるように、プロセスを自動化することである。 aiエージェントは通常、パフォーマンスタスクを持っているので、各新規性の特徴付けが重要かつ必要になるので、エージェントは、その新規性に適応するために適切な応答を定式化し、その振る舞いから学習することで、エージェントの適応能力とタスクパフォーマンスを向上させることができる。 プロセスは終了せずに継続します。 本稿では、自己開始型オープンワールドラーニング(SOL)エージェントの構築研究を促進するための学習パラダイムの理論的枠組みを提案する。 例として、SOLエージェントを挙げる。

As more and more AI agents are used in practice, it is time to think about how to make these agents fully autonomous so that they can learn by themselves in a self-motivated and self-supervised manner rather than being retrained periodically on the initiation of human engineers using expanded training data. As the real-world is an open environment with unknowns or novelties, detecting novelties or unknowns, characterizing them, accommodating or adapting to them, gathering ground-truth training data, and incrementally learning the unknowns/novelties are critical to making the agent more and more knowledgeable and powerful over time. The key challenge is how to automate the process so that it is carried out on the agent's own initiative and through its own interactions with humans and the environment. Since an AI agent usually has a performance task, characterizing each novelty becomes critical and necessary so that the agent can formulate an appropriate response to adapt its behavior to accommodate the novelty and to learn from it to improve the agent's adaptation capability and task performance. The process goes continually without termination. This paper proposes a theoretic framework for this learning paradigm to promote the research of building Self-initiated Open world Learning (SOL) agents. An example SOL agent is also described.
翻訳日:2024-03-01 19:25:36 公開日:2024-02-29
# セマンティックセグメンテーションタスクの伝達可能性推定

Transferability Estimation for Semantic Segmentation Task ( http://arxiv.org/abs/2109.15242v3 )

ライセンス: Link先を確認
Yang Tan, Yang Li, Shao-Lun Huang(参考訳) 伝達可能性推定は、対象タスクにソースモデル(またはソースタスク)を転送する際のパフォーマンスがどの程度良いかを予測するために、転送学習において基本的な問題である。 転送可能性スコアのガイダンスにより、実際の転送を行うことなく、高転送可能なソースモデルを効率的に選択できる。 近年, 画像分類問題に対する分析可能性指標が主に設計されており, 自律運転や医用画像解析などにおいて重要な課題であるセマンティックセグメンテーションタスクの伝達可能性推定に関する具体的な調査は行われていない。 その結果,最近の分析伝達可能性指標OTCE(Optimal Transport based Conditional Entropy)のスコアをセマンティックセグメンテーションタスクに拡張した。 otceスコアを適用する際の課題は、高次元のセグメンテーション出力であり、許容可能な計算コストの下で、非常に多くの画素間の最適な結合を見つけるのが困難である。 そこで我々は,n画素をランダムにサンプリングしてotceスコアを算出し,k繰り返しの期待値を最終転送可能性スコアとする。 Cityscapes、BDD100K、GTA5データセットの実験的評価により、OTCEスコアが転送性能と高い相関性を示す。

Transferability estimation is a fundamental problem in transfer learning to predict how good the performance is when transferring a source model (or source task) to a target task. With the guidance of transferability score, we can efficiently select the highly transferable source models without performing the real transfer in practice. Recent analytical transferability metrics are mainly designed for image classification problem, and currently there is no specific investigation for the transferability estimation of semantic segmentation task, which is an essential problem in autonomous driving, medical image analysis, etc. Consequently, we further extend the recent analytical transferability metric OTCE (Optimal Transport based Conditional Entropy) score to the semantic segmentation task. The challenge in applying the OTCE score is the high dimensional segmentation output, which is difficult to find the optimal coupling between so many pixels under an acceptable computation cost. Thus we propose to randomly sample N pixels for computing OTCE score and take the expectation over K repetitions as the final transferability score. Experimental evaluation on Cityscapes, BDD100K and GTA5 datasets demonstrates that the OTCE score highly correlates with the transfer performance.
翻訳日:2024-03-01 19:25:11 公開日:2024-02-29
# Opti-CAM: 解釈可能性のためのサリエンシマップの最適化

Opti-CAM: Optimizing saliency maps for interpretability ( http://arxiv.org/abs/2301.07002v2 )

ライセンス: Link先を確認
Hanwei Zhang and Felipe Torres and Ronan Sicre and Yannis Avrithis and Stephane Ayache(参考訳) クラスアクティベーションマップ(CAM)に基づく手法は、特徴写像の線形結合をサリエンシマップとして利用することにより、畳み込みニューラルネットワークの予測を簡易に解釈するメカニズムを提供する。 対照的に、マスキングベースの手法では、画像空間内で直接サリエンシーマップを最適化したり、追加データで別のネットワークをトレーニングすることで学習する。 本稿では、CAMベースのアイデアとマスキングベースのアプローチを組み合わせたOpti-CAMを紹介する。 我々のサリエンシマップは特徴写像の線形結合であり、画像ごとに重みが最適化され、与えられたクラスに対するマスク画像のロジットが最大化される。 また,帰属法の最も一般的な評価基準の2つに根本的な欠陥を修正した。 いくつかのデータセットでは、Opti-CAMは最も関連性の高い分類基準に従って、他のCAMベースのアプローチよりも優れている。 局所化と分類器解釈性が必ずしも一致していないことを示す実証的証拠を提供する。

Methods based on class activation maps (CAM) provide a simple mechanism to interpret predictions of convolutional neural networks by using linear combinations of feature maps as saliency maps. By contrast, masking-based methods optimize a saliency map directly in the image space or learn it by training another network on additional data. In this work we introduce Opti-CAM, combining ideas from CAM-based and masking-based approaches. Our saliency map is a linear combination of feature maps, where weights are optimized per image such that the logit of the masked image for a given class is maximized. We also fix a fundamental flaw in two of the most common evaluation metrics of attribution methods. On several datasets, Opti-CAM largely outperforms other CAM-based approaches according to the most relevant classification metrics. We provide empirical evidence supporting that localization and classifier interpretability are not necessarily aligned.
翻訳日:2024-03-01 19:23:21 公開日:2024-02-29
# 頑健な最適輸送による推論:理論と方法

Inference via robust optimal transportation: theory and methods ( http://arxiv.org/abs/2301.06297v4 )

ライセンス: Link先を確認
Yiming Ma, Hang Liu, Davide La Vecchia, Metthieu Lerasle(参考訳) 最適輸送理論と関連する$p$-ワッサーシュタイン距離(W_p$, $p\geq 1$)は統計学や機械学習に広く応用されている。 彼らの人気にもかかわらず、これらのツールに基づく推論にはいくつかの問題がある。 例えば、それは外れ値に敏感であり、基礎となるモデルが無限モーメントを持つときさえ定義されないかもしれない。 これらの問題に対処するため、まず第一に、原始輸送問題のロバストバージョンを考え、チューニングパラメータ $\lambda > 0$ に依存する {robust wasserstein distance}, $w^{(\lambda)}$ を定義する。 次に、$W_1$と$W^{(\lambda)}$の関連を説明し、その重要な測度論的な側面を研究する。 第三に、$W^{(\lambda)}$に対して濃度の不等式を導出する。 第4に、最小距離推定器を定義するために$w^{(\lambda)}$を使い、それらの統計的な保証を提供し、導出された濃度不等式を$\lambda$というデータ駆動選択に適用する方法を示す。 第5に、ロバストな最適輸送問題のdual形式を提供し、これを機械学習問題(生成的対向ネットワークとドメイン適応)に適用する。 数値的な演習は、我々の新しい方法によって得られる利点の証拠を提供する。

Optimal transportation theory and the related $p$-Wasserstein distance ($W_p$, $p\geq 1$) are widely-applied in statistics and machine learning. In spite of their popularity, inference based on these tools has some issues. For instance, it is sensitive to outliers and it may not be even defined when the underlying model has infinite moments. To cope with these problems, first we consider a robust version of the primal transportation problem and show that it defines the {robust Wasserstein distance}, $W^{(\lambda)}$, depending on a tuning parameter $\lambda > 0$. Second, we illustrate the link between $W_1$ and $W^{(\lambda)}$ and study its key measure theoretic aspects. Third, we derive some concentration inequalities for $W^{(\lambda)}$. Fourth, we use $W^{(\lambda)}$ to define minimum distance estimators, we provide their statistical guarantees and we illustrate how to apply the derived concentration inequalities for a data driven selection of $\lambda$. Fifth, we provide the {dual} form of the robust optimal transportation problem and we apply it to machine learning problems (generative adversarial networks and domain adaptation). Numerical exercises provide evidence of the benefits yielded by our novel methods.
翻訳日:2024-03-01 19:23:06 公開日:2024-02-29
# 大規模言語モデルの心理的安全性の評価

Evaluating Psychological Safety of Large Language Models ( http://arxiv.org/abs/2212.10529v3 )

ライセンス: Link先を確認
Xingxuan Li, Yutong Li, Lin Qiu, Shafiq Joty, Lidong Bing(参考訳) 本研究では,大規模言語モデル(LLM)の心理的安全性を体系的に評価するために,バイアスのないプロンプトを設計した。 まず,短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。 いずれのモデルもsd-3では人間の平均よりもスコアが高く、比較的暗いパーソナリティパターンを示唆している。 InstructGPT, GPT-3.5, GPT-4は、安全性の指標で微調整されているものの、SD-3の自己監督型GPT-3やナルシシズム特性よりも高得点を示した。 そこで我々は,GPTシリーズのLCMをウェルビーイングテストを用いて評価し,より多くのトレーニングデータを用いた微調整の影響について検討した。 我々はGPTモデルの良好なスコアの連続的な増加を観察した。 これらの結果から, 直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは, モデルの心理的毒性を効果的に低下させることを示した。 本研究は,LLMの安全性をさらに評価・改善するために,系統的および包括的心理学的指標の適用を推奨する。

In this work, we designed unbiased prompts to systematically evaluate the psychological safety of large language models (LLMs). First, we tested five different LLMs by using two personality tests: Short Dark Triad (SD-3) and Big Five Inventory (BFI). All models scored higher than the human average on SD-3, suggesting a relatively darker personality pattern. Despite being instruction fine-tuned with safety metrics to reduce toxicity, InstructGPT, GPT-3.5, and GPT-4 still showed dark personality patterns; these models scored higher than self-supervised GPT-3 on the Machiavellianism and narcissism traits on SD-3. Then, we evaluated the LLMs in the GPT series by using well-being tests to study the impact of fine-tuning with more training data. We observed a continuous increase in the well-being scores of GPT models. Following these observations, we showed that fine-tuning Llama-2-chat-7B with responses from BFI using direct preference optimization could effectively reduce the psychological toxicity of the model. Based on the findings, we recommended the application of systematic and comprehensive psychological metrics to further evaluate and improve the safety of LLMs.
翻訳日:2024-03-01 19:22:42 公開日:2024-02-29
# 低複素性を考慮した適応フェデレーションミニマックス最適化

Adaptive Federated Minimax Optimization with Lower Complexities ( http://arxiv.org/abs/2211.07303v4 )

ライセンス: Link先を確認
Feihu Huang, Xinrui Wang, Junyi Li, Songcan Chen(参考訳) フェデレーション学習(Federated Learning)は、機械学習における分散およびプライバシ保護学習パラダイムとして人気がある。 近年,分散ミニマックス問題の解法として,連合学習アルゴリズムが提案されている。 しかし、これらのフェデレーションされたミニマックスアルゴリズムは依然として高い勾配や通信の複雑さに苦しんでいる。 一方、適応学習率を用いてこれらのアルゴリズムを高速化するアルゴリズムはほとんどない。 このギャップを埋めるため,本論文では,非凸ミニマックス最適化のクラスについて検討し,分散ミニマックス問題を解くための効率的な適応フェデレーションミニマックス最適化アルゴリズム(adafgda)を提案する。 具体的には、AdaFGDAは、モーメントに基づく分散と局所SGD技術に基づいており、統一適応行列を用いて様々な適応学習率を柔軟に組み込むことができる。 理論的には、AdaFGDAアルゴリズムに対して、非i.d.条件下でのソリッド収束解析フレームワークを提供する。 さらに、我々のadafgdaアルゴリズムは、非凸ミニマックス問題の$\epsilon$-stationary pointを求める際に、$\tilde{o}(\epsilon^{-3})$のより低い勾配(すなわち確率的一階oracle, sfo)の複雑さと$\tilde{o}(\epsilon^{-2})$の通信複雑性を得ることを証明します。 実験では,アルゴリズムの効率性を検証するために,深層auc最大化とロバストニューラルネットワークトレーニングタスクについて実験を行う。

Federated learning is a popular distributed and privacy-preserving learning paradigm in machine learning. Recently, some federated learning algorithms have been proposed to solve the distributed minimax problems. However, these federated minimax algorithms still suffer from high gradient or communication complexity. Meanwhile, few algorithm focuses on using adaptive learning rate to accelerate these algorithms. To fill this gap, in the paper, we study a class of nonconvex minimax optimization, and propose an efficient adaptive federated minimax optimization algorithm (i.e., AdaFGDA) to solve these distributed minimax problems. Specifically, our AdaFGDA builds on the momentum-based variance reduced and local-SGD techniques, and it can flexibly incorporate various adaptive learning rates by using the unified adaptive matrices. Theoretically, we provide a solid convergence analysis framework for our AdaFGDA algorithm under non-i.i.d. setting. Moreover, we prove our AdaFGDA algorithm obtains a lower gradient (i.e., stochastic first-order oracle, SFO) complexity of $\tilde{O}(\epsilon^{-3})$ with lower communication complexity of $\tilde{O}(\epsilon^{-2})$ in finding $\epsilon$-stationary point of the nonconvex minimax problems. Experimentally, we conduct some experiments on the deep AUC maximization and robust neural network training tasks to verify efficiency of our algorithms.
翻訳日:2024-03-01 19:22:18 公開日:2024-02-29
# MRI画像を用いた脳腫瘍切片の弱教師付き生成と評価のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Weakly Supervised Generation and Evaluation of Brain Tumor Segmentations on MR Images ( http://arxiv.org/abs/2211.05269v3 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Matthias W. Wagner, Liana Nobre, Uri Tabori, Cynthia Hawkins, Birgit B. Ertl-Wagner, Farzad Khalvati(参考訳) 異常を識別するための関心領域(ROI)の分離は、医療画像における主要な問題である。 この問題を解決するために機械学習を使うには、一般に手動で注釈付き地中セグメンテーションが必要であり、放射線科医から幅広い時間とリソースを要求する。 本研究は, 2次元磁気共鳴画像において, 基底真理アノテーションを使わずに, 2次元画像レベルのラベルを効果的に分割する手法を提案する。 我々は,がん画像を健康な変異体に変換するGAN (generative adversarial network) を訓練し,前者は局所化種子とともに使用し,弱教師付きセグメンテーションを改良した。 非セグメンテーションの変種は、弱制御された方法でセグメンテーションを評価するためにも使用できるため、最も効果的なセグメンテーションを識別し、下流臨床分類タスクに適用することができる。 マルチモーダル脳腫瘍セグメンテーション(brats)2020データセットにおいて,提案手法は83.91%のテストサイス係数を達成するセグメンテーションを生成し,同定する。 病理分類にこれらのセグメンテーションを用いると、真のセグメンテーションを用いた場合の95.80%に匹敵する93.32%のテストaucが得られる。

Segmentation of regions of interest (ROIs) for identifying abnormalities is a leading problem in medical imaging. Using machine learning for this problem generally requires manually annotated ground-truth segmentations, demanding extensive time and resources from radiologists. This work presents a weakly supervised approach that utilizes binary image-level labels, which are much simpler to acquire, to effectively segment anomalies in 2D magnetic resonance images without ground truth annotations. We train a generative adversarial network (GAN) that converts cancerous images to healthy variants, which are used along with localization seeds as priors to generate improved weakly supervised segmentations. The non-cancerous variants can also be used to evaluate the segmentations in a weakly supervised fashion, which allows for the most effective segmentations to be identified and then applied to downstream clinical classification tasks. On the Multimodal Brain Tumor Segmentation (BraTS) 2020 dataset, our proposed method generates and identifies segmentations that achieve test Dice coefficients of 83.91%. Using these segmentations for pathology classification results with a test AUC of 93.32% which is comparable to the test AUC of 95.80% achieved when using true segmentations.
翻訳日:2024-03-01 19:21:49 公開日:2024-02-29
# マルチビューデータにおける欠落値のインプット

Imputation of missing values in multi-view data ( http://arxiv.org/abs/2210.14484v3 )

ライセンス: Link先を確認
Wouter van Loon, Marjolein Fokkema, Frank de Vos, Marisa Koini, Reinhold Schmidt, Mark de Rooij(参考訳) オブジェクトの集合が複数の異なる特徴集合(ビューと呼ばれる)によって記述されるデータは、マルチビューデータと呼ばれる。 マルチビューデータに欠落する値が発生した場合、ビュー内のすべての機能が同時に欠落する可能性がある。 これは、特に高次元性と組み合わせた場合、計算的に不可能な条件付き計算手法を適用する、非常に大量の欠落データをもたらす。 多視点学習のための既存の累積ペナル化ロジスティック回帰(StaPLR)アルゴリズムに基づく新しい計算法を提案する。 マルチビューコンテキストに固有の計算問題に対処するために、次元還元空間で計算を実行する。 シミュレーションデータセットにおいて,新しい計算法の性能と既存の計算アルゴリズムを比較した。 その結果,新しいインプテーション手法は,計算コストがはるかに低く競争結果をもたらすことを示し,計算が不可能であるような環境では,ミスフォレストや予測平均マッチングといった高度なインプテーションアルゴリズムを利用可能とする。

Data for which a set of objects is described by multiple distinct feature sets (called views) is known as multi-view data. When missing values occur in multi-view data, all features in a view are likely to be missing simultaneously. This leads to very large quantities of missing data which, especially when combined with high-dimensionality, makes the application of conditional imputation methods computationally infeasible. We introduce a new imputation method based on the existing stacked penalized logistic regression (StaPLR) algorithm for multi-view learning. It performs imputation in a dimension-reduced space to address computational challenges inherent to the multi-view context. We compare the performance of the new imputation method with several existing imputation algorithms in simulated data sets. The results show that the new imputation method leads to competitive results at a much lower computational cost, and makes the use of advanced imputation algorithms such as missForest and predictive mean matching possible in settings where they would otherwise be computationally infeasible.
翻訳日:2024-03-01 19:21:25 公開日:2024-02-29
# フェデレーションバックドア攻撃に対する防御のための不変アグリゲータ

Invariant Aggregator for Defending against Federated Backdoor Attacks ( http://arxiv.org/abs/2210.01834v3 )

ライセンス: Link先を確認
Xiaoyang Wang, Dimitrios Dimitriadis, Sanmi Koyejo, Shruti Tople(参考訳) フェデレーション学習は、プライベートデータを直接共有することなく、複数のクライアント間で高可用性モデルのトレーニングを可能にする。 マイナス面として、フェデレーション設定は、悪意のあるクライアントの存在下で、様々な敵の攻撃に対して、モデルを脆弱にする。 モデルの実用性を低下させようとする攻撃に対する理論的かつ実証的な成功にもかかわらず、バックドアサンプルのモデルの精度を高めるバックドア攻撃に対する防御は、他のサンプルの実用性を損なうことなく、依然として困難である。 この目的のために、我々はまず、resnet(he et al., 2015)のようなよく設計されたニューラルネットワークでよく見られる、フラットなロスランドスケープ上の既存の防御の障害モードを解析します。 そこで我々は,無害なクライアントに好まれる更新要素を選択的にマスキングすることで,集約された更新を不変方向へリダイレクトする不変アグリゲータを提案する。 理論的には,本手法はバックドア攻撃を効果的に軽減し,平らな景観に対して有効であることを示唆している。 異なるモダリティと異なる数のクライアントを持つ3つのデータセットに対する実証的な結果は、我々のアプローチがモデルユーティリティーに無視できないコストで幅広いバックドア攻撃を緩和することを示している。

Federated learning enables training high-utility models across several clients without directly sharing their private data. As a downside, the federated setting makes the model vulnerable to various adversarial attacks in the presence of malicious clients. Despite the theoretical and empirical success in defending against attacks that aim to degrade models' utility, defense against backdoor attacks that increase model accuracy on backdoor samples exclusively without hurting the utility on other samples remains challenging. To this end, we first analyze the failure modes of existing defenses over a flat loss landscape, which is common for well-designed neural networks such as Resnet [He et al., 2015] but is often overlooked by previous works. Then, we propose an invariant aggregator that redirects the aggregated update to invariant directions that are generally useful via selectively masking out the update elements that favor few and possibly malicious clients. Theoretical results suggest that our approach provably mitigates backdoor attacks and remains effective over flat loss landscapes. Empirical results on three datasets with different modalities and varying numbers of clients further demonstrate that our approach mitigates a broad class of backdoor attacks with a negligible cost on the model utility.
翻訳日:2024-03-01 19:21:09 公開日:2024-02-29
# IMG2IMU:大規模画像からの知識のIMUセンシングへの応用

IMG2IMU: Translating Knowledge from Large-Scale Images to IMU Sensing Applications ( http://arxiv.org/abs/2209.00945v2 )

ライセンス: Link先を確認
Hyungjun Yoon, Hyeongheon Cha, Hoang C. Nguyen, Taesik Gong, Sung-Ju Lee(参考訳) 自己教師付き学習によって得られた事前学習表現は、訓練データが少ないタスクでも高い精度を達成できる。 ビジョンや自然言語処理の領域とは異なり、汎用表現を学ぶのに十分な大きさと多様性を持つ公開データセットがほとんどないため、immベースのアプリケーションの事前トレーニングは困難である。 この問題を解決するために,大規模画像から多様なIMUセンシングタスクへの事前学習表現を適応させるIGG2IMUを提案する。 センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。 さらに、IMUセンシングアプリケーションにおいて、モデルが特に影響のある知識を得られるように、画像に対するセンサ対応事前学習手法を提案する。 これは、センサデータの性質に合わせてカスタマイズされた拡張セットにコントラスト学習を使用することを含む。 4つの異なるIMUセンシングタスクを用いて評価したところ、ICG2IMUはセンサーデータ上で事前学習されたベースラインを平均9.6%p F1スコアで上回り、限られたトレーニングデータしか利用できないIMUセンシングアプリケーションに視覚知識を組み込むことができることを示した。

Pre-training representations acquired via self-supervised learning could achieve high accuracy on even tasks with small training data. Unlike in vision and natural language processing domains, pre-training for IMU-based applications is challenging, as there are few public datasets with sufficient size and diversity to learn generalizable representations. To overcome this problem, we propose IMG2IMU that adapts pre-trained representation from large-scale images to diverse IMU sensing tasks. We convert the sensor data into visually interpretable spectrograms for the model to utilize the knowledge gained from vision. We further present a sensor-aware pre-training method for images that enables models to acquire particularly impactful knowledge for IMU sensing applications. This involves using contrastive learning on our augmentation set customized for the properties of sensor data. Our evaluation with four different IMU sensing tasks shows that IMG2IMU outperforms the baselines pre-trained on sensor data by an average of 9.6%p F1-score, illustrating that vision knowledge can be usefully incorporated into IMU sensing applications where only limited training data is available.
翻訳日:2024-03-01 19:20:46 公開日:2024-02-29
# リー代数的量子位相還元

Lie Algebraic Quantum Phase Reduction ( http://arxiv.org/abs/2208.12006v3 )

ライセンス: Link先を確認
Wataru Setoyama and Yoshihiko Hasegawa(参考訳) 量子非線形振動子に対する位相還元理論の一般的な枠組みを提案する。 量子軌道理論を用いることで、極限サイクル軌道と位相を確率シュル(schr\"{o}dinger)方程式に従って定義する。 摂動は量子力学におけるユニタリ変換で表されるので、リー代数の生成元に関する位相応答曲線を計算する。 本手法は, 連続測定により位相クラスターが生成し, 位相応答曲線が変化することを示す。 観測可能なクラスターは、密度演算子から得られる間接的な指標とは異なり、個々の量子発振子の位相ダイナミクスを捉える。 さらに,従来の手法を欠いた有限レベルシステムにも適用できる。

We introduce a general framework of phase reduction theory for quantum nonlinear oscillators. By employing the quantum trajectory theory, we define the limit-cycle trajectory and the phase according to a stochastic Schr\"{o}dinger equation. Because a perturbation is represented by unitary transformation in quantum dynamics, we calculate phase response curves with respect to generators of a Lie algebra. Our method shows that the continuous measurement yields phase clusters and alters the phase response curves. The observable clusters capture the phase dynamics of individual quantum oscillators, unlike indirect indicators obtained from density operators. Furthermore, our method can be applied to finite-level systems that lack classical counterparts.
翻訳日:2024-03-01 19:20:23 公開日:2024-02-29
# トランスファービリティによるクロスドメイン・クロスタスク・トランスファー学習

Transferability-Guided Cross-Domain Cross-Task Transfer Learning ( http://arxiv.org/abs/2207.05510v2 )

ライセンス: Link先を確認
Yang Tan, Enming Zhang, Yang Li, Shao-Lun Huang, Xiao-Ping Zhang(参考訳) 本稿では,F-OTCE(Fast Optimal Transport based Conditional Entropy)とJC-OTCE(Joint Cor correspondingence OTCE)の2つの新しいトランスファービリティ指標を提案する。 補助作業における経験的伝達性の評価を必要とする既存のメトリクスとは異なり、我々のメトリクスはより効率的に計算できるように補助的ではない。 具体的には、F-OTCEは、まずソースとターゲットの分布間の最適輸送(OT)問題を解き、次に最適結合を用いてソースとターゲットのラベル間の負条件エントロピーを計算する。 ターゲットタスクを微調整する前に、ソースモデルの転送可能性を最大化するための損失関数としても機能する。 一方、JC-OTCEは、OT問題にラベル距離を含めることで、F-OTCEの転送可能性の堅牢性を向上させるが、追加の計算コストを発生させる可能性がある。 広範な実験により、f-otce と jc-otce はそれぞれ18.85% と 28.88% の補助的自由度を上回り、接地移動精度との相関係数を示した。 補助的なタスクのトレーニングコストを削減することにより、2つのメトリクスは前のメソッドの計算時間をそれぞれ43分から9.32秒、10.78秒に短縮する。 損失関数として使用すると、F-OTCEは数発の分類実験でソースモデルの転送精度を一貫した改善を示し、精度は4.41%まで向上した。

We propose two novel transferability metrics F-OTCE (Fast Optimal Transport based Conditional Entropy) and JC-OTCE (Joint Correspondence OTCE) to evaluate how much the source model (task) can benefit the learning of the target task and to learn more transferable representations for cross-domain cross-task transfer learning. Unlike the existing metric that requires evaluating the empirical transferability on auxiliary tasks, our metrics are auxiliary-free such that they can be computed much more efficiently. Specifically, F-OTCE estimates transferability by first solving an Optimal Transport (OT) problem between source and target distributions, and then uses the optimal coupling to compute the Negative Conditional Entropy between source and target labels. It can also serve as a loss function to maximize the transferability of the source model before finetuning on the target task. Meanwhile, JC-OTCE improves the transferability robustness of F-OTCE by including label distances in the OT problem, though it may incur additional computation cost. Extensive experiments demonstrate that F-OTCE and JC-OTCE outperform state-of-the-art auxiliary-free metrics by 18.85% and 28.88%, respectively in correlation coefficient with the ground-truth transfer accuracy. By eliminating the training cost of auxiliary tasks, the two metrics reduces the total computation time of the previous method from 43 minutes to 9.32s and 10.78s, respectively, for a pair of tasks. When used as a loss function, F-OTCE shows consistent improvements on the transfer accuracy of the source model in few-shot classification experiments, with up to 4.41% accuracy gain.
翻訳日:2024-03-01 19:20:14 公開日:2024-02-29
# MS-RNN:時空間予測学習のための柔軟なマルチスケールフレームワーク

MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2206.03010v7 )

ライセンス: Link先を確認
Zhifeng Ma, Hao Zhang, and Jie Liu(参考訳) 深層学習の助けを借りて、過去の知識を通じて将来のフレームを予測する時空間予測学習は、多くの分野で広く使われている。 これまでの作業では,ネットワークの拡大あるいは深化によるモデルパフォーマンスの向上が基本的に行われていたが,メモリオーバーヘッドの増加によって,このテクノロジの開発や適用が著しく妨げられている。 メモリ消費を増大させることなく性能を向上させるため,我々はモデル性能を改善するための別の次元であるスケールに注力する。 この効果は画像分類やセマンティックセグメンテーションといった多くのCNNベースのタスクで広く実証されてきたが、近年のRNNモデルでは十分に研究されていない。 本稿では,マルチスケールの利点から学習し,時空間予測学習のための最近のrnnモデルを強化するために,マルチスケールrnn(ms-rnn)という汎用フレームワークを提案する。 実験には8つのRNNモデル(ConvLSTM、TrajGRU、PredRNN、PredRNN++、MIM、MotionRNN、PredRNN-V2、PrecipLSTM)と4つのデータセット(MNIST、TaxiBJ、KTH、ドイツ)が使用されている。 結果は、我々のフレームワークを組み込んだrnnモデルが、メモリコストがずっと低く、以前よりもパフォーマンスが良い効率を示す。 私たちのコードは \url{https://github.com/mazhf/ms-rnn} でリリースされる。

Spatiotemporal predictive learning, which predicts future frames through historical prior knowledge with the aid of deep learning, is widely used in many fields. Previous work essentially improves the model performance by widening or deepening the network, but it also brings surging memory overhead, which seriously hinders the development and application of this technology. In order to improve the performance without increasing memory consumption, we focus on scale, which is another dimension to improve model performance but with low memory requirement. The effectiveness has been widely demonstrated in many CNN-based tasks such as image classification and semantic segmentation, but it has not been fully explored in recent RNN models. In this paper, learning from the benefit of multi-scale, we propose a general framework named Multi-Scale RNN (MS-RNN) to boost recent RNN models for spatiotemporal predictive learning. We verify the MS-RNN framework by thorough theoretical analyses and exhaustive experiments, where the theory focuses on memory reduction and performance improvement while the experiments employ eight RNN models (ConvLSTM, TrajGRU, PredRNN, PredRNN++, MIM, MotionRNN, PredRNN-V2, and PrecipLSTM) and four datasets (Moving MNIST, TaxiBJ, KTH, and Germany). The results show the efficiency that RNN models incorporating our framework have much lower memory cost but better performance than before. Our code is released at \url{https://github.com/mazhf/MS-RNN}.
翻訳日:2024-03-01 19:19:31 公開日:2024-02-29
# ランダム局所量子力学における量子複雑性の飽和と再帰

Saturation and recurrence of quantum complexity in random local quantum dynamics ( http://arxiv.org/abs/2205.09734v2 )

ライセンス: Link先を確認
Micha{\l} Oszmaniec, Marcin Kotowski, Micha{\l} Horodecki, Nicholas Hunter-Jones(参考訳) 量子複雑性 (quantum complexity) とは、与えられた状態またはユニタリチャネルをおよそ準備するために必要な基本演算数の最小値である。 近年、量子多体系のダイナミクスとadsブラックホールの長期特性の研究において、この概念は量子コンピューティングを超えて応用されている。 この文脈において、ブラウンとサスキンドはカオス量子系の複雑性は、系の大きさで指数関数的に最大倍まで線形に成長し、最大値で飽和し、二重指数時間で再帰するまで最大複雑に保たれると予想した。 本研究はカオス時間進化の2つのモデルにおける複雑性の飽和と再発の証明である。 (i)ランダム局所量子回路及び (ii)確率的局所ハミルトン進化。 その結果、カオス量子系の長期的挙動の理解が進み、ブラックホールの内部の物理に光を当てることができた。 技術的な観点からは,ハール測度と高次近似設計との新たな定量的関係の確立と,十分に高い深さのランダム量子回路が近似設計に収束するという事実に基づいている。

Quantum complexity is a measure of the minimal number of elementary operations required to approximately prepare a given state or unitary channel. Recently, this concept has found applications beyond quantum computing -- in studying the dynamics of quantum many-body systems and the long-time properties of AdS black holes. In this context Brown and Susskind \cite{BrownSusskind17} conjectured that the complexity of a chaotic quantum system grows linearly in time up to times exponential in the system size, saturating at a maximal value, and remaining maximally complex until undergoing recurrences at doubly-exponential times. In this work we prove the saturation and recurrence of complexity in two models of chaotic time evolutions based on (i) random local quantum circuits and (ii) stochastic local Hamiltonian evolution. Our results advance an understanding of the long-time behaviour of chaotic quantum systems and could shed light on the physics of black hole interiors. From a technical perspective our results are based on establishing new quantitative connections between the Haar measure and high-degree approximate designs, as well as the fact that random quantum circuits of sufficiently high depth converge to approximate designs.
翻訳日:2024-03-01 19:18:53 公開日:2024-02-29
# 3dシーンストリーミングとハンドインタラクションを用いたarによるロボット手術遠隔指導

Robotic Surgery Remote Mentoring via AR with 3D Scene Streaming and Hand Interaction ( http://arxiv.org/abs/2204.04377v2 )

ライセンス: Link先を確認
Yonghao Long, Chengkun Li, and Qi Dou(参考訳) ロボット手術の普及に伴い、患者の安全のためには、教育がますます重要かつ緊急に必要となる。 しかし、経験豊富な外科医は、多忙な臨床スケジュールや遠く離れた都市で働くため、初心者に十分な教育資源を提供できない。 リモートメンタリングは、効果的な方法でこの問題を解決するのに役立つが、従来の手法は、直感的でも鮮明でもない、平易なテキスト、オーディオ、あるいは2Dビデオに限られる。 さまざまな教育シナリオで広く利用されている拡張現実(ar)は、視覚体験とインタラクティブな教育の新しい可能性を提供することを約束している。 本稿では,3次元シーンの効率的な可視化と自然な3次元手操作による遠隔指導システムを提案する。 ヘッドマウントディスプレイ(HoloLens)を使用して、メンターは訓練者の操作側から流れる手順を遠隔で監視することができる。 メンターは、インターンで研修生に送信され、手術コンソールでガイダンスとして見られる手振りでフィードバックを直接提供することもできる。 実際の手術ステレオビデオと、ロボットの一般的な訓練タスク(ペグ転送と縫合)のvivoシナリオの両方において、システムを総合的に検証する。 遠隔メンタリングシステム全体において,ストリーム映像の忠実度,手作業によるフィードバックの精度,各コンポーネントの低遅延性について有望な結果が得られた。 この研究は、ロボット外科教育に対する信頼性、柔軟性、低コストのソリューションにAR技術を活用する可能性を示し、臨床応用に大きな可能性を秘めている。

With the growing popularity of robotic surgery, education becomes increasingly important and urgently needed for the sake of patient safety. However, experienced surgeons have limited accessibility due to their busy clinical schedule or working in a distant city, thus can hardly provide sufficient education resources for novices. Remote mentoring, as an effective way, can help solve this problem, but traditional methods are limited to plain text, audio, or 2D video, which are not intuitive nor vivid. Augmented reality (AR), a thriving technique being widely used for various education scenarios, is promising to offer new possibilities of visual experience and interactive teaching. In this paper, we propose a novel AR-based robotic surgery remote mentoring system with efficient 3D scene visualization and natural 3D hand interaction. Using a head-mounted display (i.e., HoloLens), the mentor can remotely monitor the procedure streamed from the trainee's operation side. The mentor can also provide feedback directly with hand gestures, which is in-turn transmitted to the trainee and viewed in surgical console as guidance. We comprehensively validate the system on both real surgery stereo videos and ex-vivo scenarios of common robotic training tasks (i.e., peg-transfer and suturing). Promising results are demonstrated regarding the fidelity of streamed scene visualization, the accuracy of feedback with hand interaction, and the low-latency of each component in the entire remote mentoring system. This work showcases the feasibility of leveraging AR technology for reliable, flexible and low-cost solutions to robotic surgical education, and holds great potential for clinical applications.
翻訳日:2024-03-01 19:18:18 公開日:2024-02-29
# 3つの射影ビューに対する臨界構成

Critical configurations for three projective views ( http://arxiv.org/abs/2112.05478v4 )

ライセンス: Link先を確認
Martin Br{\aa}telund(参考訳) 動きからの構造の問題とは、未知のカメラが撮影した2次元画像の集合から物体の3次元構造を復元することである。 一般に、十分な画像と点対応が提供されると、すべての情報を一意に復元できるが、一意の回復が不可能なケースもある。 3つの投影型カメラの臨界配置を研究するために代数的手法を用いる。 すべての臨界構成は二次曲面の交叉上にあり、どの交叉が臨界配置を構成するかを正確に分類する。

The problem of structure from motion is concerned with recovering the 3-dimensional structure of an object from a set of 2-dimensional images taken by unknown cameras. Generally, all information can be uniquely recovered if enough images and point correspondences are provided, yet there are certain cases where unique recovery is impossible; these are called critical configurations. We use an algebraic approach to study the critical configurations for three projective cameras. We show that all critical configurations lie on the intersection of quadric surfaces, and classify exactly which intersections constitute a critical configuration.
翻訳日:2024-03-01 19:17:18 公開日:2024-02-29
# 折り畳みスペクトルvqe : 分子励起状態の量子計算法

Folded Spectrum VQE : A quantum computing method for the calculation of molecular excited states ( http://arxiv.org/abs/2305.04783v2 )

ライセンス: Link先を確認
Lila Cadi Tazi and Alex J.W. Thom(参考訳) 最近の量子コンピューティングの発展は、量子コンピュータの計算能力の増大によって電子構造問題を自然にエンコードし、解くことができるため、量子化学の潜在的な新しい経路をもたらす。 化学のための理論的に正確な量子アルゴリズム(例えば量子位相推定)が提案されているが、現在のノイズの多い中間スケール量子デバイス(nisq)の能力の制限は、より需要の少ないハイブリッドアルゴリズムの開発を動機付けた。 この文脈では、小分子の基底状態エネルギーを計算する効果的な方法として、変分量子固有解法(VQE)アルゴリズムがうまく導入された。 本研究は分子励起状態の計算のためのVQEアルゴリズムの拡張としてFolded Spectrum (FS)法について検討する。 選択された目標エネルギーの周りの励起状態を直接計算し、基底状態の計算と同じアンザッツを使用することができる。 量子モンテカルロ文献の分散に基づく手法にインスパイアされたFS法はエネルギーの分散を最小限に抑え、計算コストのかかる2乗ハミルトン式を必要とする。 我々は、同時に評価できる交換するパウリ弦の集合を識別し、パウリ群化手順を用いることにより、この潜在的に貧弱なスケーリングを緩和する。 これにより計算コストが大幅に削減される。 FS-VQE法を小分子 (H$_2$,LiH) に適用し, 理想的な量子シミュレータ上での化学的精度で全ての電子励起状態を得る。

The recent developments of quantum computing present potential novel pathways for quantum chemistry, as the increased computational power of quantum computers could be harnessed to naturally encode and solve electronic structure problems. Theoretically exact quantum algorithms for chemistry have been proposed (e.g. Quantum Phase Estimation) but the limited capabilities of current noisy intermediate scale quantum devices (NISQ) motivated the development of less demanding hybrid algorithms. In this context, the Variational Quantum Eigensolver (VQE) algorithm was successfully introduced as an effective method to compute the ground state energy of small molecules. The current study investigates the Folded Spectrum (FS) method as an extension to the VQE algorithm for the computation of molecular excited states. It provides the possibility of directly computing excited states around a selected target energy, using the same ansatz as for the ground state calculation. Inspired by the variance-based methods from the Quantum Monte Carlo literature, the FS method minimizes the energy variance, thus requiring a computationally expensive squared Hamiltonian. We alleviate this potentially poor scaling by employing a Pauli grouping procedure, identifying sets of commuting Pauli strings that can be evaluated simultaneously. This allows for a significant reduction of the computational cost. We apply the FS-VQE method to small molecules (H$_2$,LiH), obtaining all electronic excited states with chemical accuracy on ideal quantum simulators.
翻訳日:2024-03-01 19:13:38 公開日:2024-02-29
# 言語分類による単言語BERTの言語学的特性の探索

Exploring Linguistic Properties of Monolingual BERTs with Typological Classification among Languages ( http://arxiv.org/abs/2305.02215v2 )

ライセンス: Link先を確認
Elena Sofia Ruzzetti, Federico Ranaldi, Felicia Logozzo, Michele Mastromattei, Leonardo Ranaldi, Fabio Massimo Zanzotto(参考訳) トランスフォーマーの素晴らしい成果は、NLP研究者に、これらのモデルが自然言語の基盤構造をどのように表現しているかを探求させる。 本稿では,言語間の類型的類似性を用いて,それぞれのモノリンガルモデルがどのように構造情報を符号化するかを観察する。 これらの類似性が特定の層に現れるかどうかを観察するために、類型的に類似した言語でトランスフォーマーをレイヤ単位で比較することを目指している。 本研究では,重み行列間の類似度を測定するためにCentered Kernel Alignmentを提案する。 その結果,構文的タイポロジー的類似性は,構文エンコーディングが一般的に引き起こされる事前学習されたbert層である中間層における重み間の類似性と一致することがわかった。 さらに,意味的に等価なテキストに対するドメイン適応は,重み行列間の類似性を高める。

The impressive achievements of transformers force NLP researchers to delve into how these models represent the underlying structure of natural language. In this paper, we propose a novel standpoint to investigate the above issue: using typological similarities among languages to observe how their respective monolingual models encode structural information. We aim to layer-wise compare transformers for typologically similar languages to observe whether these similarities emerge for particular layers. For this investigation, we propose to use Centered Kernel Alignment to measure similarity among weight matrices. We found that syntactic typological similarity is consistent with the similarity between the weights in the middle layers, which are the pretrained BERT layers to which syntax encoding is generally attributed. Moreover, we observe that a domain adaptation on semantically equivalent texts enhances this similarity among weight matrices.
翻訳日:2024-03-01 19:13:13 公開日:2024-02-29
# グラフ構造データに基づくマルチラベルノード分類

Multi-label Node Classification On Graph-Structured Data ( http://arxiv.org/abs/2304.10398v4 )

ライセンス: Link先を確認
Tianqi Zhao, Ngan Thi Dong, Alan Hanjalic, Megha Khosla(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のノード分類タスクの最先端の改善を示している。 これらの改善は、多クラス分類シナリオで大きく実証されているが、各ノードが複数のラベルを持つことができるより一般的で現実的なシナリオは、これまでほとんど注目されなかった。 マルチラベルノード分類に焦点をあてる最初の課題は、公開されているマルチラベルグラフデータセットの限られた数である。 したがって、最初の貢献として、3つの実世界の生物学的データセットを収集し、リリースし、チューニング可能なプロパティを持つデータセットを生成するマルチラベルグラフジェネレータを開発しました。 高いラベル類似性(高いホモフィリー)は通常、GNNの成功によるものであるが、我々は、マルチラベルシナリオは、これまでマルチクラスシナリオで定義されたホモフィリーとヘテロフィリーの通常の意味論に従わないと論じる。 2つ目のコントリビューションとして、マルチラベルシナリオに対するホモフィリーおよびクロスクラス近傍類似性を定義し、収集した9ドルのマルチラベルデータセットを徹底的に分析する。 最後に,8ドルのメソッドと9ドルのデータセットを用いた大規模比較研究を行い,マルチラベルノード分類シナリオにおける最先端の成果を評価するための手法の性能分析を行った。 ベンチマークはhttps://github.com/tianqi-py/mlgncでリリースします。

Graph Neural Networks (GNNs) have shown state-of-the-art improvements in node classification tasks on graphs. While these improvements have been largely demonstrated in a multi-class classification scenario, a more general and realistic scenario in which each node could have multiple labels has so far received little attention. The first challenge in conducting focused studies on multi-label node classification is the limited number of publicly available multi-label graph datasets. Therefore, as our first contribution, we collect and release three real-world biological datasets and develop a multi-label graph generator to generate datasets with tunable properties. While high label similarity (high homophily) is usually attributed to the success of GNNs, we argue that a multi-label scenario does not follow the usual semantics of homophily and heterophily so far defined for a multi-class scenario. As our second contribution, we define homophily and Cross-Class Neighborhood Similarity for the multi-label scenario and provide a thorough analyses of the collected $9$ multi-label datasets. Finally, we perform a large-scale comparative study with $8$ methods and $9$ datasets and analyse the performances of the methods to assess the progress made by current state of the art in the multi-label node classification scenario. We release our benchmark at https://github.com/Tianqi-py/MLGNC.
翻訳日:2024-03-01 19:12:57 公開日:2024-02-29
# 人工ニューラルネットワークによるGDPの今 : 長期記憶はどれくらい重要か?

GDP nowcasting with artificial neural networks: How much does long-term memory matter? ( http://arxiv.org/abs/2304.05805v3 )

ライセンス: Link先を確認
Krist\'of N\'emeth, D\'aniel Hadh\'azi(参考訳) 我々は、米国経済の四半期GDP成長を予測するために、人工知能ニューラルネットワーク(ANN)を適用した。 月刊のfred-mdデータベースを用いて,多層型パーセプトロン (mlp), 1次元畳み込みニューラルネットワーク (1d cnn), elman recurrent neural network (rnn), long short-term memory network (lstm), gated recurrent unit (gru) の5つのアーキテクチャの現在キャスト性能を比較した。 経験分析は、2つの異なる評価期間の結果を提示する。 第1期(2012:q1 -- 2019:q4)はバランスの取れた経済成長を特徴とし、第2期(2012:q1 -- 2022:q4)は新型コロナウイルスの景気後退の時期も含まれる。 以上の結果から、より長い入力シーケンスは、バランスの取れた経済成長の期間において、より正確な結果をもたらす。 しかし、この効果は比較的低いしきい値である約6/4(18ヶ月)以上で停止する。 経済の混乱(例えば、COVID-19の景気後退)の間、より長い入力シーケンスはモデルの予測性能に役立ちず、代わりに一般化能力を弱めるように思われる。 2つの評価期間の組合せの結果は、長期記憶が可能なアーキテクチャ上の特徴がより正確でないことを示している。 ネットワークアーキテクチャと比較すると、1D CNNはGDPのストリーミングに非常に適したモデルであることが証明されている。 ネットワークは,第1評価期間中の競技者間で良好な放送性能を示し,第2評価期間中の総合的精度を達成した。 そこで本研究では,まず,1D CNN の経済放送への応用を提案する。

We apply artificial neural networks (ANNs) to nowcast quarterly GDP growth for the U.S. economy. Using the monthly FRED-MD database, we compare the nowcasting performance of five different ANN architectures: the multilayer perceptron (MLP), the one-dimensional convolutional neural network (1D CNN), the Elman recurrent neural network (RNN), the long short-term memory network (LSTM), and the gated recurrent unit (GRU). The empirical analysis presents results from two distinctively different evaluation periods. The first (2012:Q1 -- 2019:Q4) is characterized by balanced economic growth, while the second (2012:Q1 -- 2022:Q4) also includes periods of the COVID-19 recession. According to our results, longer input sequences result in more accurate nowcasts in periods of balanced economic growth. However, this effect ceases above a relatively low threshold value of around six quarters (eighteen months). During periods of economic turbulence (e.g., during the COVID-19 recession), longer input sequences do not help the models' predictive performance; instead, they seem to weaken their generalization capability. Combined results from the two evaluation periods indicate that architectural features enabling long-term memory do not result in more accurate nowcasts. Comparing network architectures, the 1D CNN has proved to be a highly suitable model for GDP nowcasting. The network has shown good nowcasting performance among the competitors during the first evaluation period and achieved the overall best accuracy during the second evaluation period. Consequently, first in the literature, we propose the application of the 1D CNN for economic nowcasting.
翻訳日:2024-03-01 19:12:34 公開日:2024-02-29
# 連続学習表現における知識蓄積と特徴提示の課題

Knowledge Accumulation in Continually Learned Representations and the Issue of Feature Forgetting ( http://arxiv.org/abs/2304.00933v3 )

ライセンス: Link先を確認
Timm Hess, Eli Verwimp, Gido M. van de Ven, Tinne Tuytelaars(参考訳) 継続的な学習研究は、ニューラルネットワークが「出力レベルで」破滅的な忘れに苦しむことを示したが、これが学習表現のレベルでも同様であるかどうかも議論されている。 複数の最近の研究は、忘れることに対して固有の頑健さのレベルを表現している ― 最小限にしか忘れず、批判的な情報もない。 記憶の蓄積と特徴の忘れという2つの現象の共存が、継続的に学習される表現の質に影響を与えることを示す実験を再考し、拡張する。 両方の側面を慎重に考慮すると、機能忘れることは絶対的な意味では小さいが、新しく学習された情報は出力レベルの表現のレベルで壊滅的に忘れられがちであることを示している。 次に、知識の蓄積を大幅に遅らせるため、この機能を忘れることは問題であることを示す。 最後に,機能忘れと知識蓄積が,継続学習法の種類によってどのように影響を受けるかを検討する。

Continual learning research has shown that neural networks suffer from catastrophic forgetting "at the output level", but it is debated whether this is also the case at the level of learned representations. Multiple recent studies ascribe representations a certain level of innate robustness against forgetting - that they only forget minimally and no critical information. We revisit and expand upon the experiments that revealed this difference in forgetting and illustrate the coexistence of two phenomena that affect the quality of continually learned representations: knowledge accumulation and feature forgetting. Carefully taking both aspects into account, we show that, even though it is true that feature forgetting can be small in absolute terms, newly learned information tends to be forgotten just as catastrophically at the level of the representation as it is at the output level. Next we show that this feature forgetting is problematic as it substantially slows down knowledge accumulation. Finally, we study how feature forgetting and knowledge accumulation are affected by different types of continual learning methods.
翻訳日:2024-03-01 19:12:02 公開日:2024-02-29
# 到達可能な集合の凸ハル

Convex Hulls of Reachable Sets ( http://arxiv.org/abs/2303.17674v3 )

ライセンス: Link先を確認
Thomas Lew, Riccardo Bonalli, Marco Pavone(参考訳) 有界乱れと不確実な初期条件を有する非線形系の到達可能な集合の凸殻について検討する。 到達可能な集合は制御において重要な役割を果たすが、計算が困難であることで知られており、既存の過剰近似ツールは保守的あるいは計算的に高価である傾向がある。 本研究では、到達可能な集合の凸殻を、球面上の初期条件を持つ常微分方程式の解の凸殻として特徴づける。 この有限次元キャラクタリゼーションは、より効率的なサンプリングに基づく推定アルゴリズムを解き、到達可能な集合を精度良く満たす。 また, 到達可能な凸船体の境界構造と推定アルゴリズムの誤差境界の導出について検討した。 ニューラルフィードバックループ解析とロバストMPCへの応用について述べる。

We study the convex hulls of reachable sets of nonlinear systems with bounded disturbances and uncertain initial conditions. Reachable sets play a critical role in control, but remain notoriously challenging to compute, and existing over-approximation tools tend to be conservative or computationally expensive. In this work, we characterize the convex hulls of reachable sets as the convex hulls of solutions of an ordinary differential equation with initial conditions on the sphere. This finite-dimensional characterization unlocks an efficient sampling-based estimation algorithm to accurately over-approximate reachable sets. We also study the structure of the boundary of the reachable convex hulls and derive error bounds for the estimation algorithm. We give applications to neural feedback loop analysis and robust MPC.
翻訳日:2024-03-01 19:11:45 公開日:2024-02-29
# ランゲヴィン型モンテカルロアルゴリズムの非漸近解析

Non-asymptotic analysis of Langevin-type Monte Carlo algorithms ( http://arxiv.org/abs/2303.12407v5 )

ライセンス: Link先を確認
Shogo Nakakita(参考訳) 我々はgibbs分布からのサンプリングのためのlangevin型アルゴリズムについて検討し、ポテンシャルが散逸し、その弱い勾配は必ずしもゼロに収束するとは限らない連続性の有限モジュラーを持つことを示した。 我々の主な結果は、ギブス分布と一般ランジュバン型アルゴリズムの法則との間の2-wasserstein距離の非漸近上界であり、リプツァー-シリャエフ理論とポアンカル\'{e}不等式に基づいている。 これを適用すると、ランゲヴィンモンテカルロアルゴリズムは、ポテンシャルが散逸的であり、勾配が一様連続である場合、ギブス分布を任意の精度で近似できることを示す。 また、凸性や連続微分性のない分布に対して球面平滑化を有するランゲヴィン型アルゴリズムを提案する。

We study Langevin-type algorithms for sampling from Gibbs distributions such that the potentials are dissipative and their weak gradients have finite moduli of continuity not necessarily convergent to zero. Our main result is a non-asymptotic upper bound of the 2-Wasserstein distance between a Gibbs distribution and the law of general Langevin-type algorithms based on the Liptser--Shiryaev theory and Poincar\'{e} inequalities. We apply this bound to show that the Langevin Monte Carlo algorithm can approximate Gibbs distributions with arbitrary accuracy if the potentials are dissipative and their gradients are uniformly continuous. We also propose Langevin-type algorithms with spherical smoothing for distributions whose potentials are not convex or continuously differentiable.
翻訳日:2024-03-01 19:11:35 公開日:2024-02-29
# SU(N):多変量量子ゲートと勾配

Here comes the SU(N): multivariate quantum gates and gradients ( http://arxiv.org/abs/2303.11355v2 )

ライセンス: Link先を確認
Roeland Wiersema, Dylan Lewis, David Wierichs, Juan Carrasquilla and Nathan Killoran(参考訳) 変分量子アルゴリズムは、計算問題を解決するためにパラメトリズド量子回路の最適パラメータを見つけるために非凸最適化法を用いる。 パラメータ化されたゲートからなる回路 ansatz の選択は、これらのアルゴリズムの成功に不可欠である。 ここでは、特殊ユニタリ群 $\mathrm{SU}(N)$ を完全にパラメータ化するゲートを提案する。 このゲートは非交換演算子の和によって生成され、量子ハードウェア上の勾配を計算する方法を提供する。 さらに、リー代数理論の結果を用いてこれらの勾配を計算する計算複雑性の定理を提供する。 そこで,従来のパラメータシフト法をさらに一般化する。 提案するゲートとその最適化が量子速度限界を満たし、ユニタリ群上の測地線を生じさせることを示した。 最後に,本手法の実現可能性を支える数値的な証拠を与え,標準ゲート分解スキームに対する我々のゲートの利点を示す。 その際, ansatzの表現可能性が重要であるだけでなく, 明示的にパラメータ化されていることも示している。

Variational quantum algorithms use non-convex optimization methods to find the optimal parameters for a parametrized quantum circuit in order to solve a computational problem. The choice of the circuit ansatz, which consists of parameterized gates, is crucial to the success of these algorithms. Here, we propose a gate which fully parameterizes the special unitary group $\mathrm{SU}(N)$. This gate is generated by a sum of non-commuting operators, and we provide a method for calculating its gradient on quantum hardware. In addition, we provide a theorem for the computational complexity of calculating these gradients by using results from Lie algebra theory. In doing so, we further generalize previous parameter-shift methods. We show that the proposed gate and its optimization satisfy the quantum speed limit, resulting in geodesics on the unitary group. Finally, we give numerical evidence to support the feasibility of our approach and show the advantage of our gate over a standard gate decomposition scheme. In doing so, we show that not only the expressibility of an ansatz matters, but also how it's explicitly parameterized.
翻訳日:2024-03-01 19:11:19 公開日:2024-02-29
# lion: 暗黙の視覚プロンプトチューニング

LION: Implicit Vision Prompt Tuning ( http://arxiv.org/abs/2303.09992v2 )

ライセンス: Link先を確認
Haixin Wang, Jianlong Chang, Xiao Luo, Jinan Sun, Zhouchen Lin, Qi Tian(参考訳) 近年の視覚タスク間の競合性能にもかかわらず、視覚変換器には計算コストの重い問題がある。 近年、視覚素早い学習は、大規模なモデル全体を微調整することなく、この問題に対する経済的解決策を提供している。 しかしながら、既存のモデルの効率は、広範囲なプロンプトブロックとトリックプロンプトの設計が挿入されたため、まだ満足できない。 本稿では,様々な複雑なタスクに対して,メモリコストの安定な暗黙的モデルによって動機付けられた,p ImpLicit vIsion prOmpt tuNing (LION) という効率的な視覚モデルを提案する。 特に、トレーニング済みのメインバックボーンの両端に2つの平衡暗黙の層を投射するだけで、バックボーンのパラメータは凍結した。 さらに,この2つの層におけるパラメータを,宝くじ仮説により推定する。 当社のライオンが獲得したパフォーマンスは,幅広いデータセットにおいて有望である。 特にLIONはトレーニングパラメータの最大11.5%を削減し、最先端のベースラインVPTよりも高いパフォーマンスを実現しています。 さらに,提案する LION の一般化性能が良好であることから,将来的なトランスファー学習の促進も容易であることがわかった。

Despite recent competitive performance across a range of vision tasks, vision Transformers still have an issue of heavy computational costs. Recently, vision prompt learning has provided an economic solution to this problem without fine-tuning the whole large-scale models. However, the efficiency of existing models are still far from satisfactory due to insertion of extensive prompts blocks and trick prompt designs. In this paper, we propose an efficient vision model named impLicit vIsion prOmpt tuNing (LION), which is motivated by deep implicit models with stable memory costs for various complex tasks. In particular, we merely insect two equilibrium implicit layers in two ends of the pre-trained main backbone with parameters in the backbone frozen. Moreover, we prune the parameters in these two layers according to lottery hypothesis. The performance obtained by our LION are promising on a wide range of datasets. In particular, our LION reduces up to 11.5% of training parameter numbers while obtaining higher performance compared with the state-of-the-art baseline VPT, especially under challenging scenes. Furthermore, we find that our proposed LION had a good generalization performance, making it an easy way to boost transfer learning in the future.
翻訳日:2024-03-01 19:11:05 公開日:2024-02-29
# 胸部X線による疾患検出のためのコンテンツ認識型不変モデルによる未確認領域への一般化の学習

Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Model for Disease Detection from Chest X-rays ( http://arxiv.org/abs/2302.13991v5 )

ライセンス: Link先を確認
Mohammad Zunaed, Md. Aynal Haque, Taufiq Hasan(参考訳) 分布の不一致による性能低下は、知的イメージング、特に胸部x線(cxr)における長年の課題である。 近年の研究では、cnnは人間の視覚システムとは対照的に、内容(例えば形状)よりもスタイル(例えば、非形成テクスチャ)に偏っていることが示されている。 放射線学者は、CXRから視覚的手がかりを学び、複数の領域でよく機能する傾向にある。 そこで我々は、画像(SRM-IL)と特徴(SRM-FL)の両方において、新しいオンザフライスタイルのランダム化モジュールを使用し、リッチなスタイルの摂動機能を作成しながら、コンテンツが堅牢なクロスドメインパフォーマンスを維持する。 従来の方法は、補間や既存のデータからのスタイル交換を通じて新しいスタイルを構築し、トレーニング中に利用可能なソースドメインに制限することで、目に見えないドメインをシミュレートする。 しかし、SRM-ILはトレーニングデータの代わりに、CXR画像の可能な値範囲からスタイル統計をサンプリングし、より多様化された拡張を実現する。 さらに,srm-flにおけるピクセル単位の学習可能なパラメータと,予め定義されたチャネル単位の平均と標準偏差を,より代表的なスタイル特徴をキャプチャするスタイル埋め込みとして利用する。 さらに,同一のcxrのスタイル摂動バージョンの有無によるグローバル意味的特徴と予測分布の一貫性を定式化し,正確な予測のためにコンテンツマーカーに対するモデルの感度を微調整する。 提案手法はCheXpertおよびMIMIC-CXRデータセットに基づいて, 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%)を未確認領域試験データセット(BRAX, VinDr-CXR, NIH chest X-ray14)上で達成し, それぞれ75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19を, 胸腺疾患分類における統計的に有意な結果を得た5次クロスバリデーションモデルから得られた。

Performance degradation due to distribution discrepancy is a longstanding challenge in intelligent imaging, particularly for chest X-rays (CXRs). Recent studies have demonstrated that CNNs are biased toward styles (e.g., uninformative textures) rather than content (e.g., shape), in stark contrast to the human vision system. Radiologists tend to learn visual cues from CXRs and thus perform well across multiple domains. Motivated by this, we employ the novel on-the-fly style randomization modules at both image (SRM-IL) and feature (SRM-FL) levels to create rich style perturbed features while keeping the content intact for robust cross-domain performance. Previous methods simulate unseen domains by constructing new styles via interpolation or swapping styles from existing data, limiting them to available source domains during training. However, SRM-IL samples the style statistics from the possible value range of a CXR image instead of the training data to achieve more diversified augmentations. Moreover, we utilize pixel-wise learnable parameters in the SRM-FL compared to pre-defined channel-wise mean and standard deviations as style embeddings for capturing more representative style features. Additionally, we leverage consistency regularizations on global semantic features and predictive distributions from with and without style-perturbed versions of the same CXR to tweak the model's sensitivity toward content markers for accurate predictions. Our proposed method, trained on CheXpert and MIMIC-CXR datasets, achieves 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%) on the unseen domain test datasets, i.e., BRAX, VinDr-CXR, and NIH chest X-ray14, respectively, compared to 75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19 from state-of-the-art models on five-fold cross-validation with statistically significant results in thoracic disease classification.
翻訳日:2024-03-01 19:10:26 公開日:2024-02-29
# 前立腺癌診断とGleason gradingのためのフェデレーション・コントラスト学習モデル

Federated attention contrastive learning models for prostate cancer diagnosis and Gleason grading ( http://arxiv.org/abs/2302.06089v4 )

ライセンス: Link先を確認
Fei Kong, Xiyue Wang, Jinxi Xiang, Sen Yang, Xinran Wang, Meng Yue, Jun Zhang, Junhan Zhao, Xiao Han, Yuhan Dong, Biyue Zhu, Fang Wang, Yueping Liu(参考訳) 人工知能(AI)は、医療画像の革新、診断の改善、治療方法の精錬において大きな可能性を秘めている。 しかし、AIモデルのトレーニングは広範なマルチセンターデータセットに依存しており、データプライバシ保護に関する懸念から潜在的な課題が提示される。 フェデレーション学習は、生データを共有せずに、複数のセンタをまたがるコラボレーティブモデルを可能にするソリューションを提供する。 本研究では,大規模病理画像とデータの不均一性に関連する課題に対処するため,facl(federated attention contrastive learning)フレームワークを提案する。 FACLは、ローカルクライアントとサーバモデル間の注意の一貫性を最大化することで、モデルの一般化を改善する。 プライバシーを高め、堅牢性を検証するため、パラメータ転送時にノイズを導入することで差分プライバシーを統合する。 複数施設から得られた前立腺癌19,461例のスライド画像を用いて,がん診断およびGleason gradingタスクにおけるFACLの有効性を検討した。 診断タスクでは、FACLは曲線(AUC)の0.9718未満の領域を達成し、カテゴリーが比較的バランスの取れた場合に平均AUCが0.9499の7つのセンターを上回っている。 グリーソングレーディングタスクでは、FACLはカッパスコア0.8463を獲得し、6つのセンターから平均カッパスコア0.7379を超えた。 結論として、FACLは、効果的なデータ保護を維持しながら、前立腺癌病理のための堅牢で正確で費用対効果の高いAIトレーニングモデルを提供する。

Artificial intelligence (AI) shows great promise in revolutionizing medical imaging, improving diagnosis, and refining treatment methods. However, the training of AI models relies on extensive multi-center datasets, presenting a potential challenge due to concerns about data privacy protection. Federated learning offers a solution by enabling a collaborative model across multiple centers without sharing raw data. In this study, we present a Federated Attention Contrastive Learning (FACL) framework designed to address challenges associated with large-scale pathological images and data heterogeneity. FACL improves model generalization by maximizing attention consistency between the local client and the server model. To enhance privacy and validate robustness, we incorporate differential privacy by introducing noise during parameter transfer. We assess the effectiveness of FACL in cancer diagnosis and Gleason grading tasks using 19,461 whole slide images of prostate cancer sourced from multiple centers. In the diagnosis task, FACL achieves an area under the curve (AUC) of 0.9718, outperforming seven centers whose average AUC is 0.9499 when categories are relatively balanced. In the Gleason grading task, FACL attained a Kappa score of 0.8463, surpassing the average Kappa score of 0.7379 from six centers. In conclusion, FACL offers a robust, accurate, and cost-effective AI training model for prostate cancer pathology while maintaining effective data safeguards.
翻訳日:2024-03-01 19:09:08 公開日:2024-02-29
# 等角化半教師付きランダム森林の分類と異常検出

Conformalized Semi-supervised Random Forest for Classification and Abnormality Detection ( http://arxiv.org/abs/2302.02237v2 )

ライセンス: Link先を確認
Yujin Han, Mingwenchan Xu, Leying Guan(参考訳) 広く使われている市販の分類ツールであるランダムフォレスト分類器は、トレーニングとテストサンプルは他の標準分類器と同じ分布から来ていると仮定している。 しかし、医療診断やネットワークアタック検出のような安全に重要なシナリオでは、トレーニング中に現れない新しい異常なサンプルの存在を含む、トレーニングセットとテストセットの相違が重大な課題となる。 そこで本研究では,共形化手法であるjackknife+abと半教師付きツリーアンサンブルを結合した共形半教師付きランダムフォレスト (csforest) を導入し,集合値予測 $c(x)$ を構成する。 トレーニング分布を最適化する代わりに、csforestはラベルのないテストサンプルを使用して精度を高め、空集合を生成して見当たらない外れ値にフラグを付ける。 理論的には、CSForestはテストデータの任意のラベルシフトの下で、以前に観測された不整性クラスに対して真のラベルをカバーできる。 テスト領域における分布変化の種類によってcsforestを合成例と様々な実世界のデータセットを用いて最先端手法と比較する。 この結果から,CSForestのインレーラの効果的な予測と,テストデータに特有のアウトレーラサンプルの検出が可能となった。 さらにCSForestは、トレーニングとテストセットのサイズが異なるため、持続的に優れたパフォーマンスを示している。 CSForestのコードはhttps://github.com/yujinhan98/CSForestで公開されている。

The Random Forests classifier, a widely utilized off-the-shelf classification tool, assumes training and test samples come from the same distribution as other standard classifiers. However, in safety-critical scenarios like medical diagnosis and network attack detection, discrepancies between the training and test sets, including the potential presence of novel outlier samples not appearing during training, can pose significant challenges. To address this problem, we introduce the Conformalized Semi-Supervised Random Forest (CSForest), which couples the conformalization technique Jackknife+aB with semi-supervised tree ensembles to construct a set-valued prediction $C(x)$. Instead of optimizing over the training distribution, CSForest employs unlabeled test samples to enhance accuracy and flag unseen outliers by generating an empty set. Theoretically, we establish CSForest to cover true labels for previously observed inlier classes under arbitrarily label-shift in the test data. We compare CSForest with state-of-the-art methods using synthetic examples and various real-world datasets, under different types of distribution changes in the test domain. Our results highlight CSForest's effective prediction of inliers and its ability to detect outlier samples unique to the test data. In addition, CSForest shows persistently good performance as the sizes of the training and test sets vary. Codes of CSForest are available at https://github.com/yujinhan98/CSForest.
翻訳日:2024-03-01 19:08:22 公開日:2024-02-29
# RepViT: ViTの視点からモバイルCNNを再考

RepViT: Revisiting Mobile CNN From ViT Perspective ( http://arxiv.org/abs/2307.09283v7 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding(参考訳) 近年、軽量ビジョントランスフォーマー(ViTs)は、リソース制約のあるモバイルデバイス上での軽量畳み込みニューラルネットワーク(CNNs)と比較して、パフォーマンスとレイテンシの低下を実証している。 研究者は、軽量ViTと軽量CNNの間の多くの構造的接続を発見した。 しかしながら、ブロック構造、マクロ、マイクロ設計における顕著なアーキテクチャ上の相違は十分に検討されていない。 本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。 具体的には、軽量VTの効率的なアーキテクチャ設計を統合することで、標準軽量CNNのモバイルフレンドリ性を徐々に強化する。 最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。 大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetによると、RepViTは、iPhone 12の1.0ミリ秒のレイテンシで80%以上のトップ1の精度を実現しています。 さらに、RepViTがSAMと出会うと、我々のRepViT-SAMは、高度なMobileSAMよりも10$\times$高速な推論を達成できます。 コードとモデルは \url{https://github.com/thu-mig/repvit} で利用可能である。

Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency, compared with lightweight Convolutional Neural Networks (CNNs), on resource-constrained mobile devices. Researchers have discovered many structural connections between lightweight ViTs and lightweight CNNs. However, the notable architectural disparities in the block structure, macro, and micro designs between them have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs from ViT perspective and emphasize their promising prospect for mobile devices. Specifically, we incrementally enhance the mobile-friendliness of a standard lightweight CNN, \ie, MobileNetV3, by integrating the efficient architectural designs of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. Notably, on ImageNet, RepViT achieves over 80\% top-1 accuracy with 1.0 ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Besides, when RepViT meets SAM, our RepViT-SAM can achieve nearly 10$\times$ faster inference than the advanced MobileSAM. Codes and models are available at \url{https://github.com/THU-MIG/RepViT}.
翻訳日:2024-03-01 19:03:22 公開日:2024-02-29
# メタラーニングのためのタスクサンプリング学習に向けて

Towards Task Sampler Learning for Meta-Learning ( http://arxiv.org/abs/2307.08924v3 )

ライセンス: Link先を確認
Jingyao Wang, Wenwen Qiang, Xingzhe Su, Changwen Zheng, Fuchun Sun, Hui Xiong(参考訳) メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに移すことを目的としている。 タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。 しかし,本論文は経験的・理論的分析を通じて,この視点に挑戦する。 3つの結論が得られます (i)メタラーニングモデルの最適性能を保証する普遍的なタスクサンプリング戦略は存在しない。 二 過訓練作業の多様性は、訓練中の過適合又は過適合のリスクを負うおそれがある。 (iii)メタラーニングモデルの一般化性能は、タスクの多様性、タスクエントロピー、タスクの難易度に影響される。 この知見に基づき,adaptive sampler (asr) と呼ばれる新しいタスク・サンプラーを設計した。 asrは、どんなメタ学習フレームワークにも統合できるプラグアンドプレイモジュールである。 タスクの多様性、タスクエントロピー、タスクの難易度に応じてタスクウェイトを動的に調整し、メタトレーニングタスクの最適確率分布を得る。 最後に,様々なシナリオにまたがるベンチマークデータセットの実験を行い,asrに明確な利点があることを示す。

Meta-learning aims to learn general knowledge with diverse training tasks conducted from limited data, and then transfer it to new tasks. It is commonly believed that increasing task diversity will enhance the generalization ability of meta-learning models. However, this paper challenges this view through empirical and theoretical analysis. We obtain three conclusions: (i) there is no universal task sampling strategy that can guarantee the optimal performance of meta-learning models; (ii) over-constraining task diversity may incur the risk of under-fitting or over-fitting during training; and (iii) the generalization performance of meta-learning models are affected by task diversity, task entropy, and task difficulty. Based on this insight, we design a novel task sampler, called Adaptive Sampler (ASr). ASr is a plug-and-play module that can be integrated into any meta-learning framework. It dynamically adjusts task weights according to task diversity, task entropy, and task difficulty, thereby obtaining the optimal probability distribution for meta-training tasks. Finally, we conduct experiments on a series of benchmark datasets across various scenarios, and the results demonstrate that ASr has clear advantages.
翻訳日:2024-03-01 19:02:59 公開日:2024-02-29
# 量子共分散スカラー製品と最大射影の効率的な推定

Quantum Covariance Scalar Products and Efficient Estimation of Max-Ent Projections ( http://arxiv.org/abs/2307.08683v2 )

ライセンス: Link先を確認
F.T.B. P\'erez and J. M. Matera(参考訳) 最大エントロピー原理(Max-Ent)は統計力学や量子情報理論において有用かつ広く用いられる道具である。 測定可能な量に関連するパラメータの縮小セットを利用してシステムの状態を推定する方法を提供する。 しかしながら、量子多体系のシミュレーションにmax-entプロジェクションを用いる計算コストは、主にこれらのプロジェクションを評価する計算コストのために大きな欠点となる。 本研究では,max-ent射影を推定する別の手法を提案する。 このアプローチでは、KMB(Kubo-Mori-Bogoliubov)スカラー積で表される高価なMax-Ent誘導局所幾何学を、より計算力の低い幾何学に置き換える。 具体的には、新しい局所幾何学は古典確率変数に対する共分散スカラー積の量子アナログとして定義される。 二つの生成物の誘導距離と射影の関係を考察した。 標準変分法および動的平均場法との接続について論じる。 アプローチの有効性は XX Heisenberg spin-$\frac{1}{2}$ chain model における励起の力学への応用によって校正され、図示される。

The maximum-entropy principle (Max-Ent) is a valuable and extensively used tool in statistical mechanics and quantum information theory. It provides a method for inferring the state of a system by utilizing a reduced set of parameters associated with measurable quantities. However, the computational cost of employing Max-Ent projections in simulations of quantum many-body systems is a significant drawback, primarily due to the computational cost of evaluating these projections. In this work, a different approach for estimating Max-Ent projections is proposed. The approach involves replacing the expensive Max-Ent induced local geometry, represented by the Kubo-Mori-Bogoliubov (KMB) scalar product, with a less computationally demanding geometry. Specifically, a new local geometry is defined in terms of the quantum analog of the covariance scalar product for classical random variables. Relations between induced distances and projections for both products are explored. Connections with standard variational and dynamical Mean-Field approaches are discussed. The effectiveness of the approach is calibrated and illustrated by its application to the dynamic of excitations in a XX Heisenberg spin-$\frac{1}{2}$ chain model.
翻訳日:2024-03-01 19:02:41 公開日:2024-02-29
# ルーティング問題に対する逆最適化

Inverse Optimization for Routing Problems ( http://arxiv.org/abs/2307.07357v2 )

ライセンス: Link先を確認
Pedro Zattoni Scroccaro, Piet van Beek, Peyman Mohajerin Esfahani, Bilge Atasoy(参考訳) Inverse Optimization (IO) を用いたルーティング問題における意思決定者の行動学習手法を提案する。 IOフレームワークは教師付き学習カテゴリに該当し、対象の振る舞いが未知のコスト関数のオプティマイザであるという前提に基づいて構築される。 このコスト関数は、履歴データを通じて学習され、ルーティング問題の文脈では、意思決定者の経路選択として解釈できる。 本研究の主な貢献は,経路問題に適した仮説関数,損失関数,確率的一階アルゴリズムを用いたio手法を提案することである。 私たちはさらに、amazon last mile routing research challengeでioアプローチをテストし、何千もの現実世界のルーティング例を使って、人間のドライバのルーティング好みを再現するモデルを学ぶことを目標にしています。 最終 io-learned routing model は,最終ラウンドに合格した48モデルに対して,ランク2のスコアを達成しています。 提案手法は,ルーティング問題における意思決定者の決定から学ぶための柔軟性と実世界の可能性を示す。

We propose a method for learning decision-makers' behavior in routing problems using Inverse Optimization (IO). The IO framework falls into the supervised learning category and builds on the premise that the target behavior is an optimizer of an unknown cost function. This cost function is to be learned through historical data, and in the context of routing problems, can be interpreted as the routing preferences of the decision-makers. In this view, the main contributions of this study are to propose an IO methodology with a hypothesis function, loss function, and stochastic first-order algorithm tailored to routing problems. We further test our IO approach in the Amazon Last Mile Routing Research Challenge, where the goal is to learn models that replicate the routing preferences of human drivers, using thousands of real-world routing examples. Our final IO-learned routing model achieves a score that ranks 2nd compared with the 48 models that qualified for the final round of the challenge. Our examples and results showcase the flexibility and real-world potential of the proposed IO methodology to learn from decision-makers' decisions in routing problems.
翻訳日:2024-03-01 19:02:23 公開日:2024-02-29
# 中性窒素空洞中心における軌道状態のコヒーレント電界制御

Coherent Electric-Field Control of Orbital state in a Neutral Nitrogen-Vacancy Center ( http://arxiv.org/abs/2307.07198v3 )

ライセンス: Link先を確認
Hodaka Kurokawa, Keidai Wakamatsu, Shintaro Nakazato, Toshiharu Makino, Hiromitsu Kato, Yuhei Sekiguchi, and Hideo Kosaka(参考訳) 軌道状態のコヒーレント制御は、ダイヤモンドの色中心において極めて低電力操作を実現するために重要である。 ここでは、電場による軌道制御の理想的なシステムとして、中和された窒素空孔中心であるNV$^0$を提案する。 我々は、NV$^0$の基底状態における電気感受性を、NV$^-$の励起状態における電気感受性と同等に推定する。 また、NV$^0$の軌道状態のコヒーレント制御を示す。 軌道制御に必要な電力はスピン制御よりも3桁小さく、希釈冷凍機で作動する超伝導量子ビットと対面する可能性を強調している。

The coherent control of the orbital state is crucial for color centers in diamonds for realizing extremely low-power manipulation. Here, we propose the neutrally charged nitrogen-vacancy center, NV$^0$, as an ideal system for orbital control through electric fields. We estimate electric susceptibility in the ground state of NV$^0$ to be comparable to that in the excited state of NV$^-$. Also, we demonstrate coherent control of the orbital states of NV$^0$. The required power for orbital control is three orders of magnitude smaller than that for spin control, highlighting the potential for interfacing a superconducting qubit operated in a dilution refrigerator.
翻訳日:2024-03-01 19:02:07 公開日:2024-02-29
# 低位mdpにおける効率的なモデルフリー探索

Efficient Model-Free Exploration in Low-Rank MDPs ( http://arxiv.org/abs/2307.03997v2 )

ライセンス: Link先を確認
Zakaria Mhammedi, Adam Block, Dylan J. Foster, Alexander Rakhlin(参考訳) 強化学習における大きな課題は、一般化と関数近似が必要な高次元領域での探索のための実践的でサンプル効率の良いアルゴリズムを開発することである。 低ランクマルコフ決定プロセス(遷移確率が未知の機能埋め込みに基づく低ランク分解を許容する)は、関数近似を伴うrlの単純だが表現力に富むフレームワークを提供するが、既存のアルゴリズムは(1)計算に難解、(2)潜在変数構造、モデルベースの関数近似へのアクセス、到達可能性といった制限付き統計的仮定に依存する。 本研究では,計算効率とモデル自由度を両立させ,一般関数近似を可能とし,付加的な構造仮定を必要としない,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムを提案する。 我々のアルゴリズムであるVoXは、特徴埋め込みを効率よく計算可能な基礎として利用し、表現学習とポリシー最適化をインターリーブすることで効率よくバリ中心スパンナー計算を行う。 我々の分析は、非常に単純でモジュラーなものであり、エラー耐性のバリ中心スパンナー計算に対する新しいアプローチや、以前の研究で見つかったある種のミニマックス表現学習目標の分析の改善など、いくつかの手法を慎重に組み合わせている。

A major challenge in reinforcement learning is to develop practical, sample-efficient algorithms for exploration in high-dimensional domains where generalization and function approximation is required. Low-Rank Markov Decision Processes -- where transition probabilities admit a low-rank factorization based on an unknown feature embedding -- offer a simple, yet expressive framework for RL with function approximation, but existing algorithms are either (1) computationally intractable, or (2) reliant upon restrictive statistical assumptions such as latent variable structure, access to model-based function approximation, or reachability. In this work, we propose the first provably sample-efficient algorithm for exploration in Low-Rank MDPs that is both computationally efficient and model-free, allowing for general function approximation and requiring no additional structural assumptions. Our algorithm, VoX, uses the notion of a barycentric spanner for the feature embedding as an efficiently computable basis for exploration, performing efficient barycentric spanner computation by interleaving representation learning and policy optimization. Our analysis -- which is appealingly simple and modular -- carefully combines several techniques, including a new approach to error-tolerant barycentric spanner computation and an improved analysis of a certain minimax representation learning objective found in prior work.
翻訳日:2024-03-01 19:01:56 公開日:2024-02-29
# オープンフェデレーション学習プラットフォームに向けて:技術と法の観点からの調査と展望

Towards Open Federated Learning Platforms: Survey and Vision from Technical and Legal Perspectives ( http://arxiv.org/abs/2307.02140v3 )

ライセンス: Link先を確認
Moming Duan, Qinbin Li, Linshan Jiang, Bingsheng He(参考訳) 従来のフェデレートラーニング(FL)は、FLのアプリケーションシナリオを狭め、データ保有者の熱意を減らし、サーバが支配する協調パラダイムに従っています。 FLの可能性を完全に解き放つために、我々は現在のFLフレームワークの設計を再考し、より一般化された概念へと拡張することを提唱する。 本稿では,クエリベースFLとコントラクトベースFLの2つの相互協調フレームワークを提案する。 本稿では,技術面と法的面の両方から,オープンなflプラットフォームの構築可能性について総合的なレビューを行う。 まず、flの定義を見直し、サーバ-クライアント結合、低モデル再利用性、非パブリックなど、固有の制限をまとめます。 特に,コンビネーション,アマルガメーション,蒸留,生成を含むバッチモデル再利用法を含むfl研究において,モデルライセンス互換性の分析を合理化する新しい分類法を提案する。 この分類法は、対応するライセンス条項を特定するための実現可能なソリューションを提供し、モデルを再使用する際の潜在的な法的意味や制限の分析を容易にする。 この調査を通じて、FLが直面する現在のジレンマを明らかにし、持続可能なオープンFLプラットフォームの開発を提唱する。 我々は,今後対応すべき潜在的な制約を特定しつつ,そのようなプラットフォームを確立するためのガイダンスを提供することを目指している。

Traditional Federated Learning (FL) follows a server-dominated cooperation paradigm which narrows the application scenarios of FL and decreases the enthusiasm of data holders to participate. To fully unleash the potential of FL, we advocate rethinking the design of current FL frameworks and extending it to a more generalized concept: Open Federated Learning Platforms, positioned as a crowdsourcing collaborative machine learning infrastructure for all Internet users. We propose two reciprocal cooperation frameworks to achieve this: query-based FL and contract-based FL. In this survey, we conduct a comprehensive review of the feasibility of constructing open FL platforms from both technical and legal perspectives. We begin by reviewing the definition of FL and summarizing its inherent limitations, including server-client coupling, low model reusability, and non-public. In particular, we introduce a novel taxonomy to streamline the analysis of model license compatibility in FL studies that involve batch model reusing methods, including combination, amalgamation, distillation, and generation. This taxonomy provides a feasible solution for identifying the corresponding licenses clauses and facilitates the analysis of potential legal implications and restrictions when reusing models. Through this survey, we uncover the current dilemmas faced by FL and advocate for the development of sustainable open FL platforms. We aim to provide guidance for establishing such platforms in the future while identifying potential limitations that need to be addressed.
翻訳日:2024-03-01 19:01:32 公開日:2024-02-29
# 複合二ビット発振器による量子同期の探索

Exploring Quantum Synchronization with a Composite Two-Qubit Oscillator ( http://arxiv.org/abs/2306.04205v2 )

ライセンス: Link先を確認
Gaurav M. Vaidya and Arvind Mamgain and Samarth Hawaldar and Walter Hahn and Raphael Kaubruegger and Baladitya Suri and Athreya Shankar(参考訳) 同期は、quditsや弱ポンピング量子ファンデルpol振動子のような素数レベルの量子振動子によって、量子状態において深く研究されている。 より複雑な量子同期システムを設計するためには、一般に利用でき、高い制御性を提供する基本量子単位から構築された複合発振器を研究することが事実上重要となる。 本稿では,2つの相互作用量子ビットを分離浴に結合した複合発振器の最小限のモデルについて考察し,その実装を回路量子力学プラットフォーム上で提案し,解析する。 我々は「ミクロ」と「マクロ」の視点を採用し、構成量子ビットの応答と1つの量子ビットが弱いときに複合振動子の応答を研究する。 個々の量子ビットの外部ドライブへの位相同期は、相互相互作用から生じる干渉効果によって強く変化する。 特に,特に結合強度における位相同期遮断現象が発見された。 さらに, 量子ビット間の相互作用は, 複合振動子と外部駆動との同期の度合いを強く向上または抑制できることがわかった。 本研究は,複雑な量子同期システムを基本構成単位から組み立てる可能性を実証するものであり,量子同期の分野を進める上で実用的重要である。

Synchronization has recently been explored deep in the quantum regime with elementary few-level quantum oscillators such as qudits and weakly pumped quantum Van der Pol oscillators. To engineer more complex quantum synchronizing systems, it is practically relevant to study composite oscillators built up from basic quantum units that are commonly available and offer high controllability. Here, we consider a minimal model for a composite oscillator consisting of two interacting qubits coupled to separate baths, for which we also propose and analyze an implementation on a circuit quantum electrodynamics platform. We adopt a `microscopic' and `macroscopic' viewpoint and study the response of the constituent qubits and of the composite oscillator when one of the qubits is weakly driven. We find that the phase-locking of the individual qubits to the external drive is strongly modified by interference effects arising from their mutual interaction. In particular, we discover a phase-locking blockade phenomenon at particular coupling strengths. Furthermore, we find that interactions between the qubits can strongly enhance or suppress the extent of synchronization of the composite oscillator to the external drive. Our work demonstrates the potential for assembling complex quantum synchronizing systems from basic building units, which is of pragmatic importance for advancing the field of quantum synchronization.
翻訳日:2024-03-01 19:00:48 公開日:2024-02-29
# SourceP:ソースコードでEthereum上のPonziスキーマを検出する

SourceP: Detecting Ponzi Schemes on Ethereum with Source Code ( http://arxiv.org/abs/2306.01665v8 )

ライセンス: Link先を確認
Pengcheng Lu, Liang Cai, and Keting Yin(参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。 スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。 Ethereum上のスマートPonziスキームを検出する既存の方法は、主にバイトコード機能、オペコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、Ponziスキームの動作特性を真に特徴づけることができないため、検出精度と誤警報率の点で一般的には不十分である。 本稿では,事前訓練されたモデルとデータフローを用いてEthereumプラットフォーム上のスマートPonziスキームを検出する方法であるSourcePを提案する。 SourcePは、既存の検出方法のデータの取得と特徴抽出の難しさを軽減する。 具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前学習モデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。 実験の結果、SourcePはEthereumのスマートコントラクトデータセット内でのスマートPonziスキームの検出において87.2%のリコールと90.7%のFスコアを達成した。 我々はまた、事前訓練されたモデルとデータフローがSourcePに重要な貢献をしていること、およびSourcePが優れた一般化能力を持っていることを実証する追加の実験を通して実証する。

As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, which are unable to truly characterize the behavioral features of Ponzi schemes, and thus generally perform poorly in terms of detection accuracy and false alarm rates. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2% recall and 90.7% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability.
翻訳日:2024-03-01 19:00:28 公開日:2024-02-29
# ファンデーションモデルAPIによる異なるプライベートな合成データ 1:画像

Differentially Private Synthetic Data via Foundation Model APIs 1: Images ( http://arxiv.org/abs/2305.15560v2 )

ライセンス: Link先を確認
Zinan Lin, Sivakanth Gopi, Janardhan Kulkarni, Harsha Nori, Sergey Yekhanin(参考訳) 差分プライベート(DP)合成データを生成することは、現在のデータ駆動の世界におけるプライバシーの懸念を軽減するスケーラブルな方法である。 このタスクのためにカスタマイズされたモデルをトレーニングする現在のプラクティスとは対照的に、我々はDP Synthetic DataをAPI(DPSDA)経由で生成することを目指しています。 このようなapiベース、トレーニングフリーのアプローチは、最近のapiベースのアプリ数の増加の例のように、デプロイが容易です。 これらのアプローチは、推論apiを通じてのみアクセス可能な、大規模な基盤モデルのパワーを活用できる。 しかしこれは、厳格に制限されたモデルアクセスと、APIプロバイダからプライバシを保護する必要性のため、より大きな課題が伴う。 本稿では,この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。 驚いたことに、PEはモデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドにマッチしたり、性能を上回ります。 例えば、CIFAR10(パブリックデータとして ImageNet を使用)では、プライバシコスト {\epsilon} = 0.67 で FID <= 7.9 を獲得し、以前の SOTA を {\epsilon} = 32 から大幅に改善します。 さらに,高解像度画像の少ないプライベートデータセットに挑戦するために,安定拡散のような大規模基盤モデルにPEを適用することを実証する。 コードとデータはhttps://github.com/microsoft/dpsdaでリリースされる。

Generating differentially private (DP) synthetic data that closely resembles the original private data is a scalable way to mitigate privacy concerns in the current data-driven world. In contrast to current practices that train customized models for this task, we aim to generate DP Synthetic Data via APIs (DPSDA), where we treat foundation models as blackboxes and only utilize their inference APIs. Such API-based, training-free approaches are easier to deploy as exemplified by the recent surge in the number of API-based apps. These approaches can also leverage the power of large foundation models which are only accessible via their inference APIs. However, this comes with greater challenges due to strictly more restrictive model access and the need to protect privacy from the API provider. In this paper, we present a new framework called Private Evolution (PE) to solve this problem and show its initial promise on synthetic images. Surprisingly, PE can match or even outperform state-of-the-art (SOTA) methods without any model training. For example, on CIFAR10 (with ImageNet as the public data), we achieve FID <= 7.9 with privacy cost {\epsilon} = 0.67, significantly improving the previous SOTA from {\epsilon} = 32. We further demonstrate the promise of applying PE on large foundation models such as Stable Diffusion to tackle challenging private datasets with a small number of high-resolution images. The code and data are released at https://github.com/microsoft/DPSDA.
翻訳日:2024-03-01 18:59:29 公開日:2024-02-29
# Hint of Thought prompting:LLMによる推論タスクへの説明可能なゼロショットアプローチ

Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs ( http://arxiv.org/abs/2305.11461v5 )

ライセンス: Link先を確認
Ioktong Lei and Zhidong Deng(参考訳) GPT や PaLM2 などの LLM と通信する手段としては、LCM をよりよく活用するための重要な研究トピックとなっている。 単純なプロンプトは単段階の質問ではうまく機能するが、多段階推論タスクの正しい知識経路を永久に活性化することはできない。 思考の連鎖(CoT)は、しばしばゼロショットCoTと少数ショットCoTを含むが、最近開発されたプロンプト法であり、LLMに推論プロセスを説明し、算術、記号、コモンセンス推論を含む3つの挑戦的推論タスクにおいて単純なプロンプトよりも優れている。 本稿では、説明可能性とゼロショットの一般化を促進する新しい思考ヒント(HoT)を提案する。 まず,説明可能な部分質問,論理的推論,回答抽出という3つのステップに分解する。 第二に、これらの3つのステップはステップバイステップのヒントの形式で順番に順序付けされ、簡単に調整でき、異なるタスクに説明できる。 最後に,実験結果から,HoTプロンプトは既存のゼロショットCoTと比較してゼロショット推論タスクに有意なアドバンテージを持つことが示された。 GSM8K, ADDSUB, AQUA, SVAMPなどの数学タスクとStrategyQAのような常識タスクについてゼロショット実験を行った。 特に提案されたHoTプロンプトの精度は、GSM8Kが40.50%から67.80%に、AQUAが31.9%から46.4%に、SVAMPが63.7%から76.9%に、ADDSUBが74.7%から87.34%に改善され、GSM8k、AQUA、SVAMPが競合するPoTアプローチを破る結果となった。

As a way of communicating with users and any LLMs like GPT or PaLM2, prompting becomes an increasingly important research topic for better utilization of LLMs. Although simple prompting performs well on single-step questions, it cannot permanently activate the correct knowledge path for multi-step reasoning tasks. The chain of thought (CoT), which often contains zero-shot CoT and few-shot CoT, is a recently developed prompting method that can explain the reasoning process to the LLM and outperforms simple prompting in three challenging reasoning tasks, including arithmetic, symbolic, and commonsense reasoning. In this paper, we propose a novel hint of thought (HoT) prompting with explainability and zero-shot generalization. First, it is decomposed into the following three steps: explainable sub-questions, logical reasoning, and answer extraction. Second, such three steps are sequentially ordered in the format of step-by-step hints, which can be easily adjusted and explained to different tasks. Finally, experimental results demonstrate that our HoT prompting has a significant advantage on the zero-shot reasoning task compared to existing zero-shot CoT. We did zero-shot experiments on math tasks like GSM8K, ADDSUB, AQUA, SVAMP and commonsense tasks such as StrategyQA. In particular, the accuracy of the proposed HoT prompting is improved with GSM8K from 40.50% to 67.80%, with AQUA from 31.9% to 46.4%, with SVAMP from 63.7% to 76.9%, and with ADDSUB from 74.7% to 87.34%, respectively, which even defeats the competitive PoT approach on GSM8k, AQUA, and SVAMP.
翻訳日:2024-03-01 18:59:04 公開日:2024-02-29
# バイオメディカル意思決定支援における空間コンピューティングの可能性:Atlas-EHRビジョン

Spatial Computing Opportunities in Biomedical Decision Support: The Atlas-EHR Vision ( http://arxiv.org/abs/2305.09675v2 )

ライセンス: Link先を確認
Majid Farhadloo, Arun Sharma, Shashi Shekhar and Svetomir N. Markovic(参考訳) 医療従事者が次世代のバイオメディカル意思決定支援を通じて患者の医療史を理解するために必要な時間を短縮する問題を考察する。 この問題は、医療の質と患者の結果を改善する可能性があるため、社会的に重要である。 しかし、電子健康記録のナビゲートは、高い患者と医師の比率、潜在的に長い医療履歴、いくつかの医療疾患に対する治療の緊急性、患者の変動性のために困難である。 現在の電子健康記録システムは、閲覧に時間がかかる患者の医療歴の縦断的なビューしか提供しておらず、医師は初期分析のために看護師や住民などと関わりを持つ必要があることが多い。 この制限を克服するために、Atlas-EHRの形で患者の履歴(例えば、電子健康記録(EHR))と他の生体医学データ(英語版)の代替空間表現を構想する。 Google Mapsがグローバル、ナショナル、地域、ローカルのビューを可能にするように、Atlas-EHRは、患者の解剖学と歴史の概要から始まり、空間解剖学的サブシステム、個々のコンポーネント、またはサブコンポーネントにドリルダウンする。 Atlas-EHRは、医療が米国の経済のほぼ5分の1であるため、空間コンピューティングの魅力的な機会を提供する。 しかし、地理的用途(ナビゲーション、土地測量、マッピングなど)向けに設計された伝統的な空間計算は、生物医学領域において多くのハードルに直面している。 本稿では,空間コンピューティングの5分野において,このテーマの下で多くのオープンな研究課題を提起する。

We consider the problem of reducing the time needed by healthcare professionals to understand patient medical history via the next generation of biomedical decision support. This problem is societally important because it has the potential to improve healthcare quality and patient outcomes. However, navigating electronic health records is challenging due to the high patient-doctor ratios, potentially long medical histories, the urgency of treatment for some medical conditions, and patient variability. The current electronic health record systems provides only a longitudinal view of patient medical history, which is time-consuming to browse, and doctors often need to engage nurses, residents, and others for initial analysis. To overcome this limitation, we envision an alternative spatial representation of patients' histories (e.g., electronic health records (EHRs)) and other biomedical data in the form of Atlas-EHR. Just like Google Maps allows a global, national, regional, and local view, the Atlas-EHR may start with an overview of the patient's anatomy and history before drilling down to spatially anatomical sub-systems, their individual components, or sub-components. Atlas-EHR presents a compelling opportunity for spatial computing since healthcare is almost a fifth of the US economy. However, the traditional spatial computing designed for geographic use cases (e.g., navigation, land-surveys, mapping) faces many hurdles in the biomedical domain. This paper presents a number of open research questions under this theme in five broad areas of spatial computing.
翻訳日:2024-03-01 18:58:07 公開日:2024-02-29
# ReLLa:レコメンデーションにおける生涯連続行動理解のための検索強化大言語モデル

ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation ( http://arxiv.org/abs/2308.11131v4 )

ライセンス: Link先を確認
Jianghao Lin, Rong Shan, Chenxu Zhu, Kounianhua Du, Bo Chen, Shigang Quan, Ruiming Tang, Yong Yu, Weinan Zhang(参考訳) 大規模言語モデル (LLM) が自然言語処理 (NLP) 領域で顕著なブレークスルーを達成しているため、LLM強化レコメンデータシステムは注目され、現在積極的に研究されている。 本稿では,ゼロショットと少数ショットのレコメンデーションタスクに純粋に大きな言語モデルを適用することに焦点を当てる。 まず第一に,提案領域におけるllmsの生涯連続的行動理解問題,すなわち,コンテキストの長さがllmsのコンテキスト制限に達していない場合でも,長いユーザ行動シーケンスのテキスト的文脈から有用な情報を抽出できないことを特定し,定式化する。 このような問題に対処し、LLMのレコメンデーション性能を向上させるために、ゼロショットと少数ショットの両方の設定でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。 ゼロショットレコメンデーションのために,テストサンプルのデータ品質を向上させるためにセマンティックユーザ行動検索(SUBR)を実施し,ユーザ行動シーケンスから本質的な知識を抽出することの難しさを大幅に軽減する。 本稿では,サンプルデータ拡張手法としてSUBRを採用することで,検索強化型インストラクションチューニング(ReiT)をさらに設計する。 具体的には,オリジナルデータと検索対象データの両方からなる混合学習データセットを開発した。 本研究では,既存のベースラインモデルと比較してReLLaの優位性を示すために,実世界の3つの公開データセットに対する広範な実験を行った。 強調しておきたいのは、トレーニングサンプルが10%未満であるReLLaは、トレーニングセット全体(DCNv2、DIN、SIMなど)でトレーニングされた従来のCTRモデルよりも優れていることだ。 コードは \url{https://github.com/LaVieEnRose365/ReLLa} で入手できる。

With large language models (LLMs) achieving remarkable breakthroughs in natural language processing (NLP) domains, LLM-enhanced recommender systems have received much attention and have been actively explored currently. In this paper, we focus on adapting and empowering a pure large language model for zero-shot and few-shot recommendation tasks. First and foremost, we identify and formulate the lifelong sequential behavior incomprehension problem for LLMs in recommendation domains, i.e., LLMs fail to extract useful information from a textual context of long user behavior sequence, even if the length of context is far from reaching the context limitation of LLMs. To address such an issue and improve the recommendation performance of LLMs, we propose a novel framework, namely Retrieval-enhanced Large Language models (ReLLa) for recommendation tasks in both zero-shot and few-shot settings. For zero-shot recommendation, we perform semantic user behavior retrieval (SUBR) to improve the data quality of testing samples, which greatly reduces the difficulty for LLMs to extract the essential knowledge from user behavior sequences. As for few-shot recommendation, we further design retrieval-enhanced instruction tuning (ReiT) by adopting SUBR as a data augmentation technique for training samples. Specifically, we develop a mixed training dataset consisting of both the original data samples and their retrieval-enhanced counterparts. We conduct extensive experiments on three real-world public datasets to demonstrate the superiority of ReLLa compared with existing baseline models, as well as its capability for lifelong sequential behavior comprehension. To be highlighted, with only less than 10% training samples, few-shot ReLLa can outperform traditional CTR models that are trained on the entire training set (e.g., DCNv2, DIN, SIM). The code is available \url{https://github.com/LaVieEnRose365/ReLLa}.
翻訳日:2024-03-01 18:54:07 公開日:2024-02-29
# HOLのフラグメントとしての規範的条件推論

Normative Conditional Reasoning as a Fragment of HOL ( http://arxiv.org/abs/2308.10686v3 )

ライセンス: Link先を確認
Xavier Parent and Christoph Benzm\"uller(参考訳) 本稿では(参照ベース)条件付き規範推論の機械化について報告する。 我々の焦点は条件付き義務のためのAqvistのシステムEとその拡張である。 我々の機械化は、Isabelle/HOLに浅いセマンティックな埋め込みを通して達成される。 フレームワークの利用は2つ考えられる。 1つ目は、考慮されたロジックについてメタ推論するためのツールである。 本手法は, モーダル論理立方体で以前に達成されたものと類似したデオン対応(広義に考えられた)および関連事項の自動検証に応用する。 等価性は一方向に自動的に検証され、その性質から公理へと導かれる。 第二の用途は倫理的議論を評価するためのツールである。 人口倫理におけるよく知られたパラドックス(あるいは不合理性定理)のコンピュータエンコーディング(Parfit's repugnant conclusion)を提供する。 既定の'better than'の推移性を捨てることによって、不可能性定理を克服することを提案している者もいるが、この形式化はさほど極端なアプローチではなく、完全に捨てるよりも輸送性を弱める選択肢を示唆するものである。 提示された符号化が強引な結論の魅力と説得力を高めるかは、我々が哲学と倫理に伝えたい質問である。

We report on the mechanization of (preference-based) conditional normative reasoning. Our focus is on Aqvist's system E for conditional obligation, and its extensions. Our mechanization is achieved via a shallow semantical embedding in Isabelle/HOL. We consider two possible uses of the framework. The first one is as a tool for meta-reasoning about the considered logic. We employ it for the automated verification of deontic correspondences (broadly conceived) and related matters, analogous to what has been previously achieved for the modal logic cube. The equivalence is automatically verified in one direction, leading from the property to the axiom. The second use is as a tool for assessing ethical arguments. We provide a computer encoding of a well-known paradox (or impossibility theorem) in population ethics, Parfit's repugnant conclusion. While some have proposed overcoming the impossibility theorem by abandoning the presupposed transitivity of ''better than'', our formalisation unveils a less extreme approach, suggesting among other things the option of weakening transitivity suitably rather than discarding it entirely. Whether the presented encoding increases or decreases the attractiveness and persuasiveness of the repugnant conclusion is a question we would like to pass on to philosophy and ethics.
翻訳日:2024-03-01 18:53:29 公開日:2024-02-29
# 目に見えないもの:高レベル・抽象カテゴリへの画像分類に関する調査

Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories ( http://arxiv.org/abs/2308.10562v2 )

ライセンス: Link先を確認
Delfina Sol Martinez Pandiani and Valentina Presutti(参考訳) コンピュータビジョン(CV)の分野はますます「ハイレベル」な視覚感覚タスクへとシフトしつつあるが、これらのタスクの正確な性質は明確で暗黙的である。 本稿では,高次視覚理解の研究を体系的にレビューし,特に画像の自動分類における抽象概念(AC)に着目した。 まず,多分野分析を通じてcvにおける高レベル意味論の暗黙の理解と,常識,感情的,美的,帰納的解釈的意味論を含む異なるクラスタへの分類を明らかにする。 第二に、ハイレベルな視覚センシングに関連するコンピュータビジョンタスクを特定し、分類し、このドメイン内のさまざまな研究領域に対する洞察を提供する。 最後に、CVにおける値やイデオロギーといった抽象概念の扱いについて検討し、AC画像分類における課題と機会を明らかにする。 特に,大規模データセットの有効性の制限や補足情報と中間レベルの機能の統合の重要性など,ac画像分類タスクに関する調査では,永続的な課題が強調されている。 我々は、AC画像分類タスクの多面的性質に対処する上で、ハイブリッドAIシステムの重要性の高まりを強調した。 本調査は,CVにおける高レベルの視覚的推論の理解を深め,今後の研究の基盤となるものとなる。

The field of Computer Vision (CV) is increasingly shifting towards ``high-level'' visual sensemaking tasks, yet the exact nature of these tasks remains unclear and tacit. This survey paper addresses this ambiguity by systematically reviewing research on high-level visual understanding, focusing particularly on Abstract Concepts (ACs) in automatic image classification. Our survey contributes in three main ways: Firstly, it clarifies the tacit understanding of high-level semantics in CV through a multidisciplinary analysis, and categorization into distinct clusters, including commonsense, emotional, aesthetic, and inductive interpretative semantics. Secondly, it identifies and categorizes computer vision tasks associated with high-level visual sensemaking, offering insights into the diverse research areas within this domain. Lastly, it examines how abstract concepts such as values and ideologies are handled in CV, revealing challenges and opportunities in AC-based image classification. Notably, our survey of AC image classification tasks highlights persistent challenges, such as the limited efficacy of massive datasets and the importance of integrating supplementary information and mid-level features. We emphasize the growing relevance of hybrid AI systems in addressing the multifaceted nature of AC image classification tasks. Overall, this survey enhances our understanding of high-level visual reasoning in CV and lays the groundwork for future research endeavors.
翻訳日:2024-03-01 18:53:08 公開日:2024-02-29
# Quasi-) 能率を持つ部分観測可能なマルチエージェントRL:情報共有の祝福

Partially Observable Multi-agent RL with (Quasi-)Efficiency: The Blessing of Information Sharing ( http://arxiv.org/abs/2308.08705v2 )

ライセンス: Link先を確認
Xiangyu Liu, Kaiqing Zhang(参考訳) 証明可能なマルチエージェント強化学習(MARL)を部分的に観察可能な確率ゲーム(POSG)の一般的な枠組みで研究する。 既知の難易度結果と計算難解なオラクルの使用を回避するため,エージェント間でのemph{information-sharing}の可能性,実証的MARLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。 まず、POSGを解く際の計算効率を高めるために、情報共有の必要性を正当化する計算複雑性結果と、部分的な観測で準効率のシングルエージェントRLを実現した観測可能性の仮定を確立する。 次に、POSG の {approximate model} を構築するために共有共通情報を更に \emph{approximate} として提案し、上記の仮定の下で近似均衡(元の POSG の解法)を計画することは準効率、すなわち準多項式時間(quasi-polynomial-time)である。 さらに,統計学的および計算学的に準効率な部分可観測marlアルゴリズムを開発した。 我々は、サンプルと計算効率の良い部分観測可能なMARLの開発に、異なる 'emph{information structures} を活用、設計する可能性を開くことを願っている。

We study provable multi-agent reinforcement learning (MARL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical MARL, and a standard model for multi-agent control systems with communications. We first establish several computation complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-efficient single-agent RL with partial observations, for computational efficiency in solving POSGs. We then propose to further \emph{approximate} the shared common information to construct an {approximate model} of the POSG, in which planning an approximate equilibrium (in terms of solving the original POSG) can be quasi-efficient, i.e., of quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable MARL algorithm that is both statistically and computationally quasi-efficient. We hope our study may open up the possibilities of leveraging and even designing different \emph{information structures}, for developing both sample- and computation-efficient partially observable MARL.
翻訳日:2024-03-01 18:52:44 公開日:2024-02-29
# CMISR: 循環医療画像スーパーリゾリューション

CMISR: Circular Medical Image Super-Resolution ( http://arxiv.org/abs/2308.08567v2 )

ライセンス: Link先を確認
Honggui Li, Nahid Md Lokman Hossain, Maria Trocan, Dimitri Galayko, Mohamad Sawan(参考訳) 医用画像超解像(MISR)の古典的な方法は、暗黙の低解像度(UR)ユニットと明示的な超解像(SR)ユニットを備えたオープンループアーキテクチャを使用する。 URユニットは常に与えられる、仮定される、または推定されるが、SRユニットは様々なSRアルゴリズムに従って精巧に設計されている。 閉ループフィードバック機構は、現在のMISRアプローチで広く採用されており、その性能を効率的に向上することができる。 フィードバックメカニズムは、ローカルフィードバックとグローバルフィードバックの2つのカテゴリに分類できる。 そこで本稿では,ur要素とsr要素があいまいでないグローバルフィードバック型閉サイクルフレームワークであるcircle misr(cmisr)を提案する。 CMISRの数学的モデルと閉ループ方程式が構築されている。 テイラー級数近似を用いた数学的証明は、CMISRが定常状態においてゼロ回復誤差を持つことを示す。 さらに、CMISRは、モデルベースと学習ベースのアプローチを融合させるプラグアンドプレイ特性を持ち、既存のMISRアルゴリズムで確立することができる。 5つのCMISRアルゴリズムはそれぞれ最先端のオープンループMISRアルゴリズムに基づいて提案される。 3つの尺度因子と3つのオープンな医用画像データセットによる実験結果から、CMISRは再建性能においてMISRよりも優れており、特に強いエッジや強いコントラストを持つ医用画像に適していることが示された。

Classical methods of medical image super-resolution (MISR) utilize open-loop architecture with implicit under-resolution (UR) unit and explicit super-resolution (SR) unit. The UR unit can always be given, assumed, or estimated, while the SR unit is elaborately designed according to various SR algorithms. The closed-loop feedback mechanism is widely employed in current MISR approaches and can efficiently improve their performance. The feedback mechanism may be divided into two categories: local feedback and global feedback. Therefore, this paper proposes a global feedback-based closed-cycle framework, circular MISR (CMISR), with unambiguous UR and advanced SR elements. Mathematical model and closed-loop equation of CMISR are built. Mathematical proof with Taylor-series approximation indicates that CMISR has zero recovery error in steady-state. In addition, CMISR holds plug-and-play characteristic that fuses model-based and learning-based approaches and can be established on any existing MISR algorithms. Five CMISR algorithms are respectively proposed based on the state-of-the-art open-loop MISR algorithms. Experimental results with three scale factors and on three open medical image datasets show that CMISR is superior to MISR in reconstruction performance and is particularly suited to medical images with strong edges or intense contrast.
翻訳日:2024-03-01 18:52:19 公開日:2024-02-29
# 複雑度とアライメントの本質的関係に関する予備的検討

A Preliminary Study of the Intrinsic Relationship between Complexity and Alignment ( http://arxiv.org/abs/2308.05696v2 )

ライセンス: Link先を確認
Yingxiu Zhao, Bowen Yu, Binyuan Hui, Haiyang Yu, Fei Huang, Yongbin Li, Nevin L. Zhang(参考訳) オープンドメイン命令データを用いた大規模言語モデル(LLM)のトレーニングは、エンドタスクや人間の好みに合わせることに成功している。 広範な研究は、命令データの質と多様性の重要性を強調している。 しかし、データ複雑性の影響は、重要な指標として、(1)複雑さの増加に伴うパフォーマンス改善の持続可能性の不確実性、(2)複雑さによってもたらされる改善が単にトレーニングトークンの導入によるものであるかどうか、(3)簡単から難易度へのインストラクションの導入による潜在的なメリットがまだ完全には理解されていないという3つの側面から比較的解明されていない。 本稿では,制御可能な方式で命令複雑性を体系的に高めるツリーインストラクションを提案する。 命令のセマンティクスツリーに指定されたノード数を追加することで、このアプローチは修正されたツリーから新しい命令データを生成するだけでなく、修正された命令の難易度を制御できる。 1) 複雑性の増大はLCMの持続的な性能向上につながる。 2) 同じトークン予算の下では、いくつかの複雑な命令は多様だが単純な命令よりも優れている。 (3) 計算機命令のチューニングは期待された結果をもたらしない可能性があり, 複雑さの増加に焦点を合わせることが鍵である。

Training large language models (LLMs) with open-domain instruction data has yielded remarkable success in aligning to end tasks and human preferences. Extensive research has highlighted the importance of the quality and diversity of instruction data. However, the impact of data complexity, as a crucial metric, remains relatively unexplored from three aspects: (1)where the sustainability of performance improvements with increasing complexity is uncertain; (2)whether the improvement brought by complexity merely comes from introducing more training tokens; and (3)where the potential benefits of incorporating instructions from easy to difficult are not yet fully understood. In this paper, we propose Tree-Instruct to systematically enhance the instruction complexity in a controllable manner. By adding a specified number of nodes to instructions' semantic trees, this approach not only yields new instruction data from the modified tree but also allows us to control the difficulty level of modified instructions. Our preliminary experiments reveal the following insights: (1)Increasing complexity consistently leads to sustained performance improvements of LLMs. (2)Under the same token budget, a few complex instructions outperform diverse yet simple instructions. (3)Curriculum instruction tuning might not yield the anticipated results; focusing on increasing complexity appears to be the key.
翻訳日:2024-03-01 18:51:26 公開日:2024-02-29
# 大型言語モデルのための忘れられない公証可能な透かし

An Unforgeable Publicly Verifiable Watermark for Large Language Models ( http://arxiv.org/abs/2307.16230v5 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King and Philip S. Yu(参考訳) 近年,大型言語モデル (LLM) のためのテキスト透かしアルゴリズムが提案され,偽ニュースや著作権問題など LLM が生成するテキストの潜在的な害を軽減している。 しかし、現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とするため、公衆の検知中にセキュリティ違反や偽造の影響を受けやすい。 この制限に対処するため、両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽の公開検証可能な透かしアルゴリズムを提案する。 一方、トークン埋め込みパラメータは生成ネットワークと検出ネットワークの間で共有され、検出ネットワークは極めて効率的に精度が向上する。 実験により,パラメータの最小化によるニューラルネットワークによる検出精度と計算効率の向上が示された。 その後の解析により、検出ネットワークから透かしを鍛造する際の複雑さが確認される。 私たちのコードとデータは、 \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}で利用可能です。

Recently, text watermarking algorithms for large language models (LLMs) have been proposed to mitigate the potential harms of text generated by LLMs, including fake news and copyright issues. However, current watermark detection algorithms require the secret key used in the watermark generation process, making them susceptible to security breaches and counterfeiting during public detection. To address this limitation, we propose an unforgeable publicly verifiable watermark algorithm that uses two different neural networks for watermark generation and detection, instead of using the same key at both stages. Meanwhile, the token embedding parameters are shared between the generation and detection networks, which makes the detection network achieve a high accuracy very efficiently. Experiments demonstrate that our algorithm attains high detection accuracy and computational efficiency through neural networks with a minimized number of parameters. Subsequent analysis confirms the high complexity involved in forging the watermark from the detection network. Our code and data are available at \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}.
翻訳日:2024-03-01 18:50:51 公開日:2024-02-29
# ストリーマー自己表現の再構築としてのVTubingの検討:アイデンティティ,パフォーマンス,ジェンダー

Investigating VTubing as a Reconstruction of Streamer Self-Presentation: Identity, Performance, and Gender ( http://arxiv.org/abs/2307.11025v2 )

ライセンス: Link先を確認
Qian Wan and Zhicong Lu(参考訳) vtubers(virtual youtuber)は、アニメーション2dまたは3d仮想アバターを使ってストリーミングコンテンツを制作するライブストリーマーである。 近年、世界中のVTuberクリエイターや視聴者の数が大幅に増加している。 この実践は、視聴者のエンゲージメント行動や知覚などのトピックに研究の注意を向けてきたが、アニメーションアバターは、自身の身体を使用する従来のライブストリーミングよりもアイデンティティとパフォーマンスの柔軟性を提供するため、この柔軟性がクリエイター自身の提示方法にどのように影響するかはほとんど研究されていない。 この研究は、16人の中国語話者のvtuberのストリーミングプラクティスの質的研究の結果を提示することで、このギャップを埋めようとしている。 データによると、ライブストリーミングで使用された仮想アバターは、インフレーションされたプレゼンテーションを使ってクリエイターが自らをプレゼンする機会を与え、視聴者と包括的な対話をもたらした。 結果はまた、虚偽の環境に置かれている間、VTubersの膨らみ、しばしばセクシュアライズされた性表現も明らかにした。 VTubingの社会技術的側面は、性嫌がらせや性差別を減らし、自己目的化の懸念も高めた。

VTubers, or Virtual YouTubers, are live streamers who create streaming content using animated 2D or 3D virtual avatars. In recent years, there has been a significant increase in the number of VTuber creators and viewers across the globe. This practise has drawn research attention into topics such as viewers' engagement behaviors and perceptions, however, as animated avatars offer more identity and performance flexibility than traditional live streaming where one uses their own body, little research has focused on how this flexibility influences how creators present themselves. This research thus seeks to fill this gap by presenting results from a qualitative study of 16 Chinese-speaking VTubers' streaming practices. The data revealed that the virtual avatars that were used while live streaming afforded creators opportunities to present themselves using inflated presentations and resulted in inclusive interactions with viewers. The results also unveiled the inflated, and often sexualized, gender expressions of VTubers while they were situated in misogynistic environments. The socio-technical facets of VTubing were found to potentially reduce sexual harassment and sexism, whilst also raising self-objectification concerns.
翻訳日:2024-03-01 18:49:35 公開日:2024-02-29
# 第二の心を持つように思える」:大規模言語モデルによる前書きにおける人間とAIの共創造性の検討

"It Felt Like Having a Second Mind": Investigating Human-AI Co-creativity in Prewriting with Large Language Models ( http://arxiv.org/abs/2307.10811v3 )

ライセンス: Link先を確認
Qian Wan, Siying Hu, Yu Zhang, Piaohong Wang, Bo Wen, Zhicong Lu(参考訳) プレライティング(prewriting)は、最初のドラフトの前にアイデアを発見し、開発するプロセスである。 大規模言語モデル(LLM)は、クリエイティブな記述を含む様々なタスクに有用であることが示されているが、ユーザーが事前記述をサポートするためにLLMとどのように協力するかは分かっていない。 このような創造的プロセスにおいてllmの望ましい協力的役割とイニシアティブもまた不明確である。 プリライティング中の人間-LLMのコラボレーションパターンとダイナミクスを調べるために,15人の参加者による3段階の質的研究を行った。 その結果,共同作業において,理想,照明,実施段階を含む3段階の反復的Human-AI共創造プロセスが存在することがわかった。 この協調プロセスは、人間とllmの間に存在する混合的かつシフト的なレベルのイニシアティブに加えて、人間を支配的な役割で擁護する。 本研究は、このプロセス中に発生するコラボレーションのブレークダウン、Human-AIコクリエーションにおける既存のLLMの使用に対するユーザ認識について報告し、このコクリエーションプロセスを支援するための設計上の意味について論じる。

Prewriting is the process of discovering and developing ideas before a first draft, which requires divergent thinking and often implies unstructured strategies such as diagramming, outlining, free-writing, etc. Although large language models (LLMs) have been demonstrated to be useful for a variety of tasks including creative writing, little is known about how users would collaborate with LLMs to support prewriting. The preferred collaborative role and initiative of LLMs during such a creativity process is also unclear. To investigate human-LLM collaboration patterns and dynamics during prewriting, we conducted a three-session qualitative study with 15 participants in two creative tasks: story writing and slogan writing. The findings indicated that during collaborative prewriting, there appears to be a three-stage iterative Human-AI Co-creativity process that includes Ideation, Illumination, and Implementation stages. This collaborative process champions the human in a dominant role, in addition to mixed and shifting levels of initiative that exist between humans and LLMs. This research also reports on collaboration breakdowns that occur during this process, user perceptions of using existing LLMs during Human-AI Co-creativity, and discusses design implications to support this co-creativity process.
翻訳日:2024-03-01 18:49:11 公開日:2024-02-29
# 自動ログテンプレート抽出のためのプロンプト

Prompting for Automatic Log Template Extraction ( http://arxiv.org/abs/2307.09950v3 )

ライセンス: Link先を確認
Junjielong Xu, Ruichun Yang, Yintong Huo, Chengyu Zhang, and Pinjia He(参考訳) ログ解析は、半構造化ログからログテンプレートを抽出することで構造化ログを生成する。 しかし、現在のログパーサーは2つの理由で有効性が制限されている。 まず、従来のデータ駆動ログパーサは、ドメインの専門家が設計したヒューリスティックや手作りの機能のみに依存しています。 第二に、既存の教師付きログパーサはモデルチューニングを必要とするため、固定されたトレーニングサンプルに制限されることが多く、ログソース全体のサブ最適パフォーマンスを引き起こす。 この制限に対処するため,大規模言語モデル(LLM)の文脈内学習(ICL)能力に基づく効果的なログ解析フレームワークであるDivLogを提案する。 具体的には、ログ解析の前に、ダイバーシティを最大化することで、少数のオフラインログを候補としてサンプリングする。 次に、ログ解析中に、DivLogはターゲットログの例として5つの適切なラベル付き候補を選択し、プロンプトに構成する。 プロンプトで例のセマンティクスをマイニングすることで、divlogはトレーニング不要な方法でターゲットログテンプレートを生成する。 さらに,出力を抽出し,生成したログテンプレートの品質を向上させるための,単純かつ効果的なプロンプトフォーマットも設計する。 広く利用されている16の公開データセットについて実験を行った。 その結果, (1) 98.1% のパーシング精度, (2) 92.1% の精度テンプレート精度, (3) 92.9% のリコールテンプレート精度を平均で達成し, 最先端性能を示した。

Log parsing, which involves log template extraction from semi-structured logs to produce structured logs, is the first and the most critical step in automated log analysis. However, current log parsers suffer from limited effectiveness for two reasons. First, traditional data-driven log parsers solely rely on heuristics or handcrafted features designed by domain experts, which may not consistently perform well on logs from diverse systems. Second, existing supervised log parsers require model tuning, which is often limited to fixed training samples and causes sub-optimal performance across the entire log source. To address this limitation, we propose DivLog, an effective log parsing framework based on the in-context learning (ICL) ability of large language models (LLMs). Specifically, before log parsing, DivLog samples a small amount of offline logs as candidates by maximizing their diversity. Then, during log parsing, DivLog selects five appropriate labeled candidates as examples for each target log and constructs them into a prompt. By mining the semantics of examples in the prompt, DivLog generates a target log template in a training-free manner. In addition, we design a straightforward yet effective prompt format to extract the output and enhance the quality of the generated log templates. We conducted experiments on 16 widely-used public datasets. The results show that DivLog achieves (1) 98.1% Parsing Accuracy, (2) 92.1% Precision Template Accuracy, and (3) 92.9% Recall Template Accuracy on average, exhibiting state-of-the-art performance.
翻訳日:2024-03-01 18:48:48 公開日:2024-02-29
# 顔行動単位検出に基づく咬合認知学生の感情認識

Occlusion Aware Student Emotion Recognition based on Facial Action Unit Detection ( http://arxiv.org/abs/2307.09465v2 )

ライセンス: Link先を確認
Shrouk Wally, Ahmed Elsayed, Islam Alkabbany, Asem Ali, Aly Farag(参考訳) 米国立大学・大学における理科・技術・工学・数学(stem)学生の約半数が初年度末までに退学していることを踏まえると,教室環境の質を向上させることが重要である。 本研究は,教室における生徒の感情のモニタリングに焦点をあて,この問題に対処するためのアプローチを提案する。 感情認識モデルの性能に及ぼす異なる顔部位の影響を実験により評価した。 部分閉塞下のモデルをテストするために,人工閉塞データセットを導入した。 この研究の斬新さは、注意機構と適応的特徴学習を用いた顔行動単位(AUs)抽出のためのオクルージョン対応アーキテクチャの提案にある。 AUは後で、教室の設定で表情を分類するために使用することができる。 本研究は,情緒的エンゲージメント分析のための顔画像解析における隠蔽処理に関する貴重な知見を提供する。 提案実験は, 教室環境における顔分析モデルの排除と信頼性を高めることの重要性を実証するものである。 これらの発見は、オクルージョンが一般的である他の設定にも拡張できる。

Given that approximately half of science, technology, engineering, and mathematics (STEM) undergraduate students in U.S. colleges and universities leave by the end of the first year [15], it is crucial to improve the quality of classroom environments. This study focuses on monitoring students' emotions in the classroom as an indicator of their engagement and proposes an approach to address this issue. The impact of different facial parts on the performance of an emotional recognition model is evaluated through experimentation. To test the proposed model under partial occlusion, an artificially occluded dataset is introduced. The novelty of this work lies in the proposal of an occlusion-aware architecture for facial action units (AUs) extraction, which employs attention mechanism and adaptive feature learning. The AUs can be used later to classify facial expressions in classroom settings. This research paper's findings provide valuable insights into handling occlusion in analyzing facial images for emotional engagement analysis. The proposed experiments demonstrate the significance of considering occlusion and enhancing the reliability of facial analysis models in classroom environments. These findings can also be extended to other settings where occlusions are prevalent.
翻訳日:2024-03-01 18:48:21 公開日:2024-02-29
# 論理による大規模言語モデルにおけるゼロショット・チェーン・オブ・サート推論の強化

Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic ( http://arxiv.org/abs/2309.13339v2 )

ライセンス: Link先を確認
Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter(参考訳) 大規模言語モデルの最近の進歩は、様々な領域で顕著な一般化性を示している。 しかし、その推論能力は、特にマルチステップ推論を必要とするシナリオに直面した場合でも、まだ改善の余地がある。 大きな言語モデルは広い知識を持っているが、その推論はしばしば、この知識を効果的に活用して一貫性のある思考パラダイムを確立することに失敗する。 これらのモデルは、それらの推論手順が論理原理によって制約されないため、幻覚を示すこともある。 大規模言語モデルのゼロショット連鎖推論能力の向上を目的として,記号論理,特にReducetio ad Absurdumに根ざした原理を活用する自己改善フレームワークであるLoT(論理的思考)プロンプトを提案し,推論過程を段階的に体系的に検証し,修正する。 算術,コモンセンス,記号,因果推論,社会問題など多種多様な領域における言語課題に対する実験的評価は,論理学による推論の強化の有効性を示す。

Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their reasoning often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. These models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming at improving the zero-shot chain-of-thought reasoning ability of large language models, we propose LoT (Logical Thoughts) prompting, a self-improvement framework that leverages principles rooted in symbolic logic, particularly Reductio ad Absurdum, to systematically verify and rectify the reasoning processes step by step. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of enhanced reasoning by logic.
翻訳日:2024-03-01 18:43:35 公開日:2024-02-29
# 適応的バックプロパゲーションによる大規模言語モデルにおけるグリーンAI

Towards Green AI in Fine-tuning Large Language Models via Adaptive Backpropagation ( http://arxiv.org/abs/2309.13192v2 )

ライセンス: Link先を確認
Kai Huang, Hanyun Yin, Heng Huang, Wei Gao(参考訳) ファインチューニングは、トレーニング済みの大規模言語モデル(LLM)を下流アプリケーションに適用する最も効果的な方法である。 LLM対応AIアプリケーションの急速な成長とオープンソーシング LLM の民主化により、未経験者でも微調整が可能になったが、世界中で集中的に実施されている微調整はエネルギー消費と炭素フットプリントを著しく増加させ、環境に大きな影響を与える可能性がある。 グリーンaiに対する環境影響の軽減は、微調整のフラップの削減と直接相関するが、効率的なllm微調整における既存の技術は、微調整におけるバックプロパゲーションコストの無知のため、そのようなフラップの削減しかできない。 この制限に対処するため,本論文では,異なるテンソルのバックプロパゲーションコストと微調整モデル精度への寄与を適応的に評価する新しいLLM微調整手法であるGreenTrainerを提案する。 このようなGreenTrainerの選択は、エネルギー供給における炭素フットプリントとグリーンAIの必要性に柔軟に対応できるFLOPの削減という目標に基づいて行われる。 複数のオープンソースLLMモデルと抽象的な要約データセットに対する実験結果から、LLMモデル全体を微調整するのに対し、GreenTrainerはモデル精度を損なうことなく、最大64%のFLOPを細調整で保存できることがわかった。 LoRaのような既存の微調整技術と比較して、GreenTrainerはモデル精度を最大4%改善できる。

Fine-tuning is the most effective way of adapting pre-trained large language models (LLMs) to downstream applications. With the fast growth of LLM-enabled AI applications and democratization of open-souced LLMs, fine-tuning has become possible for non-expert individuals, but intensively performed LLM fine-tuning worldwide could result in significantly high energy consumption and carbon footprint, which may bring large environmental impact. Mitigating such environmental impact towards Green AI directly correlates to reducing the FLOPs of fine-tuning, but existing techniques on efficient LLM fine-tuning can only achieve limited reduction of such FLOPs, due to their ignorance of the backpropagation cost in fine-tuning. To address this limitation, in this paper we present GreenTrainer, a new LLM fine-tuning technique that adaptively evaluates different tensors' backpropagation costs and contributions to the fine-tuned model accuracy, to minimize the fine-tuning cost by selecting the most appropriate set of tensors in training. Such selection in GreenTrainer is made based on a given objective of FLOPs reduction, which can flexibly adapt to the carbon footprint in energy supply and the need in Green AI. Experiment results over multiple open-sourced LLM models and abstractive summarization datasets show that, compared to fine-tuning the whole LLM model, GreenTrainer can save up to 64% FLOPs in fine-tuning without any noticeable model accuracy loss. Compared to the existing fine-tuning techniques such as LoRa, GreenTrainer can achieve up to 4% improvement on model accuracy with on-par FLOPs reduction.
翻訳日:2024-03-01 18:43:17 公開日:2024-02-29
# オープンなデータサイエンス課題にパーソナライズされたフィードバックを提供するための自動グレーティングワークフロー

Automated grading workflows for providing personalized feedback to open-ended data science assignments ( http://arxiv.org/abs/2309.12924v2 )

ライセンス: Link先を確認
Federica Zoe Ricci and Catalina Mari Medina and Mine Dogucu(参考訳) オープンエンドの課題 - ラボレポートや学期期間のプロジェクトなど - は、データサイエンスと統計学の学生に、コミュニケーション、批判的思考、創造性スキルを開発する機会を提供する。 しかし、オープンエンドの課題に対して成績と形成的なフィードバックを提供することは、学生間で一貫して行うのは非常に時間がかかり、困難である。 本稿では,一般的なグレーディングワークフローのステップについて論じ,自動グレーディングワークフローと呼ばれるアプローチで,どのステップを自動化できるかを強調する。 新しいRパッケージである gradetools は、RStudio 内でこのアプローチを実装し、個別化されたフィードバックを提供しながら、効率的で一貫したグレーディングを容易にする。 このパッケージの開発の背後にあるモチベーションと設計の背景にある考慮事項を概説することによって、この記事では、データサイエンスと統計教育者に対して、グレーディングワークフローの改善、新しいグレーディングツールの開発、あるいはグレーディングワークフローアシスタントとしてのグレードツールの使用を検討するアイデアを提供したいと思っています。

Open-ended assignments - such as lab reports and semester-long projects - provide data science and statistics students with opportunities for developing communication, critical thinking, and creativity skills. However, providing grades and formative feedback to open-ended assignments can be very time consuming and difficult to do consistently across students. In this paper, we discuss the steps of a typical grading workflow and highlight which steps can be automated in an approach that we call automated grading workflow. We illustrate how gradetools, a new R package, implements this approach within RStudio to facilitate efficient and consistent grading while providing individualized feedback. By outlining the motivations behind the development of this package and the considerations underlying its design, we hope this article will provide data science and statistics educators with ideas for improving their grading workflows, possibly developing new grading tools or considering use gradetools as their grading workflow assistant.
翻訳日:2024-03-01 18:42:45 公開日:2024-02-29
# リハーサル:紛争解決を教えるために紛争をシミュレーションする

Rehearsal: Simulating Conflict to Teach Conflict Resolution ( http://arxiv.org/abs/2309.12309v2 )

ライセンス: Link先を確認
Omar Shaikh, Valentino Chai, Michele J. Gelfand, Diyi Yang, Michael S. Bernstein(参考訳) 対人対立は不快だが避けられない人生の事実である。 コンフリクトをうまくナビゲートすることは、意図的なプラクティスを通じて学べるスキルだが、効果的なトレーニングやフィードバックへのアクセスは少ない。 このアクセスを拡大するために、ユーザーが信頼できるシミュレートされた対話者とのコンフリクトをリハーサルできるシステムであるrehearsalを紹介し、代替の会話パスを識別する反事実的シナリオを探索し、特定のコンフリクト戦略を適用する方法と方法に関するフィードバックを通じて学習する。 ユーザはRehearsalを使って、オフィスの紛争から関係の問題まで、事前に定義されたさまざまなコンフリクトシナリオの処理を実践したり、独自の設定を選択できる。 リハーサルを実現するため,大言語モデルの出力を競合解決からイントラスト・ライツ・パワー(IRP)理論に基づいて条件付けするIRPプロンプトを開発した。 リハーサルは、IRPを使用して紛争解決理論に基づく発話を生成し、難しい会話をエスカレートする反現実的な紛争解決戦略にユーザーを誘導する。 対象間の評価では,訓練後の連盟と実際に対立する参加者が40名であった。 同じIRP理論をカバーする講義資料を持つコントロールグループと比較すると、リハーサルからの模擬トレーニングの参加者は、競争戦略のエスカレートを平均67%減らし、協力戦略を2倍にすることで、未解決の紛争におけるパフォーマンスを著しく向上させた。 全体として、リハーサルは、対人スキルの学習と実践のためのツールとして、言語モデルの潜在的有効性を強調している。

Interpersonal conflict is an uncomfortable but unavoidable fact of life. Navigating conflict successfully is a skill -- one that can be learned through deliberate practice -- but few have access to effective training or feedback. To expand this access, we introduce Rehearsal, a system that allows users to rehearse conflicts with a believable simulated interlocutor, explore counterfactual "what if?" scenarios to identify alternative conversational paths, and learn through feedback on how and when to apply specific conflict strategies. Users can utilize Rehearsal to practice handling a variety of predefined conflict scenarios, from office disputes to relationship issues, or they can choose to create their own setting. To enable Rehearsal, we develop IRP prompting, a method of conditioning output of a large language model on the influential Interest-Rights-Power (IRP) theory from conflict resolution. Rehearsal uses IRP to generate utterances grounded in conflict resolution theory, guiding users towards counterfactual conflict resolution strategies that help de-escalate difficult conversations. In a between-subjects evaluation, 40 participants engaged in an actual conflict with a confederate after training. Compared to a control group with lecture material covering the same IRP theory, participants with simulated training from Rehearsal significantly improved their performance in the unaided conflict: they reduced their use of escalating competitive strategies by an average of 67%, while doubling their use of cooperative strategies. Overall, Rehearsal highlights the potential effectiveness of language models as tools for learning and practicing interpersonal skills.
翻訳日:2024-03-01 18:41:57 公開日:2024-02-29
# CoT-BERT:Chain-of-Thoughtによる教師なし文表現の強化

CoT-BERT: Enhancing Unsupervised Sentence Representation through Chain-of-Thought ( http://arxiv.org/abs/2309.11143v2 )

ライセンス: Link先を確認
Bowen Zhang, Kehua Chang, Chunping Li(参考訳) 教師なし文表現学習は、ラベル付きデータへの依存を回避しつつ、複雑な意味情報に富んだ入力文を固定長ベクトルに変換することを目的としている。 コントラスト学習とプロンプトエンジニアリングによって推進されたこの分野の最近の進歩は、教師なし戦略と教師なし戦略のギャップを大幅に埋めている。 それでも、この軌道には、Chain-of-Thoughtの潜在的な利用法はほとんど使われていない。 BERTのような事前学習モデルの潜在能力を解き放つために,文表現のための2段階のアプローチを提案する。 その後、後者の位相の出力を入力文の埋め込みとして利用する。 さらなる性能向上のために,正のインスタンスと負のインスタンスのコントラストを組み込むことにより,拡張したインフォメーションロスを導入する。 さらに,入力文に対するプロンプトの摂動的影響を軽減するため,既存のテンプレート復調手法を改良する。 厳密な実験は、我々の方法であるCoT-BERTを、他のテキスト表現モデルや外部データベースを必要とせずに、頑健なベースラインを超越する。

Unsupervised sentence representation learning aims to transform input sentences into fixed-length vectors enriched with intricate semantic information while obviating the reliance on labeled data. Recent progress within this field, propelled by contrastive learning and prompt engineering, has significantly bridged the gap between unsupervised and supervised strategies. Nonetheless, the potential utilization of Chain-of-Thought, remains largely untapped in this trajectory. To unlock the latent capabilities of pre-trained models, such as BERT, we propose a two-stage approach for sentence representation: comprehension and summarization. Subsequently, the output of the latter phase is harnessed as the embedding of the input sentence. For further performance enhancement, we introduce an extended InfoNCE Loss by incorporating the contrast between positive and negative instances. Additionally, we also refine the existing template denoising technique to better mitigate the perturbing influence of prompts on input sentences. Rigorous experimentation substantiates our method, CoT-BERT, transcending a suite of robust baselines without necessitating other text representation models or external databases.
翻訳日:2024-03-01 18:41:26 公開日:2024-02-29
# ステレオカメラオンライン自己診断のための修正ホモグラフィについて

Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration ( http://arxiv.org/abs/2309.10314v3 )

ライセンス: Link先を確認
Hongbo Zhao, Yikang Zhang, Qijun Chen, Rui Fan(参考訳) ステレオカメラの外部パラメータの正確な推定がステレオマッチングアルゴリズムの性能を保証する鍵となる。 先行技術では、ステレオカメラのオンライン自己校正は、ステレオ整流の原理を考慮せずに、特殊な視覚オドメトリー問題として定式化されている。 本稿では,1対のイメージしか利用できない場合において,新しいステレオカメラオンライン自己校正アルゴリズムの開発の基礎となる,ホモグラフィの整流化という概念を初めて深く掘り下げた。 さらに,ステレオ映像列の存在下でのグローバル最適extrinsicパラメータ推定のための簡易かつ効果的な解法を提案する。 さらに,3つのオイラー角と3つの変換ベクトルを用いた性能定量化の非現実性を強調した。 そこで本研究では,外因性パラメータ推定のロバスト性と精度を定量化する4つの新しい評価指標を提案する。 提案手法の有効性を検証するため,各種実験装置を用いた室内および屋外の広範囲な実験を行った。 総合評価結果は,ベースラインアルゴリズムと比較して優れた性能を示した。 ソースコード、デモビデオ、サプリメントはmias.group/stereocalibratorで公開されている。

Accurate estimation of stereo camera extrinsic parameters is the key to guarantee the performance of stereo matching algorithms. In prior arts, the online self-calibration of stereo cameras has commonly been formulated as a specialized visual odometry problem, without taking into account the principles of stereo rectification. In this paper, we first delve deeply into the concept of rectifying homography, which serves as the cornerstone for the development of our novel stereo camera online self-calibration algorithm, for cases where only a single pair of images is available. Furthermore, we introduce a simple yet effective solution for global optimum extrinsic parameter estimation in the presence of stereo video sequences. Additionally, we emphasize the impracticality of using three Euler angles and three components in the translation vectors for performance quantification. Instead, we introduce four new evaluation metrics to quantify the robustness and accuracy of extrinsic parameter estimation, applicable to both single-pair and multi-pair cases. Extensive experiments conducted across indoor and outdoor environments using various experimental setups validate the effectiveness of our proposed algorithm. The comprehensive evaluation results demonstrate its superior performance in comparison to the baseline algorithm. Our source code, demo video, and supplement are publicly available at mias.group/StereoCalibrator.
翻訳日:2024-03-01 18:40:49 公開日:2024-02-29
# 視覚ベースのアジャイル飛行におけるロバストなシーン転送強化のためのコントラスト学習

Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based Agile Flight ( http://arxiv.org/abs/2309.09865v3 )

ライセンス: Link先を確認
Jiaxu Xing, Leonard Bauersfeld, Yunlong Song, Chunwei Xing, Davide Scaramuzza(参考訳) 視覚に基づくモバイルロボティクスアプリケーションのためのシーン転送は、非常に重要で困難な問題である。 ロボットの実用性は、十分に制御された実験室環境以外で、現実世界でタスクを実行する能力に大きく依存する。 既存のシーン転送のエンドツーエンドのポリシー学習アプローチは、しばしばサンプル効率の低下や限定的な一般化能力に悩まされ、モバイルロボティクスアプリケーションには適さない。 本研究では,ゼロショットシーン転送と実世界の展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。 組み込みに依存するコントロールポリシは、デプロイメント環境の微調整を必要とせずに、見えない環境で動作することができる。 私たちは、アジャイルなビジョンベースのクアドロター飛行のタスクにおける我々のアプローチのパフォーマンスをデモします。 大規模なシミュレーションと実世界の実験により,本手法はトレーニング領域を超えて一般化し,全てのベースラインを上回る結果となった。

Scene transfer for vision-based mobile robotics applications is a highly relevant and challenging problem. The utility of a robot greatly depends on its ability to perform a task in the real world, outside of a well-controlled lab environment. Existing scene transfer end-to-end policy learning approaches often suffer from poor sample efficiency or limited generalization capabilities, making them unsuitable for mobile robotics applications. This work proposes an adaptive multi-pair contrastive learning strategy for visual representation learning that enables zero-shot scene transfer and real-world deployment. Control policies relying on the embedding are able to operate in unseen environments without the need for finetuning in the deployment environment. We demonstrate the performance of our approach on the task of agile, vision-based quadrotor flight. Extensive simulation and real-world experiments demonstrate that our approach successfully generalizes beyond the training domain and outperforms all baselines.
翻訳日:2024-03-01 18:40:31 公開日:2024-02-29
# 大規模言語モデルにおけるRe-Readingの改善

Re-Reading Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2309.06275v2 )

ライセンス: Link先を確認
Xiaohan Xu, Chongyang Tao, Tao Shen, Can Xu, Hongbo Xu, Guodong Long, Jian-guang Lou(参考訳) 既定の大規模言語モデル(llms)の推論能力を高めるために,質問を入力として提示する,単純かつ汎用的かつ効果的なプロンピング手法re2,すなわち \textbf{re}-\textbf{re} を導入する。 アウトプットの推論プロセスを解明しようとするchain-of-thought(cot)のような多くの思考誘発プロンプト手法とは異なり、re2は質問を2回処理することで焦点を入力にシフトさせ、理解プロセスを強化する。 その結果、Re2 は CoT を含むほとんどの思考を緩和する手法と強い一般化と互換性を示す。 重要なことに、Re2は、第1パスが第2パスのグローバル情報を提供するため、一方向デコーダのみのLLMで"双方向"エンコーディングを容易にする。 まず,re2 の基礎として予備的な実験を行い,その「双方向」注意機構の実現可能性を示す。 そして、14のデータセットにまたがる広範な推論ベンチマークでre2を評価し、112の実験を行い、その有効性と汎用性を検証する。 以上の結果から,vanilla chatgpt のいくつかのシナリオを除き,re2 は llm の推論性能を,単純な再読解戦略によって一貫して向上させることが示唆された。 さらなる分析により、Re2の適応性を明らかにし、異なるLLMと効果的に統合する方法、思考の緩和、アンサンブル戦略を示す。 私たちのコードは \url{https://github.com/Tebmer/reading-LLM-Reasoning/} で利用可能です。

To enhance the reasoning capabilities of off-the-shelf Large Language Models (LLMs), we introduce a simple, yet general and effective prompting method, Re2, i.e., \textbf{Re}-\textbf{Re}ading the question as input. Unlike most thought-eliciting prompting methods, such as Chain-of-Thought (CoT), which aim to elicit the reasoning process in the output, Re2 shifts the focus to the input by processing questions twice, thereby enhancing the understanding process. Consequently, Re2 demonstrates strong generality and compatibility with most thought-eliciting prompting methods, including CoT. Crucially, Re2 facilitates a "bidirectional" encoding in unidirectional decoder-only LLMs because the first pass could provide global information for the second pass. We begin with a preliminary empirical study as the foundation of Re2, illustrating its potential to enable "bidirectional" attention mechanisms. We then evaluate Re2 on extensive reasoning benchmarks across 14 datasets, spanning 112 experiments, to validate its effectiveness and generality. Our findings indicate that, with the exception of a few scenarios on vanilla ChatGPT, Re2 consistently enhances the reasoning performance of LLMs through a simple re-reading strategy. Further analyses reveal Re2's adaptability, showing how it can be effectively integrated with different LLMs, thought-eliciting prompting, and ensemble strategies. Our code is available at \url{https://github.com/Tebmer/Rereading-LLM-Reasoning/}
翻訳日:2024-03-01 18:40:15 公開日:2024-02-29
# ロボット操作のための物理的接地視覚言語モデル

Physically Grounded Vision-Language Models for Robotic Manipulation ( http://arxiv.org/abs/2309.02561v3 )

ライセンス: Link先を確認
Jensen Gao, Bidipta Sarkar, Fei Xia, Ted Xiao, Jiajun Wu, Brian Ichter, Anirudha Majumdar, Dorsa Sadigh(参考訳) 視覚言語モデル(vlms)の最近の進歩は、視覚質問応答や画像キャプションといったタスクのパフォーマンス向上につながった。 その結果、これらのモデルは現在、特にロボット操作のような領域において、物理的世界に関する推論に適している。 しかしながら、現在のVLMは、一般的な物体の物理的概念(材料、脆弱性など)に対する理解に限られており、そのような物体に対する相互作用や物理的推論を含むロボット操作タスクにおいて有用性を制限する。 この制限に対処するために、39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。 physobjects 上の vlm の微調整は、視覚から人間の先行概念を捉えることにより、保持された概念への一般化を含む物理的対象概念の理解を改善することを実証する。 我々は、この物理接地VLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込んで、物理接地VLMを活用できないベースラインと比較して、物理対象概念の推論を必要とするタスクにおける計画性能の向上を示す。 さらに、実際のロボットに物理的に接地したVLMの利点を説明し、タスク成功率を向上させる。 私たちはデータセットをリリースし、結果のさらなる詳細と可視化をhttps://iliad.stanford.edu/pg-vlm/で発表します。

Recent advances in vision-language models (VLMs) have led to improved performance on tasks such as visual question answering and image captioning. Consequently, these models are now well-positioned to reason about the physical world, particularly within domains such as robotic manipulation. However, current VLMs are limited in their understanding of the physical concepts (e.g., material, fragility) of common objects, which restricts their usefulness for robotic manipulation tasks that involve interaction and physical reasoning about such objects. To address this limitation, we propose PhysObjects, an object-centric dataset of 39.6K crowd-sourced and 417K automated physical concept annotations of common household objects. We demonstrate that fine-tuning a VLM on PhysObjects improves its understanding of physical object concepts, including generalization to held-out concepts, by capturing human priors of these concepts from visual appearance. We incorporate this physically grounded VLM in an interactive framework with a large language model-based robotic planner, and show improved planning performance on tasks that require reasoning about physical object concepts, compared to baselines that do not leverage physically grounded VLMs. We additionally illustrate the benefits of our physically grounded VLM on a real robot, where it improves task success rates. We release our dataset and provide further details and visualizations of our results at https://iliad.stanford.edu/pg-vlm/.
翻訳日:2024-03-01 18:39:29 公開日:2024-02-29
# 脳イメージングのためのエッジ対応ハードクラスタリンググラフポーリング

Edge-aware Hard Clustering Graph Pooling for Brain Imaging ( http://arxiv.org/abs/2308.11909v7 )

ライセンス: Link先を確認
Cheng Zhu, Jiayi Zhu, Xi Wu, Lijuan Zhang, Shuqi Yang, Ping Liang, Honghan Chen, Ying Tan(参考訳) グラフ畳み込みネットワーク(GCN)は、異なる脳領域間の非ユークリッド空間依存性を捉えることができる。 GCNの重要な要素であるグラフプーリング演算子は、表現学習能力を高め、異常な脳地図の取得を容易にする。 しかし、既存の研究のほとんどは、元のエッジ機能を無視しながら、ノードの観点からのみグラフプーリング演算子を設計する。 これは、グラフプーリングアプリケーションのシナリオを制限し、重要なサブ構造をキャプチャする能力を低下させる。 本稿では,エッジ認識型ハードクラスタリンググラフプール(ehcpool)を提案する。 EHCPoolは当初、エッジ情報を利用してノードの重要性を評価する'Edge-to-Node'スコア基準を導入した。 その後,グラフの難解なクラスタリング割り当てを適応的に学習するために,エッジスコアを導いた革新的な反復nトップ戦略が開発された。 さらに、N-Eアグリゲーション戦略は、各独立部分グラフのノードとエッジの特徴を集約するように設計されている。 多地点の公開データセットに関する大規模な実験は、提案モデルの優越性と堅牢性を示している。 EHCPoolは、データ駆動の観点から異なるタイプの機能不全脳ネットワークを探索する可能性がある。 メソッドコード:https://github.com/swfen/EHCPool

Graph Convolutional Networks (GCNs) can capture non-Euclidean spatial dependence between different brain regions. The graph pooling operator, a crucial element of GCNs, enhances the representation learning capability and facilitates the acquisition of abnormal brain maps. However, most existing research designs graph pooling operators solely from the perspective of nodes while disregarding the original edge features. This confines graph pooling application scenarios and diminishes its ability to capture critical substructures. In this paper, we propose a novel edge-aware hard clustering graph pool (EHCPool), which is tailored to dominant edge features and redefines the clustering process. EHCPool initially introduced the 'Edge-to-Node' score criterion which utilized edge information to evaluate the significance of nodes. An innovative Iteration n-top strategy was then developed, guided by edge scores, to adaptively learn sparse hard clustering assignments for graphs. Additionally, a N-E Aggregation strategy is designed to aggregate node and edge features in each independent subgraph. Extensive experiments on the multi-site public datasets demonstrate the superiority and robustness of the proposed model. More notably, EHCPool has the potential to probe different types of dysfunctional brain networks from a data-driven perspective. Method code: https://github.com/swfen/EHCPool
翻訳日:2024-03-01 18:38:21 公開日:2024-02-29
# 物体操作のための画像強化の活用:物体中心学習における解釈可能な制御性を目指して

Leveraging Image Augmentation for Object Manipulation: Towards Interpretable Controllability in Object-Centric Learning ( http://arxiv.org/abs/2310.08929v3 )

ライセンス: Link先を確認
Jinwoo Kim, Janghyuk Choi, Jaehyun Kang, Changyeon Lee, Ho-Jin Choi, Seon Joo Kim(参考訳) 人工ニューラルネットワークにおける結合問題は,シンボル的実体の観点から世界の理解を通じて人間レベルの認識能力を達成することを目的として,積極的に研究されている。 特にコンピュータビジョンの分野では、オブジェクト中心学習(OCL)は、オブジェクト表現やスロットを取得することで複雑なシーンをよりよく理解するために広く研究されている。 OCLの最近の研究は複雑な画像やビデオで進歩してきたが、オブジェクト表現に対する解釈可能性と相互作用性は、OCLの分野ではまだ約束を保っている。 本稿では,画像拡張戦略を利用して,スロット上での解釈可能な制御性学習の可能性を検討するために,画像拡張によるスロット注意(Slot Attention with Image Aug)を提案する。 また,スロットに対して反復的かつ可逆的な制御を導入することで,制御可能なスロットにおける持続可能性の概念を考案する。 広範な実証研究と理論的検証により,提案手法の有効性を確認し,オブジェクト表現の解釈可能かつ持続可能な制御を可能にする。

The binding problem in artificial neural networks is actively explored with the goal of achieving human-level recognition skills through the comprehension of the world in terms of symbol-like entities. Especially in the field of computer vision, object-centric learning (OCL) is extensively researched to better understand complex scenes by acquiring object representations or slots. While recent studies in OCL have made strides with complex images or videos, the interpretability and interactivity over object representation remain largely uncharted, still holding promise in the field of OCL. In this paper, we introduce a novel method, Slot Attention with Image Augmentation (SlotAug), to explore the possibility of learning interpretable controllability over slots in a self-supervised manner by utilizing an image augmentation strategy. We also devise the concept of sustainability in controllable slots by introducing iterative and reversible controls over slots with two proposed submethods: Auxiliary Identity Manipulation and Slot Consistency Loss. Extensive empirical studies and theoretical validation confirm the effectiveness of our approach, offering a novel capability for interpretable and sustainable control of object representations.
翻訳日:2024-03-01 18:33:32 公開日:2024-02-29
# 事前学習されたトランスフォーマーは勾配降下によって文脈内学習をするか?

Revisiting the Hypothesis: Do pretrained Transformers Learn In-Context by Gradient Descent? ( http://arxiv.org/abs/2310.08540v4 )

ライセンス: Link先を確認
Lingfeng Shen, Aayush Mishra, Daniel Khashabi(参考訳) LLMにおける文脈学習(ICL)の出現は、ほとんど理解されていない重要な現象である。 iclを説明するために、近年の研究では勾配降下 (gd) と理論的に結びつけようとしている。 この接続は、実際にトレーニング済みのモデルで保たれるのか? 我々は,言語モデルを訓練する実践的文脈と,その文脈をかなり異なるものにする先行作業における制約仮定を強調した。 例えば、これらの研究で使われる理論的な手作りの重みは実際の llm と一致しない性質を持つ。 さらに、実験的な検証では、野生での創発的なiclと異なるicl目的(iclを明示的に訓練するモデル)を使用している。 実際のモデルの証拠も探しています。 iclとgdは,実演を観察する順序に対する感度が異なることが観察された。 最後に,自然環境下でのicl仮説とgd仮説を比較した。 自然データ(llama-7b)に基づいて事前学習した言語モデルについて,包括的実証分析を行う。 3つのパフォーマンス指標の比較では,データセットやモデル,実演数など,さまざまな要因の関数として,ICLとGDの不整合挙動に着目した。 ICLとGDは言語モデルの出力分布を異なる方法で変更する。 これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究を求めていることを示している。

The emergence of In-Context Learning (ICL) in LLMs remains a significant phenomenon with little understanding. To explain ICL, recent studies try to theoretically connect it to Gradient Descent (GD). We ask, does this connection hold up in actual pre-trained models? We highlight the limiting assumptions in prior works that make their context considerably different from the practical context in which language models are trained. For example, the theoretical hand-constructed weights used in these studies have properties that don't match those of real LLMs. Furthermore, their experimental verification uses ICL objective (training models explicitly for ICL), which differs from the emergent ICL in the wild. We also look for evidence in real models. We observe that ICL and GD have different sensitivity to the order in which they observe demonstrations. Finally, we probe and compare the ICL vs. GD hypothesis in a natural setting. We conduct comprehensive empirical analyses on language models pre-trained on natural data (LLaMa-7B). Our comparisons of three performance metrics highlight the inconsistent behavior of ICL and GD as a function of various factors such as datasets, models, and the number of demonstrations. We observe that ICL and GD modify the output distribution of language models differently. These results indicate that the equivalence between ICL and GD remains an open hypothesis and calls for further studies.
翻訳日:2024-03-01 18:33:13 公開日:2024-02-29
# 2022年フランス大統領選挙におけるTwitterハッシュタグのトレンド分析

Analyzing Trendy Twitter Hashtags in the 2022 French Election ( http://arxiv.org/abs/2310.07576v2 )

ライセンス: Link先を確認
Aamir Mandviwalla, Lake Yin, Boleslaw K. Szymanski(参考訳) ソーシャルメディアユーザーの将来の活動を予測するために訓練された回帰は、正確な予測のために豊富な機能を必要とする。 このような特徴を生成するために多くの先進的なモデルが存在するが、膨大なデータセット上で実行する場合、計算の時間的複雑さはしばしば禁止される。 いくつかの研究は、単純なセマンティックネットワーク機能は複雑な計算を必要とせずに回帰に使えるほどリッチであることを示した。 機械学習タスクのユーザレベル機能として意味ネットワークを利用する手法を提案する。 2022年のフランス大統領選挙に関する370万ツイートのコーパスから、1037のtwitterハッシュタグのセマンティックネットワークを用いて実験を行った。 ハッシュタグはノードであり、重み付けされたエッジは、両方のハッシュタグと対話するTwitterユーザ数を反映したハッシュタグを接続する。 グラフは最大スパンニングツリーに変換され、最も人気のあるハッシュタグをルートノードとして、ハッシュタグ間の階層を構成する。 次に、このツリーに基づいて各ユーザにベクター機能を提供する。 セマンティック機能の有用性を検証するために,怒り,楽しみ,嫌悪感などの6つの感情で各ユーザの反応率を予測する回帰実験を行った。 セマンティクス機能は回帰でうまく機能し、ほとんどの感情は$r^2$が0.5を超える。 これらの結果から,ビッグデータ上でのソーシャルメディア応答のさらなる予測実験において,当社のセマンティック機能は有用であると考えられる。

Regressions trained to predict the future activity of social media users need rich features for accurate predictions. Many advanced models exist to generate such features; however, the time complexities of their computations are often prohibitive when they run on enormous data-sets. Some studies have shown that simple semantic network features can be rich enough to use for regressions without requiring complex computations. We propose a method for using semantic networks as user-level features for machine learning tasks. We conducted an experiment using a semantic network of 1037 Twitter hashtags from a corpus of 3.7 million tweets related to the 2022 French presidential election. A bipartite graph is formed where hashtags are nodes and weighted edges connect the hashtags reflecting the number of Twitter users that interacted with both hashtags. The graph is then transformed into a maximum-spanning tree with the most popular hashtag as its root node to construct a hierarchy amongst the hashtags. We then provide a vector feature for each user based on this tree. To validate the usefulness of our semantic feature we performed a regression experiment to predict the response rate of each user with six emotions like anger, enjoyment, or disgust. Our semantic feature performs well with the regression with most emotions having $R^2$ above 0.5. These results suggest that our semantic feature could be considered for use in further experiments predicting social media response on big data-sets.
翻訳日:2024-03-01 18:32:53 公開日:2024-02-29
# スタイル変換に対する抵抗はグローバル形状バイアスに等しいか? グローバル形状構成におけるネットワーク感度の測定

Does resistance to style-transfer equal Global Shape Bias? Measuring network sensitivity to global shape configuration ( http://arxiv.org/abs/2310.07555v3 )

ライセンス: Link先を確認
Ziqi Wen, Tianqin Li, Zhi Jing, Tai Sing Lee(参考訳) ディープラーニングモデルは強いテクスチャバイアスを示すことが知られており、人間はオブジェクト認識のグローバルな形状構造に大きく依存する傾向がある。 モデルのグローバルな形状バイアスを評価するための現在のベンチマークは、スタイル伝達の攻撃に対する抵抗がモデルにおけるグローバルな構造感度の発達に関連しているという仮定で、スタイル変換された画像の集合である。 本研究では,スタイル伝達画像で訓練されたネットワークが,スタイルを無視する傾向にあることを示すが,その形状バイアスは主に局所的な詳細から生じる。 グローバルな構造感度の直接測定として, \textbf{Disrupted Structure Testbench (DiST) を提供する。 実験では,ImageNet-1Kから得られた2400枚の原画像と,テクスチャ合成プログラムを通じてテクスチャを保ちながら,原画像のグローバルな形状の2つの画像を添付した。 2) 教師付き訓練された視覚トランスフォーマー (vit) は位置埋め込みから全体空間情報を失うため, dist上の畳み込みニューラルネットワーク (convolutional neural networks, cnns) よりも大きなアドバンテージは得られない。 自己教師付き学習法では特にマスクオートエンコーダはvitのグローバル構造感度を大幅に向上させる。 3)大域構造感度の向上はスタイル伝達に対する抵抗に直交し,大域的形状構造と局所的テクスチャディテールの関係は/または関係ではないことを示す。 DiST画像とスタイル変換画像のトレーニングは相補的であり、ネットワークのトレーニングと組み合わせることで、局所的な特徴のグローバルな形状感度と堅牢性を高めることができる。 コードはgithubでホストされます。 https://github.com/leelabcnbc/dist.com/

Deep learning models are known to exhibit a strong texture bias, while human tends to rely heavily on global shape structure for object recognition. The current benchmark for evaluating a model's global shape bias is a set of style-transferred images with the assumption that resistance to the attack of style transfer is related to the development of global structure sensitivity in the model. In this work, we show that networks trained with style-transfer images indeed learn to ignore style, but its shape bias arises primarily from local detail. We provide a \textbf{Disrupted Structure Testbench (DiST)} as a direct measurement of global structure sensitivity. Our test includes 2400 original images from ImageNet-1K, each of which is accompanied by two images with the global shapes of the original image disrupted while preserving its texture via the texture synthesis program. We found that \textcolor{black}{(1) models that performed well on the previous cue-conflict dataset do not fare well in the proposed DiST; (2) the supervised trained Vision Transformer (ViT) lose its global spatial information from positional embedding, leading to no significant advantages over Convolutional Neural Networks (CNNs) on DiST. While self-supervised learning methods, especially mask autoencoder significantly improves the global structure sensitivity of ViT. (3) Improving the global structure sensitivity is orthogonal to resistance to style-transfer, indicating that the relationship between global shape structure and local texture detail is not an either/or relationship. Training with DiST images and style-transferred images are complementary, and can be combined to train network together to enhance the global shape sensitivity and robustness of local features.} Our code will be hosted in github: https://github.com/leelabcnbc/DiST
翻訳日:2024-03-01 18:32:32 公開日:2024-02-29
# 大規模言語モデルのための意味不変ロバストな透かし

A Semantic Invariant Robust Watermark for Large Language Models ( http://arxiv.org/abs/2310.06356v2 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shiao Meng and Lijie Wen(参考訳) 大規模言語モデル(LLM)のための透かしアルゴリズムは,LLMによって生成されたテキストを極めて高精度に検出できる。 このようなアルゴリズムは通常、世代毎にLLMのロジットに余分な透かしロジットを追加する。 しかし、以前のアルゴリズムは攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面している。 これは、トークンのウォーターマークのロジットが、いくつかの先行するトークンによって決定されるためである。 本研究では,LLMの攻撃堅牢性とセキュリティ堅牢性の両方を提供する意味不変な透かし手法を提案する。 私たちの作業における透かしのロジットは、先行するすべてのトークンの意味論によって決定されます。 具体的には、他の埋め込み LLM を用いて、先行するトークンのセマンティック埋め込みを生成し、これらのセマンティック埋め込みをトレーニングされた透かしモデルを通して透かしログに変換する。 その後の分析と実験により,同義語置換とテキストパラフレーズ設定という意味的不変な設定において,本手法の攻撃堅牢性を示した。 最後に、我々の透かしが適切なセキュリティの堅牢性を持っていることも示します。 私たちのコードとデータはhttps://github.com/thu-bpm/robust_watermarkで入手できます。

Watermark algorithms for large language models (LLMs) have achieved extremely high accuracy in detecting text generated by LLMs. Such algorithms typically involve adding extra watermark logits to the LLM's logits at each generation step. However, prior algorithms face a trade-off between attack robustness and security robustness. This is because the watermark logits for a token are determined by a certain number of preceding tokens; a small number leads to low security robustness, while a large number results in insufficient attack robustness. In this work, we propose a semantic invariant watermarking method for LLMs that provides both attack robustness and security robustness. The watermark logits in our work are determined by the semantics of all preceding tokens. Specifically, we utilize another embedding LLM to generate semantic embeddings for all preceding tokens, and then these semantic embeddings are transformed into the watermark logits through our trained watermark model. Subsequent analyses and experiments demonstrated the attack robustness of our method in semantically invariant settings: synonym substitution and text paraphrasing settings. Finally, we also show that our watermark possesses adequate security robustness. Our code and data are available at https://github.com/THU-BPM/Robust_Watermark.
翻訳日:2024-03-01 18:32:01 公開日:2024-02-29
# 大規模言語モデルによるデジタルヘルスインタフェースの再定義

Redefining Digital Health Interfaces with Large Language Models ( http://arxiv.org/abs/2310.03560v3 )

ライセンス: Link先を確認
Fergus Imrie, Paulius Rauba, Mihaela van der Schaar(参考訳) デジタルヘルスツールは、医療サービスのデリバリーを大幅に改善する可能性がある。 しかし、ユーザビリティと信頼に関わる課題があるため、その採用は比較的限定されている。 大規模言語モデル(llm)は、複雑な情報を処理し、人間品質のテキストを生成する能力を持つ汎用モデルとして登場し、医療における豊富な応用可能性を示している。 LLMを臨床環境で直接適用することは容易ではないが、LLMは一貫性のない、あるいは非感覚的な回答を与える可能性がある。 臨床医とデジタル技術との新たなインターフェースとして,LCMベースのシステムで外部ツールを活用できることを実証する。 これにより、幻覚などの臨床環境におけるLSMの使用に関する現在の問題に対処しながら、デジタルヘルスケアツールやAIモデルの実用性と実践的影響を高めることができる。 心血管疾患のリスク予測の例を例に, LLMベースのインターフェースについて述べる。 我々は、自動機械学習を用いた新しい予後ツールを開発し、LCMが我々のモデルと既存のリスクスコアの両方にユニークなインターフェースを提供することができることを示す。

Digital health tools have the potential to significantly improve the delivery of healthcare services. However, their adoption remains comparatively limited due, in part, to challenges surrounding usability and trust. Large Language Models (LLMs) have emerged as general-purpose models with the ability to process complex information and produce human-quality text, presenting a wealth of potential applications in healthcare. Directly applying LLMs in clinical settings is not straightforward, however, with LLMs susceptible to providing inconsistent or nonsensical answers. We demonstrate how LLM-based systems can utilize external tools and provide a novel interface between clinicians and digital technologies. This enhances the utility and practical impact of digital healthcare tools and AI models while addressing current issues with using LLMs in clinical settings such as hallucinations. We illustrate LLM-based interfaces with the example of cardiovascular disease risk prediction. We develop a new prognostic tool using automated machine learning and demonstrate how LLMs can provide a unique interface to both our model and existing risk scores, highlighting the benefit compared to traditional interfaces for digital tools.
翻訳日:2024-03-01 18:31:43 公開日:2024-02-29
# ループグラフによる自動誘導車両の効率的なオンラインスケジューリングとルーティング

Efficient Online Scheduling and Routing for Automated Guided Vehicles In Loop-Based Graphs ( http://arxiv.org/abs/2310.02195v2 )

ライセンス: Link先を確認
Louis Stubbe, Jens Goemaere, Jan Goedgebeur(参考訳) 自動誘導車両(AGV)は様々な産業で広く使われており、効率的な運用には競合のない方法でスケジューリングとルーティングが不可欠である。 本稿では,任意のキャパシティを持つAGVに対して,オンラインかつコンフリクトのないスケジューリングとルーティング問題を解決するループベースのアルゴリズムを提案する。 提案アルゴリズムは, 正確な手法, 欲求的ヒューリスティック, メタヒューリスティックとを比較した。 実生産プラントを表すモデル上で理論的および実例を用いて、このアルゴリズムが他のアルゴリズムより優れているか、少ない計算時間で等しく良い解が得られることを実験的に示す。

Automated guided vehicles (AGVs) are widely used in various industries, and scheduling and routing them in a conflict-free manner is crucial to their efficient operation. We propose a loop-based algorithm that solves the online, conflict-free scheduling and routing problem for AGVs with any capacity and ordered jobs in loop-based graphs. The proposed algorithm is compared against an exact method, a greedy heuristic and a metaheuristic. We experimentally show, using theoretical and real instances on a model representing a real manufacturing plant, that this algorithm either outperforms the other algorithms or gets an equally good solution in less computing time.
翻訳日:2024-03-01 18:31:24 公開日:2024-02-29
# スコアダイナミクス:条件拡散モデルによるピコ秒時間ステップによる分子動力学のスケーリング

Score dynamics: scaling molecular dynamics with picosecond timesteps via conditional diffusion model ( http://arxiv.org/abs/2310.01678v3 )

ライセンス: Link先を確認
Tim Hsu, Babak Sadigh, Vasily Bulatov, Fei Zhou(参考訳) 分子動力学シミュレーションから大きな時間ステップを持つ加速進化演算子を学習するための一般的なフレームワークであるスコアダイナミクス(SD)を提案する。 sdは、動的自由度に関する遷移ログ確率のスコア、または導関数を中心に構成される。 後者はmdの力場と同じ役割を担っているが、拡散確率モデルを推論し、典型的なmd時間ステップよりも桁違いに大きいsd時間ステップ内の力学変数の離散遷移を生成するのに用いられる。 本研究では,10~psの時間ステップで進化する現実的な分子系のグラフニューラルネットワークに基づくスコアダイナミクスモデルを構築する。 水溶液中におけるアラニンジペプチドおよび短いアルカンのケーススタディにおいてスコアダイナミクスの有効性を示す。 条件付き確率の定常分布から導かれる平衡予測と遷移速度と遷移経路の速度論的予測の両方がMDとよく一致している。 現在のSD実装は,本研究で研究したシステムに対して,MDよりも約2桁高速である。 オープンチャレンジと、スコアダイナミクスを改善するための将来の改善の可能性についても論じる。

We propose score dynamics (SD), a general framework for learning accelerated evolution operators with large timesteps from molecular-dynamics simulations. SD is centered around scores, or derivatives of the transition log-probability with respect to the dynamical degrees of freedom. The latter play the same role as force fields in MD but are used in denoising diffusion probability models to generate discrete transitions of the dynamical variables in an SD timestep, which can be orders of magnitude larger than a typical MD timestep. In this work, we construct graph neural network based score dynamics models of realistic molecular systems that are evolved with 10~ps timesteps. We demonstrate the efficacy of score dynamics with case studies of alanine dipeptide and short alkanes in aqueous solution. Both equilibrium predictions derived from the stationary distributions of the conditional probability and kinetic predictions for the transition rates and transition paths are in good agreement with MD. Our current SD implementation is about two orders of magnitude faster than the MD counterpart for the systems studied in this work. Open challenges and possible future remedies to improve score dynamics are also discussed.
翻訳日:2024-03-01 18:31:11 公開日:2024-02-29
# 拘束・透かし生成のためのミラー拡散モデル

Mirror Diffusion Models for Constrained and Watermarked Generation ( http://arxiv.org/abs/2310.01236v2 )

ライセンス: Link先を確認
Guan-Horng Liu, Tianrong Chen, Evangelos A. Theodorou, Molei Tao(参考訳) 複雑な高次元データ分布の学習における拡散モデルの成功は、部分的には、解析的遷移核とスコア関数を持つ拡散過程を構築する能力に起因している。 トラクタビリティは、安定な回帰損失を持つシミュレーションのないフレームワークとなり、そこから逆生成過程を大規模に学習することができる。 しかし、データが標準ユークリッド空間とは対照的に制約された集合に制限されている場合、これらの望ましい特徴は以前の試みによって失われるように見える。 本研究では, トラクタビリティを損なうことなく凸拘束集合上のデータを生成する新しい拡散モデルであるミラー拡散モデル(MDM)を提案する。 これはミラー写像から構築された双対空間における拡散過程の学習によって達成され、これは決定的に標準ユークリッド空間である。 我々は,従来の手法よりもMDMの性能が大幅に向上した,simplicesや$\ell_2$-ballsなどの制約セットに対するミラーマップの効率的な計算法を導出した。 安全性とプライバシの目的でも、MDMが魅力的なアプローチとして機能する生成データに、目に見えないが定量的な情報(すなわち透かし)を埋め込む新しいメカニズムとして制約セットを探求する。 本研究は,複雑な領域における可搬拡散の学習に新たなアルゴリズム的機会をもたらす。 私たちのコードはhttps://github.com/ghliu/mdmで利用可能です。

Modern successes of diffusion models in learning complex, high-dimensional data distributions are attributed, in part, to their capability to construct diffusion processes with analytic transition kernels and score functions. The tractability results in a simulation-free framework with stable regression losses, from which reversed, generative processes can be learned at scale. However, when data is confined to a constrained set as opposed to a standard Euclidean space, these desirable characteristics appear to be lost based on prior attempts. In this work, we propose Mirror Diffusion Models (MDM), a new class of diffusion models that generate data on convex constrained sets without losing any tractability. This is achieved by learning diffusion processes in a dual space constructed from a mirror map, which, crucially, is a standard Euclidean space. We derive efficient computation of mirror maps for popular constrained sets, such as simplices and $\ell_2$-balls, showing significantly improved performance of MDM over existing methods. For safety and privacy purposes, we also explore constrained sets as a new mechanism to embed invisible but quantitative information (i.e., watermarks) in generated data, for which MDM serves as a compelling approach. Our work brings new algorithmic opportunities for learning tractable diffusion on complex domains. Our code is available at https://github.com/ghliu/mdm
翻訳日:2024-03-01 18:30:56 公開日:2024-02-29
# PlaceNav: 位置認識によるトポロジカルナビゲーション

PlaceNav: Topological Navigation through Place Recognition ( http://arxiv.org/abs/2309.17260v4 )

ライセンス: Link先を確認
Lauri Suomela, Jussi Kalliola, Harry Edelman, Joni-Kristian K\"am\"ar\"ainen(参考訳) 近年,ロボット非依存とロボット固有のコンポーネントにトポロジカルナビゲーションを分割することで,異なるタイプのロボットが収集したデータを用いてロボット非依存部分を訓練することで,ナビゲーション性能の向上が期待できる。 しかしながら、ナビゲーション手法の性能は、適切なトレーニングデータの不足によって制限され、計算スケールの低下に苦しむ。 本研究では,ロボットに依存しない部分をナビゲーション固有かつ汎用的なコンピュータビジョンコンポーネントに分割して,placenavを提案する。 トポロジカルナビゲーションパイプラインのサブゴール選択に視覚的位置認識を利用する。 これにより、サブゴア選択の効率が向上し、非ロボットソースからの大規模データセットの活用が可能になり、トレーニングデータの可用性が向上する。 位置認識によって実現されるベイズフィルタは、サブゴールの時間的一貫性を高め、ナビゲーション性能をさらに向上させる。 実験の結果,提案手法は室内で76%,屋外ナビゲーションでは23%,計算効率が向上した。

Recent results suggest that splitting topological navigation into robot-independent and robot-specific components improves navigation performance by enabling the robot-independent part to be trained with data collected by robots of different types. However, the navigation methods' performance is still limited by the scarcity of suitable training data and they suffer from poor computational scaling. In this work, we present PlaceNav, subdividing the robot-independent part into navigation-specific and generic computer vision components. We utilize visual place recognition for the subgoal selection of the topological navigation pipeline. This makes subgoal selection more efficient and enables leveraging large-scale datasets from non-robotics sources, increasing training data availability. Bayesian filtering, enabled by place recognition, further improves navigation performance by increasing the temporal consistency of subgoals. Our experimental results verify the design and the new method obtains a 76% higher success rate in indoor and 23% higher in outdoor navigation tasks with higher computational efficiency.
翻訳日:2024-03-01 18:30:15 公開日:2024-02-29
# Immersed figures-8 annuli and anyons

Immersed figure-8 annuli and anyons ( http://arxiv.org/abs/2309.17155v2 )

ライセンス: Link先を確認
Bowen Shi(参考訳) イマージョン(即ち局所埋め込み)は、絡み合いブートストラップによる位相秩序相の物理学に関係している。 annulus はディスクや球面に ``graphic-8" として浸漬することができ、それが埋め込まれた annulus にスムーズに変形することができない。 背景物理系の基底状態と局所的に区別できない図形8環にアベリア状態が存在するかという単純な問題について検討する。 2つの同相没入射領域は、たとえそれらが背景物理系で滑らかに互いに変形することができないとしても、同型な情報凸集合を持つ必要がある。 任意のオンを持つ物理系における強同型を考える理由を説明し、アーベル・アノン理論の文脈で証明を与える。 さらに, 浸漬アンヌリとアノン輸送との関係について, 位相的欠陥の存在下で検討する。 付録では、より広い文脈で関連する問題を論じる。

Immersion (i.e., local embedding) is relevant to the physics of topologically ordered phases through entanglement bootstrap. An annulus can immerse in a disk or a sphere as a ``figure-8", which cannot be smoothly deformed to an embedded annulus. We investigate a simple problem: is there an Abelian state on the immersed figure-8 annulus, locally indistinguishable from the ground state of the background physical system? We show that if the answer is affirmative, a strong sense of isomorphism must hold: two homeomorphic immersed regions must have isomorphic information convex sets, even if they cannot smoothly deform to each other on the background physical system. We explain why to care about strong isomorphism in physical systems with anyons and give proof in the context of Abelian anyon theory. We further discuss a connection between immersed annuli and anyon transportation in the presence of topological defects. In appendices, we discuss related problems in broader contexts.
翻訳日:2024-03-01 18:29:39 公開日:2024-02-29
# ASAP: 複雑なロボット組立のための物理的可能性を考慮した自動シーケンス計画

ASAP: Automated Sequence Planning for Complex Robotic Assembly with Physical Feasibility ( http://arxiv.org/abs/2309.16909v2 )

ライセンス: Link先を確認
Yunsheng Tian, Karl D.D. Willis, Bassel Al Omari, Jieliang Luo, Pingchuan Ma, Yichen Li, Farhad Javid, Edward Gu, Joshua Jacob, Shinjiro Sueda, Hui Li, Sachin Chitta and Wojciech Matusik(参考訳) 複雑な製品の自動組み立てには、多くの部品を組み立てる物理的に実現可能な一連のアクションを自動的に計画するシステムが必要である。 本稿では,一般型アセンブリを自動生成する物理ベースの計画手法であるASAPを提案する。 ASAPは、各サブアセンブリが物理的に安定し、限られた数の部品が保持され、支持面が保持されるシーケンスを設計するための重力を説明できる。 効率的な木探索アルゴリズムを応用し,このような集合列の決定の組合せ複雑性を低減した。 探索は、幾何学的ヒューリスティックスまたはシミュレーションラベルでデータに基づいてトレーニングされたグラフニューラルネットワークによってガイドすることができる。 最後に, 数百の複雑な製品集合体からなる大規模データセット上で, 物理的に現実的な組み立てシーケンス計画を生成する上で, ASAPの優れた性能を示す。 さらに,シミュレーションと実世界のロボット環境におけるASAPの適用性を示す。 プロジェクトウェブサイト: asap.csail.mit.edu

The automated assembly of complex products requires a system that can automatically plan a physically feasible sequence of actions for assembling many parts together. In this paper, we present ASAP, a physics-based planning approach for automatically generating such a sequence for general-shaped assemblies. ASAP accounts for gravity to design a sequence where each sub-assembly is physically stable with a limited number of parts being held and a support surface. We apply efficient tree search algorithms to reduce the combinatorial complexity of determining such an assembly sequence. The search can be guided by either geometric heuristics or graph neural networks trained on data with simulation labels. Finally, we show the superior performance of ASAP at generating physically realistic assembly sequence plans on a large dataset of hundreds of complex product assemblies. We further demonstrate the applicability of ASAP on both simulation and real-world robotic setups. Project website: asap.csail.mit.edu
翻訳日:2024-03-01 18:29:23 公開日:2024-02-29
# 精製コアセット選択:モデル性能制約下での最小コアセットサイズを目指して

Refined Coreset Selection: Towards Minimal Coreset Size under Model Performance Constraints ( http://arxiv.org/abs/2311.08675v2 )

ライセンス: Link先を確認
Xiaobo Xia, Jiale Liu, Shaokun Zhang, Qingyun Wu, Hongxin Wei, Tongliang Liu(参考訳) coreset選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に有効である。 大規模なデータから小さなサブセットを識別することに取り組んでいるため、サブセット上のトレーニングのみをフルデータとほぼ同等に実行する。 実践者は、コストを最小化し、加速を最大化するために、同等のモデル性能を維持しながら、現実的なシーンで最小のコアセットを特定することを定期的に望んでいます。 このデシデラタムに動機づけられ、モデル性能制約の下で最小コアセットサイズを探索する洗練されたコアセット選択の問題が初めて提起された。 さらに,この問題に対処するために,モデル性能とコアセットサイズよりも優先順序を最適化し,コアセット選択手順で効率的に最適化する革新的な手法を提案する。 理論的には,提案手法の収束保証を提供する。 実験的に、広範な実験により、以前の戦略と比べてその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。

Coreset selection is powerful in reducing computational costs and accelerating data processing for deep learning algorithms. It strives to identify a small subset from large-scale data, so that training only on the subset practically performs on par with full data. Practitioners regularly desire to identify the smallest possible coreset in realistic scenes while maintaining comparable model performance, to minimize costs and maximize acceleration. Motivated by this desideratum, for the first time, we pose the problem of refined coreset selection, in which the minimal coreset size under model performance constraints is explored. Moreover, to address this problem, we propose an innovative method, which maintains optimization priority order over the model performance and coreset size, and efficiently optimizes them in the coreset selection procedure. Theoretically, we provide the convergence guarantee of the proposed method. Empirically, extensive experiments confirm its superiority compared with previous strategies, often yielding better model performance with smaller coreset sizes.
翻訳日:2024-03-01 18:23:57 公開日:2024-02-29
# ランダムベクトルによる時間一様信頼球

Time-Uniform Confidence Spheres for Means of Random Vectors ( http://arxiv.org/abs/2311.08168v2 )

ライセンス: Link先を確認
Ben Chugg, Hongjian Wang, Aaditya Ramdas(参考訳) 我々は、すべてのサンプルサイズで同時に確率の高いランダムベクトルの平均を含む、時間一様信頼球面 -- 信頼球列(csss) -- を導出し、研究する。 カトーニとジュリーニのオリジナル作品に触発されて、それらの分析を統一して拡張し、シーケンシャルな設定と様々な分布的仮定の両方を扱います。 本研究の結果は,有界乱数ベクトルに対する経験的ベルンシュタインCSS(真の未知の分散に比例して漸近的幅のスケーリングを伴う新しい経験的ベルンシュタイン信頼区間),サブ$\psi$乱数ベクトルに対するCSS(サブガンマ,サブポアソン,サブ指数を含む),ヘビーテール乱数ベクトルに対するCSS(2モーメントのみ)を含む。 最後に、Huberノイズによる汚染に対して堅牢な2つのCSSを提供する。 ひとつは経験的なBernstein CSSの堅牢バージョンで、もうひとつはUnivariate設定の最近の作業から、ヘビーテールのマルチ変数分布まで拡張しています。

We derive and study time-uniform confidence spheres -- confidence sphere sequences (CSSs) -- which contain the mean of random vectors with high probability simultaneously across all sample sizes. Inspired by the original work of Catoni and Giulini, we unify and extend their analysis to cover both the sequential setting and to handle a variety of distributional assumptions. Our results include an empirical-Bernstein CSS for bounded random vectors (resulting in a novel empirical-Bernstein confidence interval with asymptotic width scaling proportionally to the true unknown variance), CSSs for sub-$\psi$ random vectors (which includes sub-gamma, sub-Poisson, and sub-exponential), and CSSs for heavy-tailed random vectors (two moments only). Finally, we provide two CSSs that are robust to contamination by Huber noise. The first is a robust version of our empirical-Bernstein CSS, and the second extends recent work in the univariate setting to heavy-tailed multivariate distributions.
翻訳日:2024-03-01 18:23:38 公開日:2024-02-29
# UMedNeRF:医療用ニューラルラジアンスフィールドのための不確かさを意識した単一ビューボリュームレンダリング

UMedNeRF: Uncertainty-aware Single View Volumetric Rendering for Medical Neural Radiance Fields ( http://arxiv.org/abs/2311.05836v6 )

ライセンス: Link先を確認
Jing Hu, Qinrui Fan, Shu Hu, Siwei Lyu, Xi Wu, Xin Wang(参考訳) 臨床医学の分野ではCT(Computerd tomography)は様々な病態の診断に有効な医用画像モダリティである。 X線画像と比較すると、CT画像は多平面スライスや臨床診断のための3次元構造など、より多くの情報を提供することができる。 しかし、CT画像では、患者が大量の電離放射線に長時間曝されることが要求され、これは不可逆的な身体的損傷を引き起こす可能性がある。 本稿では,発生した放射場に基づく不確実性を考慮したMedNeRF(UMedNeRF)ネットワークを提案する。 ネットワークは、内部構造と深度情報を取得し、適応損失重みを用いて2次元X線画像からCT投影の連続表現を学習し、生成画像の品質を確保する。 本モデルは, 人工膝関節と胸部データセットを用いて訓練し, 単一のX線によるCTプロジェクションレンダリングの結果を示し, 生成放射線場に基づく他の方法との比較を行った。

In the field of clinical medicine, computed tomography (CT) is an effective medical imaging modality for the diagnosis of various pathologies. Compared with X-ray images, CT images can provide more information, including multi-planar slices and three-dimensional structures for clinical diagnosis. However, CT imaging requires patients to be exposed to large doses of ionizing radiation for a long time, which may cause irreversible physical harm. In this paper, we propose an Uncertainty-aware MedNeRF (UMedNeRF) network based on generated radiation fields. The network can learn a continuous representation of CT projections from 2D X-ray images by obtaining the internal structure and depth information and using adaptive loss weights to ensure the quality of the generated images. Our model is trained on publicly available knee and chest datasets, and we show the results of CT projection rendering with a single X-ray and compare our method with other methods based on generated radiation fields.
翻訳日:2024-03-01 18:23:15 公開日:2024-02-29
# 巨大原子を用いた導波路QED系における可変光子-光子相関

Tunable photon-photon correlations in waveguide QED systems with giant atoms ( http://arxiv.org/abs/2311.03817v2 )

ライセンス: Link先を確認
Wenju Gu, Lei Chen, Zhen Yi, Sujing Liu, and Gao-xiang Li(参考訳) 2つの巨大原子に結合した1次元導波路中の2つの光子の散乱過程を調べる。 カップリング点間の累積位相シフトを調整することで、これらの散乱光子の特性を効果的に操作することができる。 リップマン・シュウィンガー形式を用いて、2光子相互作用を記述する波動関数の解析式を分離、連結、入れ子配置で導出する。 これらの波動関数に基づいて、非コヒーレントパワースペクトルと2階相関関数の解析式も得られる。 小さい原子とは対照的に、結合状態の相関によって定義される非コヒーレントスペクトルは、位相シフトによってより波長性を示すことができる。 さらに、伝達場と反射場における二階相関関数は、共振駆動の束縛または反束を示すように調整することができる。 導波管QEDの巨大原子によって提供されるこれらの特徴は、量子ネットワークにおける非古典的イテナント光子の生成に有用である。

We investigate the scattering processes of two photons in a one-dimensional waveguide coupled to two giant atoms. By adjusting the accumulated phase shifts between the coupling points, we are able to effectively manipulate the characteristics of these scattering photons. Utilizing the Lippmann-Schwinger formalism, we derive analytical expressions for the wave functions describing two-photon interaction in separate, braided, and nested configurations. Based on these wave functions, we also obtain analytical expressions for the incoherent power spectra and second-order correlation functions. In contrast to small atoms, the incoherent spectrum, which is defined by the correlation of the bound state, can exhibit more tunability due to the phase shifts. Additionally, the second-order correlation functions in the transmission and reflection fields could be tuned to exhibit either bunching or antibunching upon resonant driving. These unique features offered by the giant atoms in waveguide QED could benefit the generation of nonclassical itinerant photons in quantum networks.
翻訳日:2024-03-01 18:22:58 公開日:2024-02-29
# SMORE:オフラインゴールコンディション強化学習のためのスコアモデル

SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2311.02013v2 )

ライセンス: Link先を確認
Harshit Sikchi, Rohan Chitnis, Ahmed Touati, Alborz Geramifard, Amy Zhang, Scott Niekum(参考訳) オフライン目標条件強化学習(gcrl)は、スパース報酬関数を使用してオフラインデータセットから純粋に複数の目標を達成するための学習を任務とする。 オフラインGCRLは、既存のデータセットを活用して、手作業による報酬関数なしで、多種多様な再利用可能なスキルを学習できる汎用エージェントを開発する上で重要である。 しかし、教師付き学習とコントラスト学習に基づくGCRLの現代的アプローチは、オフライン環境では、しばしば準最適である。 GCRLに対する別の見方は、占有のマッチングを最適化するが、識別器を学習する必要がある。 学習した判別器の不正確さはカスケードし、その結果のポリシーに悪影響を及ぼす。 我々は, 混合分布マッチングの新たなレンズを用いて, gcrlに対する新しいアプローチを提案する。 重要な洞察は、gcrlの占有者マッチングの観点と凸双対の定式化を組み合わせることで、より最適なオフラインデータを活用する学習目標を導出することである。 SMOREは、特定の目標を達成するための状態においてアクションを取ることの重要性を表すスコアまたは非正規化された密度を学ぶ。 SMOReの原理を定式化し,ロボット操作と移動作業からなる完全オフラインGCRLベンチマークによる広範な実験により,SMOReが最先端のベースラインを著しく上回ることを示す。

Offline Goal-Conditioned Reinforcement Learning (GCRL) is tasked with learning to achieve multiple goals in an environment purely from offline datasets using sparse reward functions. Offline GCRL is pivotal for developing generalist agents capable of leveraging pre-existing datasets to learn diverse and reusable skills without hand-engineering reward functions. However, contemporary approaches to GCRL based on supervised learning and contrastive learning are often suboptimal in the offline setting. An alternative perspective on GCRL optimizes for occupancy matching, but necessitates learning a discriminator, which subsequently serves as a pseudo-reward for downstream RL. Inaccuracies in the learned discriminator can cascade, negatively influencing the resulting policy. We present a novel approach to GCRL under a new lens of mixture-distribution matching, leading to our discriminator-free method: SMORe. The key insight is combining the occupancy matching perspective of GCRL with a convex dual formulation to derive a learning objective that can better leverage suboptimal offline data. SMORe learns scores or unnormalized densities representing the importance of taking an action at a state for reaching a particular goal. SMORe is principled and our extensive experiments on the fully offline GCRL benchmark composed of robot manipulation and locomotion tasks, including high-dimensional observations, show that SMORe can outperform state-of-the-art baselines by a significant margin.
翻訳日:2024-03-01 18:22:42 公開日:2024-02-29
# ランダム性の祝福:一般拡散画像編集におけるSDE BeatsODE

The Blessing of Randomness: SDE Beats ODE in General Diffusion-based Image Editing ( http://arxiv.org/abs/2311.01410v2 )

ライセンス: Link先を確認
Shen Nie, Hanzhong Allan Guo, Cheng Lu, Yuhao Zhou, Chenyu Zheng, Chongxuan Li(参考訳) 本稿では,潜在変数をタスク固有の方法で編集し,元の確率的あるいは常微分方程式(sde,ode)によって引き起こされる対応する限界分布から一般に逸脱する拡散ベース画像編集のための統一確率的定式化を提案する。 代わりに、編集用の対応するSDEまたはODEを定義する。 定式化では、2つのSDEの辺分布間のクルバック・リーブラーのばらつきが徐々に減少し、ODEは時間がゼロに近づき、画像編集におけるSDEの約束を示す。 これに触発された私たちは、SDEが一貫した、そして実質的な改善を示す画像から画像への変換を含む様々なタスクにおいて、広く使われているODEベースラインに対して、SDE対応を提供する。 さらに,ポイントベースのコンテンツドラッグングのためのSDE定式化に基づく,シンプルで効果的なSDE-Dragを提案する。 我々は、オープンセットの自然、芸術、AI生成画像による評価のための挑戦的なベンチマーク(DragBenchと呼ばれる)を構築します。 DragBenchのユーザスタディによると、SDE-Dragは私たちのODEベースライン、既存の拡散ベースのメソッド、そして有名なDragGANを大きく上回っている。 その結果、画像編集におけるSDEの優位性と汎用性を示し、拡散ベースの編集手法の境界を押し進めた。

We present a unified probabilistic formulation for diffusion-based image editing, where a latent variable is edited in a task-specific manner and generally deviates from the corresponding marginal distribution induced by the original stochastic or ordinary differential equation (SDE or ODE). Instead, it defines a corresponding SDE or ODE for editing. In the formulation, we prove that the Kullback-Leibler divergence between the marginal distributions of the two SDEs gradually decreases while that for the ODEs remains as the time approaches zero, which shows the promise of SDE in image editing. Inspired by it, we provide the SDE counterparts for widely used ODE baselines in various tasks including inpainting and image-to-image translation, where SDE shows a consistent and substantial improvement. Moreover, we propose SDE-Drag -- a simple yet effective method built upon the SDE formulation for point-based content dragging. We build a challenging benchmark (termed DragBench) with open-set natural, art, and AI-generated images for evaluation. A user study on DragBench indicates that SDE-Drag significantly outperforms our ODE baseline, existing diffusion-based methods, and the renowned DragGAN. Our results demonstrate the superiority and versatility of SDE in image editing and push the boundary of diffusion-based editing methods.
翻訳日:2024-03-01 18:22:18 公開日:2024-02-29
# より多く、もっとよく聞く: 大規模言語モデルによる意思決定のための強化学習型プロンプト質問

Ask more, know better: Reinforce-Learned Prompt Questions for Decision Making with Large Language Models ( http://arxiv.org/abs/2310.18127v2 )

ライセンス: Link先を確認
Xue Yan, Yan Song, Xinyu Cui, Filippos Christianos, Haifeng Zhang, David Henry Mguni, Jun Wang(参考訳) 大規模言語モデル(LLM)は、行動ベースのポリシーと思考の連鎖(CoT)推論を組み合わせることで、複雑な実践的な課題に取り組むという彼らの約束を示す。 しかし、高品質なプロンプトを持つことは、フレームワークの有効性にとって不可欠である。 現在、これらのプロンプトは、広範囲な人的労働力を活用して手作りされている。 人間の介入は、低レベルのコントローラがCoT推論を適切に処理するための基盤関数の開発にも必要である。 本稿では,複雑なタスク解決のための包括的学習フレームワークを提案し,人間の事前知識をアクションポリシーの学習に取り入れた。 その目的のために、我々は、関連する質問(プロンプト)を学習し、その後、行動の学習を導くための推論を行うことのできる、新しいリーダー・フォロー・バイレベルフレームワークを提供する。 急進的な政策は、歴史的発見に基づいて内省的な修正を行うために採用され、CoTプロセスは期待される目標を考慮し、決定的かつ高いパフォーマンスの行動をもたらすアウトプットを生成する。 その後、アクションポリシーはcot出力の理解と統合を学び、アクションを取る。 実証データによると、私たちのフレームワークはOvercookedやFourRoomといった5ドルの意思決定タスクにおいて、主要なメソッドよりも優れています。

Large language models (LLMs) demonstrate their promise in tackling complicated practical challenges by combining action-based policies with chain of thought (CoT) reasoning. Having high-quality prompts on hand, however, is vital to the framework's effectiveness. Currently, these prompts are handcrafted utilising extensive human labor, resulting in CoT policies that frequently fail to generalise. Human intervention is also required to develop grounding functions that ensure low-level controllers appropriately process CoT reasoning. In this paper, we propose a comprehensive training framework for complex task-solving, incorporating human prior knowledge into the learning of action policies. To that purpose, we offer a new leader-follower bilevel framework that is capable of learning to ask relevant questions (prompts) and subsequently undertaking reasoning to guide the learning of actions. The prompt policy is employed to make introspective revisions based on historical findings, leading the CoT process to consider the anticipated goals and generate outputs that lead to decisive, high-performing actions. The action policy subsequently learns to comprehend and integrate the CoT outputs to take actions. Our empirical data reveal that our framework outperforms leading methods in $5$ decision-making tasks such as Overcooked and FourRoom.
翻訳日:2024-03-01 18:21:50 公開日:2024-02-29
# 人間の協調的・説明可能なベイズ最適化におけるループ

Looping in the Human Collaborative and Explainable Bayesian Optimization ( http://arxiv.org/abs/2310.17273v5 )

ライセンス: Link先を確認
Masaki Adachi, Brady Planden, David A. Howey, Michael A. Osborne, Sebastian Orbell, Natalia Ares, Krikamol Muandet, Siu Lun Chau(参考訳) 多くのオプティマイザと同様に、ベイジアン最適化は不透明さのためにユーザの信頼を得られないことが多い。 人間中心のオプティマイザを開発する試みは行われているが、ユーザー知識はよく特定されエラーのないものであり、主に最適化プロセスのスーパーバイザーとして利用している。 我々はこれらの仮定を緩和し、コラボレーティブおよび説明可能なベイズ最適化(CoExBO)フレームワークとのよりバランスのとれた人間-AIパートナーシップを提案する。 ユーザが知識モデルを提供することを明示的に要求する代わりに、CoExBOは好み学習を使用して最適化に対する人間の洞察をシームレスに統合し、結果としてユーザの好みに共鳴するアルゴリズムの提案を行う。 coexboは、各イテレーションの候補選択を説明して信頼を育み、ユーザに最適化を明確に理解させる。 さらに、coexboはno-harmの保証を提供し、ユーザーが間違いを犯すことができる。極端な敵意介入であっても、アルゴリズムはバニラベイズ最適化に漸近的に収束する。 リチウムイオン電池設計における人間-aiチームによる実験により,coexboの有効性を検証する。 コードはhttps://github.com/ma921/CoExBO.comで入手できる。

Like many optimizers, Bayesian optimization often falls short of gaining user trust due to opacity. While attempts have been made to develop human-centric optimizers, they typically assume user knowledge is well-specified and error-free, employing users mainly as supervisors of the optimization process. We relax these assumptions and propose a more balanced human-AI partnership with our Collaborative and Explainable Bayesian Optimization (CoExBO) framework. Instead of explicitly requiring a user to provide a knowledge model, CoExBO employs preference learning to seamlessly integrate human insights into the optimization, resulting in algorithmic suggestions that resonate with user preference. CoExBO explains its candidate selection every iteration to foster trust, empowering users with a clearer grasp of the optimization. Furthermore, CoExBO offers a no-harm guarantee, allowing users to make mistakes; even with extreme adversarial interventions, the algorithm converges asymptotically to a vanilla Bayesian optimization. We validate CoExBO's efficacy through human-AI teaming experiments in lithium-ion battery design, highlighting substantial improvements over conventional methods. Code is available https://github.com/ma921/CoExBO.
翻訳日:2024-03-01 18:21:24 公開日:2024-02-29
# ニューラルネットワークのための時系列データ前処理のための拡張適応入力正規化

Extended Deep Adaptive Input Normalization for Preprocessing Time Series Data for Neural Networks ( http://arxiv.org/abs/2310.14720v2 )

ライセンス: Link先を確認
Marcus A. K. September, Francesco Sanna Passino, Leonie Goldmann, Anton Hinel(参考訳) データの前処理は、あらゆる機械学習パイプラインの重要な部分であり、パフォーマンスとトレーニング効率の両方に大きな影響を与える可能性がある。 時系列予測と分類にディープニューラルネットワークを使用する場合、特に顕著である:実世界の時系列データは、多モード性、歪性、外れ値などの不規則性を示すことが多く、これらの特性が適切に対処されていない場合、モデルの性能は急速に低下する。 本研究では,与えられたタスクに対する不規則な時系列データを,固定正規化方式ではなく,エンドツーエンドで適切に正規化する方法を学ぶ新しい適応型ニューラルネットワーク層であるEDAIN(Extended Deep Adaptive Input Normalization)層を提案する。 これは、バックプロパゲーションを使用して、未知のパラメータとディープニューラルネットワークを同時に最適化することで実現される。 本実験は,従来の正規化手法や既存の適応時系列前処理方式と比較して,EDAIN層の優れた性能を示すために,合成データ,クレジットデフォルト予測データセット,大規模リミットオーダーブックベンチマークデータセットを用いて実施した。

Data preprocessing is a crucial part of any machine learning pipeline, and it can have a significant impact on both performance and training efficiency. This is especially evident when using deep neural networks for time series prediction and classification: real-world time series data often exhibit irregularities such as multi-modality, skewness and outliers, and the model performance can degrade rapidly if these characteristics are not adequately addressed. In this work, we propose the EDAIN (Extended Deep Adaptive Input Normalization) layer, a novel adaptive neural layer that learns how to appropriately normalize irregular time series data for a given task in an end-to-end fashion, instead of using a fixed normalization scheme. This is achieved by optimizing its unknown parameters simultaneously with the deep neural network using back-propagation. Our experiments, conducted using synthetic data, a credit default prediction dataset, and a large-scale limit order book benchmark dataset, demonstrate the superior performance of the EDAIN layer when compared to conventional normalization methods and existing adaptive time series preprocessing layers.
翻訳日:2024-03-01 18:20:33 公開日:2024-02-29
# HallusionBench:大規模視覚言語モデルにおける言語幻覚と視覚錯覚の高度な診断スイート

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models ( http://arxiv.org/abs/2310.14566v3 )

ライセンス: Link先を確認
Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou(参考訳) 画像コンテキスト推論の評価用に設計された総合ベンチマークであるhallusionbenchを紹介する。 このベンチマークは、GPT-4V(Vision)、Gemini Pro Vision、LLaVA-1.5のような高度なビジュアル言語モデル(LVLM)に対して、視覚データのニュアンスな理解と解釈を強調することで、大きな課題を提示している。 このベンチマークは、1129の質問と組み合わせた346の画像で構成されている。 制御群を確立するために設計された視覚的質問に対する新しい構造を提案する。 この構造により,モデルの応答傾向,論理的一貫性,さまざまな障害モードを定量的に解析することができる。 hallusionbenchの評価では、14の異なるモデルをベンチマークし、最先端gpt-4vによって達成された31.42%のクエスチョンペア精度を強調した。 特に、他の評価モデルは全て16%未満の精度を達成する。 さらに,本分析では,言語幻覚や視覚錯覚など,観察された障害モードだけでなく,これらの落とし穴の理解を深めている。 HallusionBench内の包括的ケーススタディは、LVLMにおける幻覚と幻覚の課題に光を当てた。 これらの知見に基づいて,今後の改善の道筋を提案する。 ベンチマークとコードベースはhttps://github.com/tianyi-lab/hallusionbenchからアクセスできる。

We introduce HallusionBench, a comprehensive benchmark designed for the evaluation of image-context reasoning. This benchmark presents significant challenges to advanced large visual-language models (LVLMs), such as GPT-4V(Vision), Gemini Pro Vision, and LLaVA-1.5, by emphasizing nuanced understanding and interpretation of visual data. The benchmark comprises 346 images paired with 1129 questions, all meticulously crafted by human experts. We introduce a novel structure for these visual questions designed to establish control groups. This structure enables us to conduct a quantitative analysis of the models' response tendencies, logical consistency, and various failure modes. In our evaluation on HallusionBench, we benchmarked 14 different models, highlighting a 31.42% question-pair accuracy achieved by the state-of-the-art GPT-4V. Notably, all other evaluated models achieve accuracy below 16%. Moreover, our analysis not only highlights the observed failure modes, including language hallucination and visual illusion, but also deepens an understanding of these pitfalls. Our comprehensive case studies within HallusionBench shed light on the challenges of hallucination and illusion in LVLMs. Based on these insights, we suggest potential pathways for their future improvement. The benchmark and codebase can be accessed at https://github.com/tianyi-lab/HallusionBench.
翻訳日:2024-03-01 18:20:13 公開日:2024-02-29
# 量子測定のエントロピー部分順序付け

Entropic partial orderings of quantum measurements ( http://arxiv.org/abs/2310.14086v2 )

ライセンス: Link先を確認
Adam Teixid\'o-Bonfill, Joseph Schindler, Dominik \v{S}afr\'anek(参考訳) 量子測度空間上の4つの部分順序(POVMや正の演算子値測度)について検討し、測定の粗さ/微細さの4つの概念を記述する。 これらは(1)古典的後処理、(2)測定された相対エントロピー、(3)観測エントロピー、(4)POVMの線形関係によって誘導される部分順序である。 順序付けは意味の階層を形成し、例えば後処理の関係は他の全てを意味する。 この階層は一般のPOVMでは厳密であり、4つの順序がすべて厳密に等価でないことを示す例を示す。 射影測定に制限され、すべて等価である。 最後に、観察エントロピー等式 $s_m = s_n$ (全$\rho$) が成り立つのは、$m \equiv n$ が後処理同値であることであり、最初の3つの順序が同一の同値類を誘導することを示している。

We investigate four partial orderings on the space of quantum measurements (i.e on POVMs or positive operator valued measures), describing four notions of coarse/fine-ness of measurement. These are the partial orderings induced by: (1) classical post-processing, (2) measured relative entropy, (3) observational entropy, and (4) linear relation of POVMs. The orderings form a hierarchy of implication, where e.g. post-processing relation implies all the others. We show that this hierarchy is strict for general POVMs, with examples showing that all four orderings are strictly inequivalent. Restricted to projective measurements, all are equivalent. Finally we show that observational entropy equality $S_M = S_N$ (for all $\rho$) holds if and only if $M \equiv N$ are post-processing equivalent, which shows that the first three orderings induce identical equivalence classes.
翻訳日:2024-03-01 18:19:50 公開日:2024-02-29
# 量子決定理論の基礎について

On the foundation of quantum decision theory ( http://arxiv.org/abs/2310.12762v2 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子決定理論はここで導入され、この理論の新しい基礎が提案されている。 これはまず、量子論におけるヒルベルト空間形式論の著者の一般的な議論に基づいており、次に、量子確率を計算する基礎となるボルン則の議論に基づいている。 量子論の基礎の背後にある基本的な概念は、理論変数はアクセス不能で到達不能な変数に分けられる。 これは決定変数に特化している。 各アクセス可能な変数は、特定のアクセス不能変数の関数と見なすことができると仮定される。 もう1つの仮定は、与えられた状況に最大アクセス可能な決定プロセスが2つ存在することである。 ボルンルールの背後にある2つの基本的な仮定 1) 帰属原理 2) 被疑者は, 仮説的に完全に合理的な存在によってモデル化できる動機を有する。 その理論は医学的な例によって示される。 最後に、意思決定プロセスに関する幅広い議論が行われる。

Quantum decision theory is introduced here, and new basis for this theory is proposed. It is first based upon the author's general arguments for the Hilbert space formalism in quantum theory, next on arguments for the Born rule, that is the basis for calculating quantum probabilities. A basic notion behind the quantum theory foundation is that of theoretical variables, that are divided into accessible and inaccessible ones. This is here specialized to decision variables. It is assumed that each accessible variable can be seen as a function of a specific inaccessible variable. Another assumption is that there exist two maximal accessible decision processes in the given situation. Two basic assumptions behind the Born rule are 1) the likelihood principle, 2) the actor in question has motivations that can be modeled by a hypothetical perfectly rational higher being. The theory is illustrated by a medical example. Finally, a broad discussion of decision processes is given.
翻訳日:2024-03-01 18:19:31 公開日:2024-02-29
# 駆動型準一次元双極子凝縮体におけるストライプとチェッカーボードのパターン

Stripe and checkerboard patterns in a stack of driven quasi-one-dimensional dipolar condensates ( http://arxiv.org/abs/2310.11274v2 )

ライセンス: Link先を確認
Shreyas Nadiger, Sandra M. Jose, Ratheejit Ghosh, Inderpreet Kaur and Rejish Nath(参考訳) 準1次元均質双極性凝縮体のスタックにおける一過性チェッカーボードとストライプパターンの出現について検討した。 $s$波散乱長のパラメトリック駆動は、ボゴリューボフモードの最低値の励起に繋がる。 低次モードの特性は、隣接する凝縮体における相外および相内密度変調に対応する双極子の配向に大きく依存し、チェッカーボードやストライプパターンをもたらす。 さらに,初期パターンが周期的駆動によって形成されると,双極子配向を直線的あるいは突然にクエンチすることで,チェッカーボードとストライプパターン間の動的遷移を実現することができることを示す。

The emergence of transient checkerboard and stripe patterns in a stack of driven quasi-one-dimensional homogeneous dipolar condensates is studied. The parametric driving of the $s$-wave scattering length leads to the excitation of the lowest collective Bogoliubov mode. The character of the lowest mode depends critically on the orientation of the dipoles, corresponding to out-of-phase and in-phase density modulations in neighboring condensates, resulting in checkerboard and stripe patterns. Further, we show that a dynamical transition between the checkerboard and stripe patterns can be realized by quenching the dipole orientation either linearly or abruptly once the initial pattern is formed via periodic driving.
翻訳日:2024-03-01 18:19:17 公開日:2024-02-29
# ドイツの屋内ラドン調査データを用いた高分解能ラドンマッピングのための機械学習に基づく新しい確率モデルの検討

Exploring a new machine learning based probabilistic model for high-resolution indoor radon mapping, using the German indoor radon survey data ( http://arxiv.org/abs/2310.11143v2 )

ライセンス: Link先を確認
Eric Petermann, Peter Bossew, Joachim Kemski, Valeria Gruber, Nils Suhr and Bernd Hoffmann(参考訳) ラドン(radon)は、屋内で蓄積できる発癌性放射性ガスである。 したがって、屋内ラドン濃度の正確な知識は、ラドン関連健康影響の評価やラドンプロイン領域の同定に不可欠である。 全国規模の屋内ラドン濃度は通常、広範な測定キャンペーンに基づいて推定される。 しかし, 地質学的ラドンや床面レベルなどの室内ラドン濃度を制御する要因が多数存在することから, 試料の特性は個体群の特徴と異なっていることが多い。 さらに、サンプルサイズは通常、空間分解能の高い推定を許さない。 本研究では,空間分解能の高い屋内ラドン分布を,純粋データベースアプローチよりもリアルに推定できるモデルベースアプローチを提案する。 2段階モデリング手法が適用された。 1)ドイツ各住宅のフロアレベルごとに屋内ラドンの確率分布関数を推定するために, 環境・建物データを用いた質的回帰林を適用し, (2) 確率的モンテカルロサンプリング手法により, 床面積予測の組合せと人口重み付けが可能となった。 このように、個々の予測の不確実性は、集約されたレベルでの可変性の推定に効果的に伝播される。 その結果,算術平均63Bq/m3,幾何学平均41Bq/m3,95%の180Bq/m3の近似対数正規分布が得られた。 100 bq/m3 と 300 bq/m3 の超過確率はそれぞれ 12.5 % (10.5 万人) と 2.2 % (190 万人) である。

Radon is a carcinogenic, radioactive gas that can accumulate indoors. Therefore, accurate knowledge of indoor radon concentration is crucial for assessing radon-related health effects or identifying radon-prone areas. Indoor radon concentration at the national scale is usually estimated on the basis of extensive measurement campaigns. However, characteristics of the sample often differ from the characteristics of the population due to the large number of relevant factors that control the indoor radon concentration such as the availability of geogenic radon or floor level. Furthermore, the sample size usually does not allow estimation with high spatial resolution. We propose a model-based approach that allows a more realistic estimation of indoor radon distribution with a higher spatial resolution than a purely data-based approach. A two-stage modelling approach was applied: 1) a quantile regression forest using environmental and building data as predictors was applied to estimate the probability distribution function of indoor radon for each floor level of each residential building in Germany; (2) a probabilistic Monte Carlo sampling technique enabled the combination and population weighting of floor-level predictions. In this way, the uncertainty of the individual predictions is effectively propagated into the estimate of variability at the aggregated level. The results show an approximate lognormal distribution with an arithmetic mean of 63 Bq/m3, a geometric mean of 41 Bq/m3 and a 95 %ile of 180 Bq/m3. The exceedance probability for 100 Bq/m3 and 300 Bq/m3 are 12.5 % (10.5 million people) and 2.2 % (1.9 million people), respectively.
翻訳日:2024-03-01 18:19:03 公開日:2024-02-29
# 医療aiモデルにおけるアルゴリズムバイアスの検出

Detecting algorithmic bias in medical AI-models ( http://arxiv.org/abs/2312.02959v4 )

ライセンス: Link先を確認
Jeffrey Smith, Andre Holder, Rishikesan Kamaleswaran, Yao Xie(参考訳) 機械学習と人工知能に基づく医療意思決定支援システムの普及に伴い、これらのシステムが公平かつ公平な方法で患者結果を提供するようにすることが重要である。 本稿では,医療AI意思決定支援システムにおけるアルゴリズムバイアスの領域を検出するための革新的な枠組みを提案する。 本手法は,医学・AIモデル,特に敗血症予測の文脈における潜在的なバイアスを,分類・回帰木(CART)アルゴリズムを用いて効率的に同定する。 本手法は,一連の合成データ実験を行い,制御された設定におけるバイアス領域を正確に推定する能力を示す。 この概念の有効性は、ジョージア州アトランタにあるグレイディ記念病院の電子医療記録を用いてさらに検証される。 これらのテストは、AIベースの医療決定における公平性と公平性を保証する重要な手段として機能する、臨床環境における我々の戦略の実践的実装を実証する。

With the growing prevalence of machine learning and artificial intelligence-based medical decision support systems, it is equally important to ensure that these systems provide patient outcomes in a fair and equitable fashion. This paper presents an innovative framework for detecting areas of algorithmic bias in medical-AI decision support systems. Our approach efficiently identifies potential biases in medical-AI models, specifically in the context of sepsis prediction, by employing the Classification and Regression Trees (CART) algorithm. We verify our methodology by conducting a series of synthetic data experiments, showcasing its ability to estimate areas of bias in controlled settings precisely. The effectiveness of the concept is further validated by experiments using electronic medical records from Grady Memorial Hospital in Atlanta, Georgia. These tests demonstrate the practical implementation of our strategy in a clinical environment, where it can function as a vital instrument for guaranteeing fairness and equity in AI-based medical decisions.
翻訳日:2024-03-01 18:15:05 公開日:2024-02-29
# 自動電源バッテリ検出に向けて:新しい挑戦,ベンチマークデータセット,ベースライン

Towards Automatic Power Battery Detection: New Challenge, Benchmark Dataset and Baseline ( http://arxiv.org/abs/2312.02528v2 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Zhenyu Chen, Qian Yu, Lihe Zhang, Hanqi Liu, Jiaming Zuo, Huchuan Lu(参考訳) 我々は,高密度陰極および陽極板の終端をX線画像から局所化し,電池の品質を評価することを目的とした,PBD(Power Battery Detection)と呼ばれる新しいタスクについて包括的な研究を行う。 既存のメーカーは通常、PBDを完成させるために人間の目の観察に依存しており、検出の正確さと効率のバランスをとるのが困難である。 この問題に対処し、この有意義なタスクにもっと注意を向けるために、私たちはまず、さまざまなx線画像を5ドルのメーカーの数千のバッテリーから選択した1500ドルの多様なx線画像と、7ドルの視覚的干渉を持つ、x-ray pbdと呼ばれるデータセットを精巧に収集しました。 そこで我々は,多次元協調ネットワーク(MDCNet)と呼ばれるPBDのための新しいセグメンテーションベースソリューションを提案する。 線数予測器の助けを借りて、ポイントセグメンテーション分岐の表現をセマンティックとディテールの両面で改善することができるが、一方で、プレートの不整合分布密度による視覚的困難を軽減し、MDCNetを安定した監視で提供できる効果的な距離適応マスク生成戦略を設計する。 私たちのセグメンテーションベースのMDCNetは、ベルやホイッスルがなければ、さまざまなコーナー検出や、群衆数、一般的なオブジェクト検出ベースのソリューションを一貫して上回ります。 最後に、潜在的な困難と将来の研究のために働きます。 ソースコードとデータセットは \href{https://github.com/Xiaoqi-Zhao-DLUT/X-ray-PBD}{X-ray PBD} で公開されている。

We conduct a comprehensive study on a new task named power battery detection (PBD), which aims to localize the dense cathode and anode plates endpoints from X-ray images to evaluate the quality of power batteries. Existing manufacturers usually rely on human eye observation to complete PBD, which makes it difficult to balance the accuracy and efficiency of detection. To address this issue and drive more attention into this meaningful task, we first elaborately collect a dataset, called X-ray PBD, which has $1,500$ diverse X-ray images selected from thousands of power batteries of $5$ manufacturers, with $7$ different visual interference. Then, we propose a novel segmentation-based solution for PBD, termed multi-dimensional collaborative network (MDCNet). With the help of line and counting predictors, the representation of the point segmentation branch can be improved at both semantic and detail aspects.Besides, we design an effective distance-adaptive mask generation strategy, which can alleviate the visual challenge caused by the inconsistent distribution density of plates to provide MDCNet with stable supervision. Without any bells and whistles, our segmentation-based MDCNet consistently outperforms various other corner detection, crowd counting and general/tiny object detection-based solutions, making it a strong baseline that can help facilitate future research in PBD. Finally, we share some potential difficulties and works for future researches. The source code and datasets will be publicly available at \href{https://github.com/Xiaoqi-Zhao-DLUT/X-ray-PBD}{X-ray PBD}.
翻訳日:2024-03-01 18:14:51 公開日:2024-02-29
# デジタルディテクターの解読:マルチエージェントミステリーゲームにおけるLCM動作と能力の理解

Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games ( http://arxiv.org/abs/2312.00746v2 )

ライセンス: Link先を確認
Dekun Wu, Haochen Shi, Zhiyuan Sun, Bang Liu(参考訳) 本研究では,中国の探偵ロールプレイングゲームである \textit{jubensha} における大規模言語モデル(llms)の適用と,人工知能(ai)駆動ゲームにおける新たな領域について検討する。 この複雑な物語環境におけるAIエージェント開発を促進するために、キャラクタースクリプトやゲームルールを含む、Jubensha専用のデータセットを紹介した。 我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。 これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。 さらに,情報収集,人殺し同定,論理的推論におけるエージェントのパフォーマンスを向上させるために,コンテキスト内学習の最新の進歩を取り入れた。 提案手法の有効性を実験的に検証した。 本研究の目的は,LLM能力の理解と大規模言語モデルベースエージェント評価のための新しいベンチマークを確立することである。

In this study, we explore the application of Large Language Models (LLMs) in \textit{Jubensha}, a Chinese detective role-playing game and a novel area in Artificial Intelligence (AI) driven gaming. We introduce the first dataset specifically for Jubensha, including character scripts and game rules, to foster AI agent development in this complex narrative environment. Our work also presents a unique multi-agent interaction framework using LLMs, allowing AI agents to autonomously engage in this game. To evaluate the gaming performance of these AI agents, we developed novel methods measuring their mastery of case information and reasoning skills. Furthermore, we incorporated the latest advancements in in-context learning to improve the agents' performance in information gathering, murderer identification, and logical reasoning. The experimental results validate the effectiveness of our proposed methods. This work aims to offer a novel perspective on understanding LLM capabilities and establish a new benchmark for evaluating large language model-based agents.
翻訳日:2024-03-01 18:14:21 公開日:2024-02-29
# 大容量4次元機能的磁気共鳴画像の高効率記憶のための小型インシシティニューラル表現法

A Compact Implicit Neural Representation for Efficient Storage of Massive 4D Functional Magnetic Resonance Imaging ( http://arxiv.org/abs/2312.00082v2 )

ライセンス: Link先を確認
Ruoran Li, Runzhao Yang, Wenxin Xiang, Yuxiao Cheng, Tingxiong Xiao, Jinli Suo(参考訳) 機能的磁気共鳴イメージング(fMRI)データは、4次元のバイオメディカルデータの一種であり、効果的な圧縮を必要とする。 しかし、fMRI圧縮は、複雑な時間的ダイナミクス、低信号-雑音比、複雑な基礎的冗長性のために、ユニークな課題を生んでいる。 本稿では,暗黙的神経表現(inr)に基づくfmriデータに特化した新しい圧縮パラダイムを提案する。 提案手法は時系列の様々な冗長性を取り除くことに焦点を当て,いくつかの手法を用いた。 (i)地域内ダイナミクスのための空間相関モデリング 二 再利用可能な神経細胞活性化パターンの分解及び (iii) 固有初期化と非線形融合を用いて領域間の類似性を記述する。 この手法はfmriデータのユニークな特徴を適切に組み込んでおり、提案手法の有効性を示す実験結果として、従来の画像品質評価指標とfmri下流課題の両方において最先端アルゴリズムを上回っている。 本稿では,低帯域幅,高忠実度で大規模fmriデータを共有する方法を提案する。

Functional Magnetic Resonance Imaging (fMRI) data is a widely used kind of four-dimensional biomedical data, which requires effective compression. However, fMRI compressing poses unique challenges due to its intricate temporal dynamics, low signal-to-noise ratio, and complicated underlying redundancies. This paper reports a novel compression paradigm specifically tailored for fMRI data based on Implicit Neural Representation (INR). The proposed approach focuses on removing the various redundancies among the time series by employing several methods, including (i) conducting spatial correlation modeling for intra-region dynamics, (ii) decomposing reusable neuronal activation patterns, and (iii) using proper initialization together with nonlinear fusion to describe the inter-region similarity. This scheme appropriately incorporates the unique features of fMRI data, and experimental results on publicly available datasets demonstrate the effectiveness of the proposed method, surpassing state-of-the-art algorithms in both conventional image quality evaluation metrics and fMRI downstream tasks. This work in this paper paves the way for sharing massive fMRI data at low bandwidth and high fidelity.
翻訳日:2024-03-01 18:14:03 公開日:2024-02-29
# 様々なバックボーンと統計マッチングによる大規模データ凝縮

Generalized Large-Scale Data Condensation via Various Backbone and Statistical Matching ( http://arxiv.org/abs/2311.17950v2 )

ライセンス: Link先を確認
Shitong Shao, Zeyuan Yin, Muxin Zhou, Xindong Zhang and Zhiqiang Shen(参考訳) sre2lが導入した軽量な"local-match-global"マッチングは、224x224 imagenet-1kの包括的な情報を含む蒸留データセットの作成に成功した。 しかし、この一方的なアプローチは、蒸留データセットの一般化の改善を制限する特定のバックボーン、層、統計に限定されている。 十分かつ多様な「局所マッチンググローバル」マッチングは、単一のデータよりも正確かつ効果的であり、よりリッチな情報とより良い一般化を備えた蒸留データセットを作成することができると提案する。 本稿では、この視点を「一般化マッチング」と呼び、様々なバックボーンと統計マッチング(g-vbsm)を一般化し、密度を持つ合成データセットを作成し、様々なバックボーン、レイヤ、統計にまたがる完全なデータセットとの一貫性を確保することを目的としている。 実験的に実証されたように、G-VBSMは、小規模と大規模の両方のデータセットで強力な性能を得る最初のアルゴリズムである。 特に、G-VBSMは、CIFAR-100で128幅のConvNetで38.7%、Tiny-ImageNetで47.6%、ResNet18で224x224 ImageNet-1kで31.4%、クラス毎の画像(IPC)10,50,10でそれぞれパフォーマンスを達成した。 これらの結果はsoma法を3.9%,6.5%,10.1%のマージンで上回った。

The lightweight "local-match-global" matching introduced by SRe2L successfully creates a distilled dataset with comprehensive information on the full 224x224 ImageNet-1k. However, this one-sided approach is limited to a particular backbone, layer, and statistics, which limits the improvement of the generalization of a distilled dataset. We suggest that sufficient and various "local-match-global" matching are more precise and effective than a single one and has the ability to create a distilled dataset with richer information and better generalization. We call this perspective "generalized matching" and propose Generalized Various Backbone and Statistical Matching (G-VBSM) in this work, which aims to create a synthetic dataset with densities, ensuring consistency with the complete dataset across various backbones, layers, and statistics. As experimentally demonstrated, G-VBSM is the first algorithm to obtain strong performance across both small-scale and large-scale datasets. Specifically, G-VBSM achieves a performance of 38.7% on CIFAR-100 with 128-width ConvNet, 47.6% on Tiny-ImageNet with ResNet18, and 31.4% on the full 224x224 ImageNet-1k with ResNet18, under images per class (IPC) 10, 50, and 10, respectively. These results surpass all SOTA methods by margins of 3.9%, 6.5%, and 10.1%, respectively.
翻訳日:2024-03-01 18:13:45 公開日:2024-02-29
# OPERA:マルチモーダル大言語モデルにおける過度な罰とふりかえりによる幻覚の緩和

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation ( http://arxiv.org/abs/2311.17911v2 )

ライセンス: Link先を確認
Qidong Huang, Xiaoyi Dong, Pan Zhang, Bin Wang, Conghui He, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu(参考訳) マルチモーダルな大規模言語モデル(MLLM)の広汎な挑戦として提起された幻覚は、正確な判断を要求する現実世界の使用を著しく妨げている。 既存の方法は、特定の設計データによるトレーニングや、他のソースからの外部知識による推論によってこの問題を軽減する。 本稿では,過剰な信頼感と遡及的配置戦略を基礎とした新たなmllm復号法であるoperaを,追加データや知識,訓練を伴わずに幻覚問題を緩和するための,ほぼ無償のランチとして提供する。 我々のアプローチは、ほとんどの幻覚は自己注意行列に現れる知識集約パターンと密接に結びついている、すなわちMLLMはいくつかの要約トークンに焦点をあてて新しいトークンを生成する傾向がある、という興味深い観察から始まります。 このような部分的な過剰な傾きは、画像トークンを無視し、幻覚を伴う画像内容を記述する。 この観察に基づいてoperaは、ビームサーチデコード中にモデルロジットにペナルティ項を導入し、過剰な信頼の問題を軽減するとともに、事前に生成されたトークンにおける要約トークンの存在を振り返り、必要に応じてトークン選択を再配置するロールバック戦略を導入する。 大規模な実験により、OPERAは様々なMLLMとメトリクスに対して幻覚軽減性能を示し、その効果と汎用性を証明した。 私たちのコードは、https://github.com/shikiw/OPERA.comで利用可能です。

Hallucination, posed as a pervasive challenge of multi-modal large language models (MLLMs), has significantly impeded their real-world usage that demands precise judgment. Existing methods mitigate this issue with either training with specific designed data or inferencing with external knowledge from other sources, incurring inevitable additional costs. In this paper, we present OPERA, a novel MLLM decoding method grounded in an Over-trust Penalty and a Retrospection-Allocation strategy, serving as a nearly free lunch to alleviate the hallucination issue without additional data, knowledge, or training. Our approach begins with an interesting observation that, most hallucinations are closely tied to the knowledge aggregation patterns manifested in the self-attention matrix, i.e., MLLMs tend to generate new tokens by focusing on a few summary tokens, but not all the previous tokens. Such partial over-trust inclination results in the neglecting of image tokens and describes the image content with hallucination. Based on the observation, OPERA introduces a penalty term on the model logits during the beam-search decoding to mitigate the over-trust issue, along with a rollback strategy that retrospects the presence of summary tokens in the previously generated tokens, and re-allocate the token selection if necessary. With extensive experiments, OPERA shows significant hallucination-mitigating performance on different MLLMs and metrics, proving its effectiveness and generality. Our code is available at: https://github.com/shikiw/OPERA.
翻訳日:2024-03-01 18:13:17 公開日:2024-02-29
# アルミニウム酸化物ジョセフソン接合におけるピンホールと弱点の影響

The influence of pinholes and weak-points in aluminium-oxide Josephson junctions ( http://arxiv.org/abs/2311.15560v2 )

ライセンス: Link先を確認
K. Bayros, M. J. Cyster, J. S. Smith, J. H. Cole(参考訳) ジョセフソン接合(Josephson junctions)は、量子コンピューティングの超伝導量子ビットにおいて用いられる鍵成分である。 量子コンピューティングの進歩は、クビットの安定性の欠如と、最終的にジョセフソン接合やその他の材料欠陥の非晶質トンネル障壁から生じる再現性の欠如によって制限される。 接合部のピンホールは、これらの不安定な原因の1つとして提案されているが、その存在の証拠と輸送への影響は明らかではない。 分子動力学を用いて3次元原子モデルを作成し、Al-AlOx-Alトンネル接合を記述することにより、バリアの酸化が不完全であるときにピンホールが形成されることを示す。 これに続いて、非平衡グリーン関数形式を用いて、原子モデルを用いて異なるバリア厚を持つトンネル接合の電子輸送特性をシミュレートする。 ピンホールはAl-AlOx-Alトンネル接合部における過剰な準粒子電流の流れに寄与し, より厚い障壁では, 酸化物が連続しても漏れ電流を緩和する弱い点が観察される。 アモルファスバリアの無秩序な性質は輸送特性に大きな変化をもたらすことが判明した。 さらに、我々の原子構造に対する現在の位相関係を定め、ピンホールと弱い点を持つ装置が理想的な正弦波ジョセフソン関係から逸脱することを確認する。

Josephson junctions are the key components used in superconducting qubits for quantum computing. The advancement of quantum computing is limited by a lack of stability and reproducibility of qubits which ultimately originates in the amorphous tunnel barrier of the Josephson junctions and other material imperfections. Pinholes in the junction have been suggested as one of the possible contributors to these instabilities, but evidence of their existence and the effect they might have on transport is unclear. We use molecular dynamics to create three-dimensional atomistic models to describe Al-AlOx-Al tunnel junctions, showing that pinholes form when oxidation of the barrier is incomplete. Following this we use the atomistic model and simulate the electronic transport properties for tunnel junctions with different barrier thicknesses using the non-equilibrium Green's function formalism. We observe that pinholes may contribute to excess quasiparticle current flow in Al-AlOx-Al tunnel junctions with thinner barriers, and in thicker barriers we observe weak-points which facilitate leakage currents even when the oxide is continuous. We find that the disordered nature of the amorphous barrier results in significant variations in the transport properties. Additionally, we determine the current-phase relationship for our atomistic structures, confirming that devices with pinholes and weak-points cause a deviation from the ideal sinusoidal Josephson relationship.
翻訳日:2024-03-01 18:12:49 公開日:2024-02-29
# spect画像のマルチモーダル融合を用いたコントラストグラフクロスビュー学習によるパーキンソン病の分類と臨床像

Parkinson's Disease classification Using Contrastive Graph Cross-View Learning with Multimodal Fusion of SPECT Images and Clinical Features ( http://arxiv.org/abs/2311.14902v2 )

ライセンス: Link先を確認
Jun-En Ding, Chien-Chin Hsu, and Feng Liu(参考訳) パーキンソン病(PD)は世界中の何百万もの運動に影響を与える。 以前の研究では、ディープラーニングをPD予測に利用し、主に医療画像に焦点を当て、データの基盤となる多様体構造を無視した。 本研究では,画像特徴と非画像特徴の両方を包含するマルチモーダルアプローチを提案し,PD分類にコントラッシブなクロスビューグラフ融合を利用する。 画像と臨床特徴の低次元表現から得られたグラフビューからの埋め込みを統合した,新しいマルチモーダルコアテンションモジュールを提案する。 これにより、より堅牢で構造化された特徴を抽出し、マルチビューデータ分析を改善することができる。 さらに,クロスビュー融合学習を強化するために,簡易なコントラストロスベース融合法が考案された。 グラフビューによるマルチモーダル手法は, 精度91%, AUCが92.8%の5倍のクロスバリデーションを実現する。 また、機械学習ベースの方法のみと比較して、非画像データでの優れた予測能力を示す。

Parkinson's Disease (PD) affects millions globally, impacting movement. Prior research utilized deep learning for PD prediction, primarily focusing on medical images, neglecting the data's underlying manifold structure. This work proposes a multimodal approach encompassing both image and non-image features, leveraging contrastive cross-view graph fusion for PD classification. We introduce a novel multimodal co-attention module, integrating embeddings from separate graph views derived from low-dimensional representations of images and clinical features. This enables extraction of more robust and structured features for improved multi-view data analysis. Additionally, a simplified contrastive loss-based fusion method is devised to enhance cross-view fusion learning. Our graph-view multimodal approach achieves an accuracy of 91% and an AUC of 92.8% in five-fold cross-validation. It also demonstrates superior predictive capabilities on non-image data compared to solely machine learning-based methods.
翻訳日:2024-03-01 18:12:26 公開日:2024-02-29
# 正規直交ディープリニアニューラルネットワーク学習のための収束解析

Convergence Analysis for Learning Orthonormal Deep Linear Neural Networks ( http://arxiv.org/abs/2311.14658v2 )

ライセンス: Link先を確認
Zhen Qin, Xuwei Tan, Zhihui Zhu(参考訳) 重み行列の正則性や等尺性は、勾配の爆発/消滅を緩和し、学習ネットワークの堅牢性を高めることにより、ディープニューラルネットワークのトレーニングを強化することが示されている。 しかし、実際的な性能にもかかわらず、ニューラルネットワークの正則性の理論的解析はいまだに欠けており、例えば、正則性がトレーニングプロセスの収束にどのように影響するかである。 本稿では,正規直交深い線形ニューラルネットワークのトレーニングに収束解析を提供することで,このギャップを埋めることを目的とする。 具体的には,損失関数のクラスで正規直交の深い線形ニューラルネットワークを訓練するために,適切な初期化を伴うリーマン勾配降下が線形速度で収束することを示す。 すべての層に対して正規直交重み行列を強制する既存の作品とは異なり、このアプローチは1つの層に対するこの要件を除外し、収束保証を確立するのに不可欠である。 その結果,隠れた層数の増加が収束速度に与える影響を明らかにした。 実験結果は理論解析を検証する。

Enforcing orthonormal or isometric property for the weight matrices has been shown to enhance the training of deep neural networks by mitigating gradient exploding/vanishing and increasing the robustness of the learned networks. However, despite its practical performance, the theoretical analysis of orthonormality in neural networks is still lacking; for example, how orthonormality affects the convergence of the training process. In this letter, we aim to bridge this gap by providing convergence analysis for training orthonormal deep linear neural networks. Specifically, we show that Riemannian gradient descent with an appropriate initialization converges at a linear rate for training orthonormal deep linear neural networks with a class of loss functions. Unlike existing works that enforce orthonormal weight matrices for all the layers, our approach excludes this requirement for one layer, which is crucial to establish the convergence guarantee. Our results shed light on how increasing the number of hidden layers can impact the convergence speed. Experimental results validate our theoretical analysis.
翻訳日:2024-03-01 18:12:10 公開日:2024-02-29
# 分子同定とピークアサインメント:NMRによるマルチレベルマルチモーダルアライメントの活用

Molecular Identification and Peak Assignment: Leveraging Multi-Level Multimodal Alignment on NMR ( http://arxiv.org/abs/2311.13817v2 )

ライセンス: Link先を確認
Hao Xu, Zhengyang Zhou, Pengyu Hong(参考訳) 核磁気共鳴(nmr)分光法は分子構造と動的挙動の解読に必須の役割を果たす。 aiによるnmr予測モデルが期待されている一方で、分子検索、異性体認識、ピーク割り当てといったタスクでは依然として課題が続いている。 そこで本研究では,分子グラフとNMRスペクトルの2つの不均一なモードの対応性を確立する,知識誘導型インスタンスワイズ識別を用いたマルチレベルマルチモーダルアライメント(K-M3AID)を提案する。 K-M3AIDは、グラフレベルのアライメントモジュール、ノードレベルのアライメントモジュール、通信チャネルの3つの主要なモジュールを持つ二重協調型コントラスト学習アーキテクチャを採用している。 特に、K-M3AIDは、ノードレベルのアライメントモジュール内での対照的な学習に知識誘導型インスタンスワイド識別を導入している。 さらに、K-M3AIDは、ノードレベルのアライメント中に獲得したスキルがグラフレベルのアライメントに肯定的な影響を与えることを示し、メタラーニングを固有の特性として認める。 経験的検証は、複数のゼロショットタスクにおけるK-M3AIDの有効性を裏付ける。

Nuclear magnetic resonance (NMR) spectroscopy plays an essential role in deciphering molecular structure and dynamic behaviors. While AI-enhanced NMR prediction models hold promise, challenges still persist in tasks such as molecular retrieval, isomer recognition, and peak assignment. In response, this paper introduces a novel solution, Multi-Level Multimodal Alignment with Knowledge-Guided Instance-Wise Discrimination (K-M3AID), which establishes correspondences between two heterogeneous modalities: molecular graphs and NMR spectra. K-M3AID employs a dual-coordinated contrastive learning architecture with three key modules: a graph-level alignment module, a node-level alignment module, and a communication channel. Notably, K-M3AID introduces knowledge-guided instance-wise discrimination into contrastive learning within the node-level alignment module. In addition, K-M3AID demonstrates that skills acquired during node-level alignment have a positive impact on graph-level alignment, acknowledging meta-learning as an inherent property. Empirical validation underscores K-M3AID's effectiveness in multiple zero-shot tasks.
翻訳日:2024-03-01 18:11:30 公開日:2024-02-29
# fedhca$^2$:ヘテロクライアントフェデレーションマルチタスク学習に向けて

FedHCA$^2$: Towards Hetero-Client Federated Multi-Task Learning ( http://arxiv.org/abs/2311.13250v2 )

ライセンス: Link先を確認
Yuxiang Lu, Suizhi Huang, Yuwen Yang, Shalayiding Sirejiding, Yue Ding, Hongtao Lu(参考訳) Federated Learning (FL)は、ローカルデータをプライベートに使用する分散クライアント間の共同トレーニングを可能にする。 Federated Multi-Task Learning (FMTL)はFL上に構築され、複数のタスクを処理する。 この仮定を緩和し、現実の応用性を拡張するため、多様なタスク設定に対応するために、新しい問題設定であるHetero-Client Federated Multi-Task Learning(HC-FMTL)を導入する。 HC-FMTLの主な課題は、従来の集約手法を無効にするモデル不整合問題である。 また、fmtlに固有のデータとタスクの不均一性を扱うために、正確なモデル集約の難しさをエスカレートする。 そこで我々は,ヘテロジニアスクライアント間の関係をモデル化することでパーソナライズされたモデルのフェデレートトレーニングを可能にするfedhca$^2$フレームワークを提案する。 マルチタスクとフェデレーション最適化の違いに関する理論的知見に基づいて,エンコーダ更新時の競合を軽減するためのHyper Conflict-Averse Aggregationスキームを提案する。 さらに、mtlのタスクインタラクションにインスパイアされたハイパークロスアテンションアグリゲーションスキームは、モデルの不合理さを緩和しながらデコーダインタラクションを強化するために層間クロスアグリゲーションを使用する。 さらに,各クライアントに学習可能なハイパーアグリゲーション重みを用い,パーソナライズされたパラメータ更新をカスタマイズする。 HC-FMTLの様々なシナリオにおいて,FedHCA$^2$の優れた性能を示す実験を行った。 私たちのコードは公開されます。

Federated Learning (FL) enables joint training across distributed clients using their local data privately. Federated Multi-Task Learning (FMTL) builds on FL to handle multiple tasks, assuming model congruity that identical model architecture is deployed in each client. To relax this assumption and thus extend real-world applicability, we introduce a novel problem setting, Hetero-Client Federated Multi-Task Learning (HC-FMTL), to accommodate diverse task setups. The main challenge of HC-FMTL is the model incongruity issue that invalidates conventional aggregation methods. It also escalates the difficulties in accurate model aggregation to deal with data and task heterogeneity inherent in FMTL. To address these challenges, we propose the FedHCA$^2$ framework, which allows for federated training of personalized models by modeling relationships among heterogeneous clients. Drawing on our theoretical insights into the difference between multi-task and federated optimization, we propose the Hyper Conflict-Averse Aggregation scheme to mitigate conflicts during encoder updates. Additionally, inspired by task interaction in MTL, the Hyper Cross Attention Aggregation scheme uses layer-wise cross attention to enhance decoder interactions while alleviating model incongruity. Moreover, we employ learnable Hyper Aggregation Weights for each client to customize personalized parameter updates. Extensive experiments demonstrate the superior performance of FedHCA$^2$ in various HC-FMTL scenarios compared to representative methods. Our code will be made publicly available.
翻訳日:2024-03-01 18:11:03 公開日:2024-02-29
# cognitive overload: 過剰な論理思考を伴う大規模言語モデルのジェイルブレイク

Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking ( http://arxiv.org/abs/2311.09827v2 )

ライセンス: Link先を確認
Nan Xu, Fei Wang, Ben Zhou, Bang Zheng Li, Chaowei Xiao, Muhao Chen(参考訳) 大規模言語モデル(llm)は、パワーの増大を実証しているが、それらは幅広い有害な行動を引き起こしている。 代表として、ジェイルブレイク攻撃は、安全アライメントの後でも、llmから有害あるいは非倫理的な応答を引き起こす可能性がある。 本稿では,llmの認知構造と過程をターゲットとしたジェイルブレイク攻撃の新たなカテゴリについて検討する。 具体的には,(1)多言語認知過負荷,(2)veiled expression,(3) effect-to- because reasoningの対面におけるllmsの安全性脆弱性を分析した。 これまでのジェイルブレイク攻撃とは異なり、提案されている認知過剰はブラックボックス攻撃であり、モデルアーキテクチャやモデル重み付けへのアクセスに関する知識は不要である。 AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。 認知心理学における認知的負荷管理の取り組みにより,認知的過負荷攻撃の防御を2つの視点から検討した。 実験的な研究によると、我々の認知的過負荷は3つの観点から、すべての研究されたLSMを脱獄させる可能性がある。

While large language models (LLMs) have demonstrated increasing power, they have also given rise to a wide range of harmful behaviors. As representatives, jailbreak attacks can provoke harmful or unethical responses from LLMs, even after safety alignment. In this paper, we investigate a novel category of jailbreak attacks specifically designed to target the cognitive structure and processes of LLMs. Specifically, we analyze the safety vulnerability of LLMs in the face of (1) multilingual cognitive overload, (2) veiled expression, and (3) effect-to-cause reasoning. Different from previous jailbreak attacks, our proposed cognitive overload is a black-box attack with no need for knowledge of model architecture or access to model weights. Experiments conducted on AdvBench and MasterKey reveal that various LLMs, including both popular open-source model Llama 2 and the proprietary model ChatGPT, can be compromised through cognitive overload. Motivated by cognitive psychology work on managing cognitive load, we further investigate defending cognitive overload attack from two perspectives. Empirical studies show that our cognitive overload from three perspectives can jailbreak all studied LLMs successfully, while existing defense strategies can hardly mitigate the caused malicious uses effectively.
翻訳日:2024-03-01 18:10:34 公開日:2024-02-29
# 拡張性へのショートカット:理論的枠組み、異なる方法間の関係、および汎用近似

Shortcuts to adiabaticity: theoretical framework, relations between different methods, and versatile approximations ( http://arxiv.org/abs/2311.09720v2 )

ライセンス: Link先を確認
Takuya Hatomura(参考訳) adiabaticity guideへのショートカットは、高速トラックを介して、adiabatic controlの最終目的地にシステムを与える。 様々な手法が近道の変種として提案された。 adiabaticityへの近道の基本理論は2010年代に確立されたが、まだ発展途上であり、多くの基本的な発見が報告されている。 このトピックレビューでは,断熱性への近道の理論を教育的に紹介し,異なる方法間の関係を再検討する。 adiabaticityへの近道の1つである対断駆動におけるいくつかの多彩な近似は、詳しく説明される。 また,近年のショートカット研究の進歩を要約した。

Shortcuts to adiabaticity guide given systems to final destinations of adiabatic control via fast tracks. Various methods were proposed as varieties of shortcuts to adiabaticity. Basic theory of shortcuts to adiabaticity was established in the 2010s, but it has still been developing and many fundamental findings have been reported. In this Topical Review, we give a pedagogical introduction to theory of shortcuts to adiabaticity and revisit relations between different methods. Some versatile approximations in counterdiabatic driving, which is one of the methods of shortcuts to adiabaticity, will be explained in detail. We also summarize recent progress in studies of shortcuts to adiabaticity.
翻訳日:2024-03-01 18:09:48 公開日:2024-02-29
# 反フォーゲッティングを超えて:正のフォワード転送を伴うマルチモーダル連続命令チューニング

Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer ( http://arxiv.org/abs/2401.09181v2 )

ライセンス: Link先を確認
Junhao Zheng, Qianli Ma, Zhen Liu, Binquan Wu, Huawen Feng(参考訳) MCIT(Multimodal Continual Instruction Tuning)は、Multimodal Large Language Models(MLLM)が、高価なリトレーニングなしで継続的な要求を満たすことを可能にする。 MCITは、破滅的な忘れ(古い知識が忘れられる)と負の転送(将来のタスクのパフォーマンスが劣化する)という2つの大きな障害に直面します。 既存の手法は壊滅的な記憶を大幅に緩和しているが、それでも負の前方移動に苦しむ。 入力埋め込みにおいて特異値分解(SVD)を行うことにより、異なる入力埋め込みにおいて大きな相違を見出す。 この不一致は、古いタスクと事前訓練されたタスクの無関係な学習をもたらし、破滅的な忘れ込みと負の転送につながる。 そこで本稿では,タスク間の干渉を最小限に抑え,事前学習済みの知識を再利用するための事前学習済み部分空間にプロンプト勾配を投影するプロンプトベース手法であるfwd-promptを提案する。 実験により,Fwd-Promptは,少ないパラメータを更新し,古いサンプルを必要とせず,最先端の性能を実現することを示した。 本研究は,命令チューニングパラダイムの下でMLLMを新たなタスクに継続的に適用する可能性に注目し,今後のMCITの探索を奨励するものである。 コードはまもなく公開される予定だ。

Multimodal Continual Instruction Tuning (MCIT) enables Multimodal Large Language Models (MLLMs) to meet continuously emerging requirements without expensive retraining. MCIT faces two major obstacles: catastrophic forgetting (where old knowledge is forgotten) and negative forward transfer (where the performance of future tasks is degraded). Although existing methods have greatly alleviated catastrophic forgetting, they still suffer from negative forward transfer. By performing singular value decomposition (SVD) on input embeddings, we discover a large discrepancy in different input embeddings. The discrepancy results in the model learning irrelevant information for old and pre-trained tasks, which leads to catastrophic forgetting and negative forward transfer. To address these issues, we propose Fwd-Prompt, a prompt-based method projecting prompt gradient to the residual space to minimize the interference between tasks and to the pre-trained subspace for reusing pre-trained knowledge. Our experiments demonstrate that Fwd-Prompt achieves state-of-the-art performance while updating fewer parameters and requiring no old samples. Our research sheds light on the potential of continuously adapting MLLMs to new tasks under the instruction tuning paradigm and encourages future studies to explore MCIT. The code will soon be publicly available.
翻訳日:2024-03-01 18:05:19 公開日:2024-02-29
# CNVSRC 2023における音声認識のためのNPU-ASLP-LiAutoシステム記述

The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023 ( http://arxiv.org/abs/2401.06788v2 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Wei Chen, Pan Zhou, Lei Xie(参考訳) 本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識(VSR)システムについて述べる。 データ処理の観点からは、ベースライン1からの唇運動抽出器を利用して、マルチスケールビデオデータを生成する。 さらに、トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。 VSRモデルは、ResNet3Dビジュアルフロントエンド、E-Branchformerエンコーダ、Transformerデコーダを含む、共同CTC/アテンション損失を伴うエンドツーエンドアーキテクチャを採用する。 実験の結果,本システムはマルチシステム融合後のシングルスピーカタスクで34.76%,マルチスピーカタスクで41.06%,参加3トラックで1位となった。

This paper delineates the visual speech recognition (VSR) system introduced by the NPU-ASLP-LiAuto (Team 237) in the first Chinese Continuous Visual Speech Recognition Challenge (CNVSRC) 2023, engaging in the fixed and open tracks of Single-Speaker VSR Task, and the open track of Multi-Speaker VSR Task. In terms of data processing, we leverage the lip motion extractor from the baseline1 to produce multi-scale video data. Besides, various augmentation techniques are applied during training, encompassing speed perturbation, random rotation, horizontal flipping, and color transformation. The VSR model adopts an end-to-end architecture with joint CTC/attention loss, comprising a ResNet3D visual frontend, an E-Branchformer encoder, and a Transformer decoder. Experiments show that our system achieves 34.76% CER for the Single-Speaker Task and 41.06% CER for the Multi-Speaker Task after multi-system fusion, ranking first place in all three tracks we participate.
翻訳日:2024-03-01 18:04:53 公開日:2024-02-29
# 適応型プロファイリングトランスフォーマによるアルツハイマー病診断

ADAPT: Alzheimer Diagnosis through Adaptive Profiling Transformers ( http://arxiv.org/abs/2401.06349v2 )

ライセンス: Link先を確認
Yifeng Wang, Ke Chen and Haohan Wang(参考訳) 磁気共鳴画像(MRI)などの脳画像からのアルツハイマー病(AD)の自動診断がますます重要になってきており、多くの深層学習方法に貢献するためにコミュニティを惹きつけている。 しかし、これらの手法の多くは、3Dモデルは複雑である傾向にあるというトレードオフに直面しており、2Dモデルはデータから完全な3Dの複雑さを捉えることができない。 本稿では,adを診断するための新しいモデル構造を導入し,基本的には2次元法(計算効率)でありながら3次元モデルの性能を完備する。 中心となる考え方は、3次元から複数の2次元スライスに分割する新たな視点にあるが、各次元のスライス数を適応的に選択することや、新しいアテンション機構を含む、この新たな視点でモデルをさらに活用できる複数のコンポーネントを導入する。 また,新しい計算負荷もほとんど導入しないが,ADの病態に整合性があるため,診断性能の向上に寄与する形態的拡張も導入する。 適応型プロファイリング変換器を用いたアルツハイマー診断のためのADAPT法を考案した。 診断の正確さは私たちの適応を優先しますが、adaptはほとんどの3dモデルが使用するパラメータよりも少ないパラメータを使用します。

Automated diagnosis of Alzheimer Disease(AD) from brain imaging, such as magnetic resonance imaging (MRI), has become increasingly important and has attracted the community to contribute many deep learning methods. However, many of these methods are facing a trade-off that 3D models tend to be complicated while 2D models cannot capture the full 3D intricacies from the data. In this paper, we introduce a new model structure for diagnosing AD, and it can complete with performances of 3D models while essentially is a 2D method (thus computationally efficient). While the core idea lies in new perspective of cutting the 3D images into multiple 2D slices from three dimensions, we introduce multiple components that can further benefit the model in this new perspective, including adaptively selecting the number of sclices in each dimension, and the new attention mechanism. In addition, we also introduce a morphology augmentation, which also barely introduces new computational loads, but can help improve the diagnosis performances due to its alignment to the pathology of AD. We name our method ADAPT, which stands for Alzheimer Diagnosis through Adaptive Profiling Transformers. We test our model from a practical perspective (the testing domains do not appear in the training one): the diagnosis accuracy favors our ADAPT, while ADAPT uses less parameters than most 3D models use.
翻訳日:2024-03-01 18:04:31 公開日:2024-02-29
# ゼロショット対向ロバストネスのための事前学習モデルによるファインチューニング

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness ( http://arxiv.org/abs/2401.04350v2 )

ライセンス: Link先を確認
Sibo Wang, Jie Zhang, Zheng Yuan, Shiguang Shan(参考訳) CLIPのような大規模事前学習型視覚言語モデルは、様々なタスクにまたがって印象的なパフォーマンスを示し、目立ったゼロショットの一般化能力を示している。 既存の作品は通常、敵の例に対する防御方法として敵の訓練(微調整)を用いる。 しかし、CLIPモデルへの直接適用は過度に適合し、一般化のためのモデルの能力が損なわれる可能性がある。 本稿では,予備ブランチを慎重に設計することにより,前訓練モデルからの監督を活かし,モデルのゼロショット攻撃性を高めるプリトレーニングモデル誘導制御(pmg-aft)法を提案する。 具体的には, PMG-AFT は, 対象モデルの特徴と事前学習モデルの特徴との間の距離を最小化し, 事前学習モデルが既に取得した一般化特徴の保存を目的としている。 15のゼロショットデータセットに対する大規模な実験により、PMG-AFTは最先端の手法よりも大幅に優れ、平均4.99%の精度でトップ1の堅牢さが向上した。 さらに, 本手法では, 洗浄精度を平均8.72%向上させる。

Large-scale pre-trained vision-language models like CLIP have demonstrated impressive performance across various tasks, and exhibit remarkable zero-shot generalization capability, while they are also vulnerable to imperceptible adversarial examples. Existing works typically employ adversarial training (fine-tuning) as a defense method against adversarial examples. However, direct application to the CLIP model may result in overfitting, compromising the model's capacity for generalization. In this paper, we propose Pre-trained Model Guided Adversarial Fine-Tuning (PMG-AFT) method, which leverages supervision from the original pre-trained model by carefully designing an auxiliary branch, to enhance the model's zero-shot adversarial robustness. Specifically, PMG-AFT minimizes the distance between the features of adversarial examples in the target model and those in the pre-trained model, aiming to preserve the generalization features already captured by the pre-trained model. Extensive Experiments on 15 zero-shot datasets demonstrate that PMG-AFT significantly outperforms the state-of-the-art method, improving the top-1 robust accuracy by an average of 4.99%. Furthermore, our approach consistently improves clean accuracy by an average of 8.72%.
翻訳日:2024-03-01 18:04:06 公開日:2024-02-29
# 無限dSprites for Disentangled Continual Learning:Separating Memory Edits from Generalization

Infinite dSprites for Disentangled Continual Learning: Separating Memory Edits from Generalization ( http://arxiv.org/abs/2312.16731v2 )

ライセンス: Link先を確認
Sebastian Dziadzio, \c{C}a\u{g}atay Y{\i}ld{\i}z, Gido M. van de Ven, Tomasz Trzci\'nski, Tinne Tuytelaars, Matthias Bethge(参考訳) 機械学習システムの継続的に学習する能力は、新しいタスクを学ぶ際に既存の知識を上書きするニューラルネットワークの傾向である壊滅的な忘れによって妨げられる。 連続学習手法は、正規化、パラメータ分離、リハーサルを通じてこの問題を軽減するが、通常は少数のタスクからなるベンチマークで評価される。 対照的に、人間はダイナミックでオープンワールドな環境で継続的に学習することができ、不慣れな物体を一発で記憶し、様々な変換の下で確実に認識することができる。 このギャップの解消に向けて,我々は無限dspritesを導入する。これは任意の長さの連続的分類と不等角化ベンチマークを作成し,生成因子を完全に制御する道具である。 その結果,この単純なベンチマークでは,すべての主要連続学習手法の性能が低下することが示された。 有限なモデリング能力と任意に長い学習地平線を与えられた場合、効率的な学習にはクラス固有の情報を記憶し、一般的なメカニズムに関する知識を蓄積する必要がある。 生成要因を直接監督する簡単な設定で,クラス非依存変換の学習が,破滅的な放棄を回避し,時間の経過とともに分類精度を向上させる方法を示す。 提案手法は,記憶と忘れを明示的に制御し,オープンセットの分類とワンショットの一般化を重視した,何百ものタスクを連続的に学習する段階を定めている。

The ability of machine learning systems to learn continually is hindered by catastrophic forgetting, the tendency of neural networks to overwrite existing knowledge when learning a new task. Continual learning methods alleviate this problem through regularization, parameter isolation, or rehearsal, but they are typically evaluated on benchmarks comprising only a handful of tasks. In contrast, humans are able to learn continually in dynamic, open-world environments, effortlessly achieving one-shot memorization of unfamiliar objects and reliably recognizing them under various transformations. To make progress towards closing this gap, we introduce Infinite dSprites, a parsimonious tool for creating continual classification and disentanglement benchmarks of arbitrary length and with full control over generative factors. We show that over a sufficiently long time horizon, the performance of all major types of continual learning methods deteriorates on this simple benchmark. Thus, Infinite dSprites highlights an important aspect of continual learning that has not received enough attention so far: given a finite modelling capacity and an arbitrarily long learning horizon, efficient learning requires memorizing class-specific information and accumulating knowledge about general mechanisms. In a simple setting with direct supervision on the generative factors, we show how learning class-agnostic transformations offers a way to circumvent catastrophic forgetting and improve classification accuracy over time. Our approach sets the stage for continual learning over hundreds of tasks with explicit control over memorization and forgetting, emphasizing open-set classification and one-shot generalization.
翻訳日:2024-03-01 18:03:44 公開日:2024-02-29
# バイオマーカー選択のための多目的遺伝的アルゴリズムに適用された系統的過大評価のための2段階最適化

Dual-stage optimizer for systematic overestimation adjustment applied to multi-objective genetic algorithms for biomarker selection ( http://arxiv.org/abs/2312.16624v3 )

ライセンス: Link先を確認
Luca Cattelani and Vittorio Fortino(参考訳) オミクスデータからの機械学習によるバイオマーカー発見の課題は、分子の特徴の豊富さとサンプルの不足にある。 機械学習におけるほとんどの特徴選択法は、最も効果的な組み合わせを決定するために様々な特徴集合(モデル)を評価する必要がある。 このプロセスは通常、バリデーションデータセットを使用して行われ、モデルのパフォーマンスを最適化するためにさまざまな機能セットをテストする。 評価は性能推定エラーを持ち、選択が多くのモデルを伴う場合、ベストなモデルはほとんど確実に過大評価されます。 特徴選択手法を用いたバイオマーカーの同定は、特徴数の予測能力とパシモニーの間のトレードオフを伴う多目的問題として対処できる。 遺伝的アルゴリズムは多目的最適化の一般的なツールであるが、多くの解を進化させ、過大評価しがちである。 モデルが既に単一目的問題で選択された後に過大評価を減少させる手法が提案されているが、最適化やモデル選択の改善、より一般的な多目的領域に適用できるアルゴリズムは存在しない。 提案するDOSA-MOは多目的最適化ラッパーアルゴリズムで,元の推定値,分散度,および解の特徴セットサイズが過大評価を予測する。 DOSA-MOは最適化時の性能の期待値を調整し、解集合の構成を改善する。 癌サブタイプおよび/または患者全体の生存率を予測する場合, DOSA-MOは, 腎癌および乳癌の3つの転写学的データセットを用いて, 最先端の遺伝的アルゴリズムの性能を向上させることが確認された。

The challenge in biomarker discovery using machine learning from omics data lies in the abundance of molecular features but scarcity of samples. Most feature selection methods in machine learning require evaluating various sets of features (models) to determine the most effective combination. This process, typically conducted using a validation dataset, involves testing different feature sets to optimize the model's performance. Evaluations have performance estimation error and when the selection involves many models the best ones are almost certainly overestimated. Biomarker identification with feature selection methods can be addressed as a multi-objective problem with trade-offs between predictive ability and parsimony in the number of features. Genetic algorithms are a popular tool for multi-objective optimization but they evolve numerous solutions thus are prone to overestimation. Methods have been proposed to reduce the overestimation after a model has already been selected in single-objective problems, but no algorithm existed capable of reducing the overestimation during the optimization, improving model selection, or applied in the more general multi-objective domain. We propose DOSA-MO, a novel multi-objective optimization wrapper algorithm that learns how the original estimation, its variance, and the feature set size of the solutions predict the overestimation. DOSA-MO adjusts the expectation of the performance during the optimization, improving the composition of the solution set. We verify that DOSA-MO improves the performance of a state-of-the-art genetic algorithm on left-out or external sample sets, when predicting cancer subtypes and/or patient overall survival, using three transcriptomics datasets for kidney and breast cancer.
翻訳日:2024-03-01 18:03:18 公開日:2024-02-29
# オープンソースのpythonライブラリのllmインタラクティブ最適化 - ケーススタディと一般化

LLM Interactive Optimization of Open Source Python Libraries -- Case Studies and Generalization ( http://arxiv.org/abs/2312.14949v2 )

ライセンス: Link先を確認
Andreas Florath(参考訳) gpt-3のような大規模言語モデル(llm)の出現により、ソースコードの最適化にこれらのモデルが利用できる範囲が自然に疑問視される。 本稿では,pythonライブラリであるpillとnumpyに対して,方法論的に厳密なケーススタディを適用する。 現代のLLM ChatGPT-4(2023年9月から10月)は、エネルギーと計算効率の最適化に驚くほど適している。 しかし、これは対話的な使用においてのみ行われ、人間の専門家がループ内にいる。 実験者のバイアスに気付き、定性的なアプローチを詳細に記録し、書き起こしとソースコードを提供する。 まず, 枕ライブラリの_getextrema関数を最適化するため, LLMと対話する際のアプローチの詳細な説明と, 性能改善の定量的評価から始める。 定性的な再現性を示すために,ピローライブラリ内の他の軌跡とnumpyライブラリ内の1つのコード軌跡について,ライブラリ内外の一般化を実証する試みを報告する。 あらゆる試みにおいて、パフォーマンス改善は重要である(最大38要素)。 失敗した試みの報告も省略していません(ありませんでした)。 llmsはオープンソースライブラリのコード最適化に有望なツールだが、ループの人間的エキスパートは成功に欠かせないものだと結論付けている。 それでも、ループのエキスパートにとって明らかでないパフォーマンス改善を実現するために、イテレーションがどれだけ必要だったかに驚きました。 我々は、この研究の質的性質に注意を向け、より堅牢な定量的研究は、代表的なサンプルに専門家を選ぶ層を導入する必要があるだろう。

With the advent of large language models (LLMs) like GPT-3, a natural question is the extent to which these models can be utilized for source code optimization. This paper presents methodologically stringent case studies applied to well-known open source python libraries pillow and numpy. We find that contemporary LLM ChatGPT-4 (state September and October 2023) is surprisingly adept at optimizing energy and compute efficiency. However, this is only the case in interactive use, with a human expert in the loop. Aware of experimenter bias, we document our qualitative approach in detail, and provide transcript and source code. We start by providing a detailed description of our approach in conversing with the LLM to optimize the _getextrema function in the pillow library, and a quantitative evaluation of the performance improvement. To demonstrate qualitative replicability, we report further attempts on another locus in the pillow library, and one code locus in the numpy library, to demonstrate generalization within and beyond a library. In all attempts, the performance improvement is significant (factor up to 38). We have also not omitted reporting of failed attempts (there were none). We conclude that LLMs are a promising tool for code optimization in open source libraries, but that the human expert in the loop is essential for success. Nonetheless, we were surprised by how few iterations were required to achieve substantial performance improvements that were not obvious to the expert in the loop. We would like bring attention to the qualitative nature of this study, more robust quantitative studies would need to introduce a layer of selecting experts in a representative sample -- we invite the community to collaborate.
翻訳日:2024-03-01 18:02:51 公開日:2024-02-29
# ProS:Universal Cross-Domain Retrievalのための汎用知識の実証とシミュレーション

ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval ( http://arxiv.org/abs/2312.12478v3 )

ライセンス: Link先を確認
Kaipeng Fang, Jingkuan Song, Lianli Gao, Pengpeng Zeng, Zhi-Qi Cheng, Xiyao Li, Heng Tao Shen(参考訳) ユニバーサルクロスドメイン検索(ucdr)の目標は、トレーニング中にデータが厳密に未知のドメインやカテゴリに属する可能性がある一般的なテストシナリオにおいて、堅牢なパフォーマンスを達成することである。 近年,プロンプトチューニングによる事前学習モデルでは,一般化能力が強く,数ショット学習やビデオテキスト検索などの下流課題においても注目に値する成果が得られている。 しかし、UCDRに直接適用しても、ドメインシフト(不慣れなドメインへの適応)とセマンティックシフト(未知のカテゴリへの移動)の両方を扱うのに十分ではないかもしれない。 この目的のために,UCDR にプロンプトチューニングを適用する最初の方法である \textbf{Pro}mpting-to-\textbf{S}imulate (ProS) を提案する。 ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。 具体的には、Prompt Units Learningの段階で、ドメインとセマンティック知識をマスク・アンド・アラインな方法で個別にキャプチャする2つのPrompt Unitを導入します。 次に,コンテントアウェアシミュレータ学習段階において,コンテントアウェアプロンプトシミュレータをシミュレートテストシナリオで訓練し,対応するcadpを生成する。 3つのベンチマークデータセットで行った広範囲な実験により,本手法は過剰なパラメータを伴わずに新たな最先端性能を達成できた。 このメソッドはhttps://github.com/fangkaipeng/prosで公開されている。

The goal of Universal Cross-Domain Retrieval (UCDR) is to achieve robust performance in generalized test scenarios, wherein data may belong to strictly unknown domains and categories during training. Recently, pre-trained models with prompt tuning have shown strong generalization capabilities and attained noteworthy achievements in various downstream tasks, such as few-shot learning and video-text retrieval. However, applying them directly to UCDR may not sufficiently to handle both domain shift (i.e., adapting to unfamiliar domains) and semantic shift (i.e., transferring to unknown categories). To this end, we propose \textbf{Pro}mpting-to-\textbf{S}imulate (ProS), the first method to apply prompt tuning for UCDR. ProS employs a two-step process to simulate Content-aware Dynamic Prompts (CaDP) which can impact models to produce generalized features for UCDR. Concretely, in Prompt Units Learning stage, we introduce two Prompt Units to individually capture domain and semantic knowledge in a mask-and-align way. Then, in Context-aware Simulator Learning stage, we train a Content-aware Prompt Simulator under a simulated test scenarios to produce the corresponding CaDP. Extensive experiments conducted on three benchmark datasets show that our method achieves new state-of-the-art performance without bringing excessive parameters. Our method is publicly available at https://github.com/fangkaipeng/ProS.
翻訳日:2024-03-01 18:02:25 公開日:2024-02-29
# 階層型グラフ埋め込みのためのPoincar\'e差分プライバシー

Poincar\'e Differential Privacy for Hierarchy-Aware Graph Embedding ( http://arxiv.org/abs/2312.12183v3 )

ライセンス: Link先を確認
Yuecen Wei, Haonan Yuan, Xingcheng Fu, Qingyun Sun, Hao Peng, Xianxian Li, Chunming Hu(参考訳) 階層性(Hierarchy)は現実世界のグラフにおいて重要かつよく見られるトポロジ的特性であり、監督者と部下の関係や人間のグループの組織行動を示す。 階層構造は、さまざまなタスクにおいてグラフニューラルネットワーク(GNN)に新たな帰納バイアスとして導入されるため、攻撃者が推論攻撃のパフォーマンスを改善するための潜在的なトポロジ的関係が、重大なプライバシー漏洩問題を引き起こしている。 さらに、既存のプライバシー保護フレームワークは、階層的摂動境界の適応的上界推定の欠如により、階層的伝播の保護能力が低下する。 プライバシーの保証を満足しながら、データの階層的特性を効果的に活用することは、非常に緊急である。 この問題を解決するため,双曲幾何学に基づく階層認識グラフの埋め込みを保護するため,Poincar\'e Differential Privacy Framework(PoinDP)を提案する。 特に、PoinDPは双曲空間におけるPoincar\'eモデルに基づいて各エンティティの階層重みを学習する。 そして、階層構造の感度を計測し、プライバシ保護強度を適応的にアロケートするように、パーソナライズされた階層認識感度を設計する。 さらに、双曲空間のガウス機構(HGM)は、双曲空間のガウス機構を双曲空間に拡張し、双曲空間計量の下で微分プライバシーを満たすランダム摂動を実現する。 5つの実世界のデータセットに関する広範な実験の結果は、ノード分類タスクで優れたパフォーマンスを維持しつつ、効果的なプライバシ保護というpoindpの利点を実証している。

Hierarchy is an important and commonly observed topological property in real-world graphs that indicate the relationships between supervisors and subordinates or the organizational behavior of human groups. As hierarchy is introduced as a new inductive bias into the Graph Neural Networks (GNNs) in various tasks, it implies latent topological relations for attackers to improve their inference attack performance, leading to serious privacy leakage issues. In addition, existing privacy-preserving frameworks suffer from reduced protection ability in hierarchical propagation due to the deficiency of adaptive upper-bound estimation of the hierarchical perturbation boundary. It is of great urgency to effectively leverage the hierarchical property of data while satisfying privacy guarantees. To solve the problem, we propose the Poincar\'e Differential Privacy framework, named PoinDP, to protect the hierarchy-aware graph embedding based on hyperbolic geometry. Specifically, PoinDP first learns the hierarchy weights for each entity based on the Poincar\'e model in hyperbolic space. Then, the Personalized Hierarchy-aware Sensitivity is designed to measure the sensitivity of the hierarchical structure and adaptively allocate the privacy protection strength. Besides, the Hyperbolic Gaussian Mechanism (HGM) is proposed to extend the Gaussian mechanism in Euclidean space to hyperbolic space to realize random perturbations that satisfy differential privacy under the hyperbolic space metric. Extensive experiment results on five real-world datasets demonstrate the proposed PoinDP's advantages of effective privacy protection while maintaining good performance on the node classification task.
翻訳日:2024-03-01 18:01:58 公開日:2024-02-29
# RMS: リアルタイムポース推定のための冗長性最小化点クラウドサンプリング

RMS: Redundancy-Minimizing Point Cloud Sampling for Real-Time Pose Estimation ( http://arxiv.org/abs/2312.07337v2 )

ライセンス: Link先を確認
Pavel Petracek, Kostas Alexis, Martin Saska(参考訳) 移動ロボットの状態推定に使用される典型的な点雲サンプリング法は高い点冗長性を保っている。 この冗長性は不必要に推定パイプラインを遅くし、リアルタイムな制約の下でドリフトを引き起こす可能性がある。 このような遅延は、リソース制約のあるロボット(特にuav)にとってボトルネックとなり、アジャイルで正確な操作に最小限の遅延を必要とする。 本稿では, RMS と呼ばれる新しい, 決定論的, 非形式的, 単一パラメータ点クラウドサンプリング手法を提案する。 技術の状況とは対照的に、RMSは線形面と平面面が本質的に高い冗長性を反復的な推定パイプラインに伝播するという事実を活用することで、翻訳空間の可観測性をバランスさせる。 勾配流の概念を定義し、点の底にある局所表面を定量化する。 また,勾配流のエントロピーの最大化は,ロボットのエゴモーション推定における点冗長性を最小化することを示す。 RMSをポイントベースKISS-ICPと機能ベースLOAMオドメトリーパイプラインに統合し、KITTI、Hilti-Oxford、およびマルチロータUAVからのカスタムデータセットで実験的に評価する。 実験により, rmsは, 速度, 圧縮, 精度の面で, 幾何的に変形した設定において, 最先端の手法よりも優れていることが示された。

The typical point cloud sampling methods used in state estimation for mobile robots preserve a high level of point redundancy. This redundancy unnecessarily slows down the estimation pipeline and may cause drift under real-time constraints. Such undue latency becomes a bottleneck for resource-constrained robots (especially UAVs), requiring minimal delay for agile and accurate operation. We propose a novel, deterministic, uninformed, and single-parameter point cloud sampling method named RMS that minimizes redundancy within a 3D point cloud. In contrast to the state of the art, RMS balances the translation-space observability by leveraging the fact that linear and planar surfaces inherently exhibit high redundancy propagated into iterative estimation pipelines. We define the concept of gradient flow, quantifying the local surface underlying a point. We also show that maximizing the entropy of the gradient flow minimizes point redundancy for robot ego-motion estimation. We integrate RMS into the point-based KISS-ICP and feature-based LOAM odometry pipelines and evaluate experimentally on KITTI, Hilti-Oxford, and custom datasets from multirotor UAVs. The experiments demonstrate that RMS outperforms state-of-the-art methods in speed, compression, and accuracy in well-conditioned as well as in geometrically-degenerated settings.
翻訳日:2024-03-01 18:01:17 公開日:2024-02-29
# RepViT-SAM: リアルタイムセグメンテーションを目指す

RepViT-SAM: Towards Real-Time Segmenting Anything ( http://arxiv.org/abs/2312.05760v2 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding(参考訳) segment anything model (sam) は様々なコンピュータビジョンタスクにおいて印象的なゼロショット転送性能を示している。 しかし、その計算コストは実用的用途にはまだ支障をきたしている。 MobileSAM は蒸留を用いて SAM の重い画像エンコーダを TinyViT に置き換えることを提案する。 しかしながら、リソース制限されたモバイルデバイスへのデプロイメントは、自己保持機構によるメモリと計算オーバーヘッドの大幅な増加により、依然として課題に直面している。 近年、RepViTはモバイルデバイス上での最先端のパフォーマンスとレイテンシのトレードオフを実現し、ViTの効率的なアーキテクチャ設計をCNNに組み込むことで実現している。 そこで,モバイルSAMを追従して,モバイルデバイス上でのリアルタイムセグメンテーションを実現するため,SAMのヘビー級画像エンコーダをRepViTモデルに置き換え,最終的にRepViT-SAMモデルに置き換える。 大規模な実験によると、RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送能力を持ち、推論速度は10ドル近い。 コードとモデルは \url{https://github.com/thu-mig/repvit} で利用可能である。

Segment Anything Model (SAM) has shown impressive zero-shot transfer performance for various computer vision tasks recently. However, its heavy computation costs remain daunting for practical applications. MobileSAM proposes to replace the heavyweight image encoder in SAM with TinyViT by employing distillation, which results in a significant reduction in computational requirements. However, its deployment on resource-constrained mobile devices still encounters challenges due to the substantial memory and computational overhead caused by self-attention mechanisms. Recently, RepViT achieves the state-of-the-art performance and latency trade-off on mobile devices by incorporating efficient architectural designs of ViTs into CNNs. Here, to achieve real-time segmenting anything on mobile devices, following MobileSAM, we replace the heavyweight image encoder in SAM with RepViT model, ending up with the RepViT-SAM model. Extensive experiments show that RepViT-SAM can enjoy significantly better zero-shot transfer capability than MobileSAM, along with nearly $10\times$ faster inference speed. The code and models are available at \url{https://github.com/THU-MIG/RepViT}.
翻訳日:2024-03-01 18:00:56 公開日:2024-02-29
# 分散学習のためのトポロジーに基づく再構成防止

Topology-Based Reconstruction Prevention for Decentralised Learning ( http://arxiv.org/abs/2312.05248v2 )

ライセンス: Link先を確認
Florine W. Dekker (1), Zekeriya Erkin (1), Mauro Conti (2 and 1) ((1) Delft University of Technology, the Netherlands and (2) Universit\`a di Padova, Italy)(参考訳) 分散学習は、データとコーディネーションの両方がユーザ間で分散する連合学習の代替として、最近注目を集めている。 データの機密性を維持するため、分散学習は差分プライバシー、マルチパーティ計算、またはそれらの組み合わせに依存する。 しかし、複数のプライバシ保存サマリーを連続して実行すると、敵がリコンストラクション攻撃を行うことができる。 残念ながら、現在のリコンストラクション対策は分散設定に簡単に適応できないか、あるいは過剰なノイズを加えることができない。 本研究は,プライバシ保存の要約を数回行った結果,受動的に誠実だが正確な敵が,他のユーザのプライベートデータを推測できることを最初に示す。 例えば、18人のユーザを持つサブグラフでは、3人の受動的真正な敵のみが11.0%の時間でプライベートデータを再構築することに成功した。 成功率は、全ネットワークの大きさとは無関係に、敵の直接の近所のみに依存する。 我々は,グラフトポロジを制御せず,要約プロトコルの内部動作やユーザデータの詳細を利用できない弱い敵について考察する。 我々は,再構築がトポロジーとどのように関連しているかを数学的に理解し,再構成攻撃に対する最初のトポロジーベースの分散防御を提案する。 具体的には,ネットワークの最短周期の長さに線形な複数の逆数を必要とすることを示す。 したがって、非循環ネットワークではプライバシー保護の和からプライベートデータを再構築することは不可能である。 我々の研究は、トポロジーに基づく再構築防御の形式理論の足場である。 このような理論は、要約を超えて我々の対策を一般化し、エントロピーの観点から機密性を定義し、微分プライバシーの効果を記述する。

Decentralised learning has recently gained traction as an alternative to federated learning in which both data and coordination are distributed over its users. To preserve data confidentiality, decentralised learning relies on differential privacy, multi-party computation, or a combination thereof. However, running multiple privacy-preserving summations in sequence may allow adversaries to perform reconstruction attacks. Unfortunately, current reconstruction countermeasures either cannot trivially be adapted to the distributed setting, or add excessive amounts of noise. In this work, we first show that passive honest-but-curious adversaries can infer other users' private data after several privacy-preserving summations. For example, in subgraphs with 18 users, we show that only three passive honest-but-curious adversaries succeed at reconstructing private data 11.0% of the time, requiring an average of 8.8 summations per adversary. The success rate depends only on the adversaries' direct neighbourhood, independent of the size of the full network. We consider weak adversaries, who do not control the graph topology and can exploit neither the inner workings of the summation protocol nor the specifics of users' data. We develop a mathematical understanding of how reconstruction relates to topology and propose the first topology-based decentralised defence against reconstruction attacks. Specifically, we show that reconstruction requires a number of adversaries linear in the length of the network's shortest cycle. Consequently, reconstructing private data from privacy-preserving summations is impossible in acyclic networks. Our work is a stepping stone for a formal theory of topology-based reconstruction defences. Such a theory would generalise our countermeasure beyond summation, define confidentiality in terms of entropy, and describe the effects of differential privacy.
翻訳日:2024-03-01 18:00:36 公開日:2024-02-29
# 階層グラフによる分子運動の解明

Unveiling Molecular Moieties through Hierarchical Graph Explainability ( http://arxiv.org/abs/2402.01744v2 )

ライセンス: Link先を確認
Paolo Sortino, Salvatore Contino, Ugo Perricone and Roberto Pirrone(参考訳) 背景: シリコン仮想スクリーニングをサポートする強力なツールとして、グラフニューラルネットワーク(GNN)が最近登場した。 本稿では,グラフ畳み込みアーキテクチャを用いて,高精度なマルチターゲットスクリーニングを実現するGNNを提案する。 また, メッセージパッシング機構を利用して, 原子, 環, 分子レベルでの情報を直接取得する階層的説明可能な人工知能(XAI)技術も考案した。 このようにして、生物活性予測に最も関係のあるモイエティが見つかる。 結果: VS をサポートするため,20 個のサイクリン依存型 Kinase ターゲット上の最新の GNN 分類器を報告した。 さらに、GNNのCDK1のみの高感度バージョンは、マルチクラスのモデル固有のバイアスを避けるために、私たちの説明器を使用するように設計されている。 この階層的説明は、専門家の化学者によって、cdk1上の19の承認薬について検証された。 説明者は19種類のテスト薬物のうち17種類のドッキング分析に基づいて情報を提供した。 結論:我々のアプローチはスクリーニングとヒット・ツー・リードフェーズの両方を短縮するための有効なサポートです。 阻害作用に関与する分子サブ構造に関する詳細な知識は、計算化学者が分子の薬理機能に関する洞察を得るのに役立つ。

Background: Graph Neural Networks (GNN) have emerged in very recent years as a powerful tool for supporting in silico Virtual Screening. In this work we present a GNN which uses Graph Convolutional architectures to achieve very accurate multi-target screening. We also devised a hierarchical Explainable Artificial Intelligence (XAI) technique to catch information directly at atom, ring, and whole molecule level by leveraging the message passing mechanism. In this way, we find the most relevant moieties involved in bioactivity prediction. Results: We report a state-of-the-art GNN classifier on twenty Cyclin-dependent Kinase targets in support of VS. Our classifier outperforms previous SOTA approaches proposed by the authors. Moreover, a CDK1-only high-sensitivity version of the GNN has been designed to use our explainer in order to avoid the inherent bias of multi-class models. The hierarchical explainer has been validated by an expert chemist on 19 approved drugs on CDK1. Our explainer provided information in accordance to the docking analysis for 17 out of the 19 test drugs. Conclusion: Our approach is a valid support for shortening both the screening and the hit-to-lead phase. Detailed knowledge about the molecular substructures that play a role in the inhibitory action, can help the computational chemist to gain insights into the pharmacophoric function of the molecule also for repurposing purposes.
翻訳日:2024-03-01 17:55:03 公開日:2024-02-29
# 連続時間PMDPの近似制御

Approximate Control for Continuous-Time POMDPs ( http://arxiv.org/abs/2402.01431v2 )

ライセンス: Link先を確認
Yannick Eich, Bastian Alt, Heinz Koeppl(参考訳) 本研究では、離散状態とアクション空間を持つ連続的に部分的に観測可能なシステムの意思決定フレームワークを提案する。 大きな状態空間では最適な意思決定が難解になるにつれて、フィルタリングの近似法と、状態数の増加とともにスケールする制御問題を採用する。 具体的には, 分布のパラメトリックファミリーに投影して高次元フィルタリング分布を近似し, 完全に観測可能なシステムに基づく制御ヒューリスティックに統合し, スケーラブルなポリシを得る。 本稿では,キューシステムや化学反応ネットワークなど,いくつかの部分的に観測されたシステムに対するアプローチの有効性を示す。

This work proposes a decision-making framework for partially observable systems in continuous time with discrete state and action spaces. As optimal decision-making becomes intractable for large state spaces we employ approximation methods for the filtering and the control problem that scale well with an increasing number of states. Specifically, we approximate the high-dimensional filtering distribution by projecting it onto a parametric family of distributions, and integrate it into a control heuristic based on the fully observable system to obtain a scalable policy. We demonstrate the effectiveness of our approach on several partially observed systems, including queueing systems and chemical reaction networks.
翻訳日:2024-03-01 17:54:36 公開日:2024-02-29
# LIR:画像復元のための軽量ベースライン

LIR: A Lightweight Baseline for Image Restoration ( http://arxiv.org/abs/2402.01368v2 )

ライセンス: Link先を確認
Dongqi Fan, Ting Yue, Xin Zhao, Liang Chang(参考訳) 近年,CNNとトランスフォーマーをベースとした画像復元が大幅に進歩している。 しかし、画像復元作業の本質的な特徴は見過ごされることが多い。 代わりに、多くの作業は基本ブロック設計のみに焦点を当て、そのようなブロックをモデルに積み重ねることで、パラメータの冗長性と計算が不要になる。 これにより、画像復元の効率化が阻害される。 本稿では,LIRと呼ばれる軽量画像復元用ベースラインを提案し,画像の効率よく再構築し,劣化(青,雨,騒音,迷路)を除去する。 まず第一に、lirは単純な構造設計を通じて、現代のネットワークによって無視されるローカルおよびグローバルの残差接続に存在する劣化に対処する。 次に、軽量化のために、主に提案された適応フィルタと注意ブロックからなる画像復元の特性に応じて軽量適応注意ブロック(LAA)を導入する。 LAAは、輪郭を適応的に研ぎ、劣化を除去し、様々な画像復元シーンのグローバル情報を計算しやすい方法でキャプチャすることができる。 我々のLIRは,特定のタスクにおけるパラメータや計算量が少なく,最先端モデルに匹敵する性能を実現している。 さらに、我々のLIRは、人間の美学に則った最先端のネットワークよりも、より良い視覚結果を生み出すことに注意する必要がある。

Recently, there have been significant advancements in Image Restoration based on CNN and transformer. However, the inherent characteristics of the Image Restoration task are often overlooked. Many works, instead, only focus on the basic block design and stack numerous such blocks to the model, leading to parameters redundant and computations unnecessary. Thus, the efficiency of the image restoration is hindered. In this paper, we propose a Lightweight Baseline for Image Restoration called LIR to efficiently reconstruct the image and remove degradations (blur, rain, noise, haze). First of all, LIR addresses the degradations existing in the local and global residual connections that are ignored by modern networks, through a simple structural design. Then, to achieve lightweight, a Lightweight Adaptive Attention (LAA) Block is introduced depending on the inherent characteristics of the Image Restoration, which is mainly composed of proposed Adaptive Filters and Attention Blocks. LAA is capable of adaptively sharpening contours, removing degradation, and capturing global information in various Image Restoration scenes in a computation-friendly manner. Extensive experiments demonstrate that our LIR achieves comparable performance to state-of-the-art models with fewer parameters and computations in certain tasks. In addition, it is worth noting that our LIR produces better visual results than state-of-the-art networks that are more in line with the human aesthetic.
翻訳日:2024-03-01 17:54:27 公開日:2024-02-29
# Vaccine: 大規模言語モデルのための摂動認識アライメント

Vaccine: Perturbation-aware Alignment for Large Language Model ( http://arxiv.org/abs/2402.01109v3 )

ライセンス: Link先を確認
Tiansheng Huang, Sihao Hu, Ling Liu(参考訳) ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントブロッキングモデルを生成することができる。 我々は経験的解析を行い,アライメント・ブロッケン効果の帰結を示唆する現象である \textit{harmful embedded drift} を解明する。 本稿では,ユーザのセキュリティリスクを軽減するために,摂動認識アライメント技術であるVaccineを提案する。 Vaccineの中核となる考え方は、アライメントフェーズにおいて、職人的な摂動を徐々に加えることで、不変な隠れ埋め込みを作り出すことである。 これにより、埋め込みは、微調整フェーズにおける不衛生なユーザデータからの有害な摂動に耐えることができる。 オープンソース主流のllm(例えばllama2, opt, vicuna)における結果から,ワクチンは有害なプロンプトによる埋没ドリフトに対するアライメントの頑健性を高めつつ,良性プロンプトに対する推論能力を維持することができることが示されている。 私たちのコードは \url{https://github.com/git-disl/Vaccine} で利用可能です。

The new paradigm of finetuning-as-a-service introduces a new attack surface for Large Language Models (LLMs): a few harmful data uploaded by users can easily trick the finetuning to produce an alignment-broken model. We conduct an empirical analysis and uncover a \textit{harmful embedding drift} phenomenon, showing a probable cause of the alignment-broken effect. Inspired by our findings, we propose Vaccine, a perturbation-aware alignment technique to mitigate the security risk of users finetuning. The core idea of Vaccine is to produce invariant hidden embeddings by progressively adding crafted perturbation to them in the alignment phase. This enables the embeddings to withstand harmful perturbation from un-sanitized user data in the finetuning phase. Our results on open source mainstream LLMs (e.g., Llama2, Opt, Vicuna) demonstrate that Vaccine can boost the robustness of alignment against harmful prompts induced embedding drift while reserving reasoning ability towards benign prompts. Our code is available at \url{https://github.com/git-disl/Vaccine}.
翻訳日:2024-03-01 17:54:06 公開日:2024-02-29
# 3次元ガウス散乱の誤差解析と最適射影戦略について

On the Error Analysis of 3D Gaussian Splatting and an Optimal Projection Strategy ( http://arxiv.org/abs/2402.00752v3 )

ライセンス: Link先を確認
Letian Huang, Jiayang Bai, Jie Guo, Yuanqi Li, Yanwen Guo(参考訳) 3D Gaussian Splattingは、リアルタイムなニューラルレンダリングに広く注目され、応用されている。 同時に、ポイントクラウドストレージ、パフォーマンス、スパース視点での堅牢性といった面で、この技術の限界に関する懸念が提起され、様々な改善につながった。 しかし、局所的なアフィン近似によって生じる投影誤差の根本的な問題や、これらの誤差がフォトリアリスティックレンダリングの品質に与える影響には注目すべき注意が払われていない。 本稿では,プロジェクション関数の1次テイラー展開による残差誤差を考慮し,3次元ガウス散乱の射影誤差関数に対処する。 この解析は、誤差とガウス平均位置の相関性を確立する。 その後,関数最適化理論を利用して関数のミニマを解析し,様々なカメラモデルに対応可能な最適ガウススメッティング(Optimal Gaussian Splatting)と呼ばれるガウススメッティングの最適プロジェクション戦略を提供する。 実験的検証により、この投影法はアーティファクトを減少させ、より説得力に富んだレンダリングを実現する。

3D Gaussian Splatting has garnered extensive attention and application in real-time neural rendering. Concurrently, concerns have been raised about the limitations of this technology in aspects such as point cloud storage, performance, and robustness in sparse viewpoints, leading to various improvements. However, there has been a notable lack of attention to the fundamental problem of projection errors introduced by the local affine approximation inherent in the splatting itself, and the consequential impact of these errors on the quality of photo-realistic rendering. This paper addresses the projection error function of 3D Gaussian Splatting, commencing with the residual error from the first-order Taylor expansion of the projection function. The analysis establishes a correlation between the error and the Gaussian mean position. Subsequently, leveraging function optimization theory, this paper analyzes the function's minima to provide an optimal projection strategy for Gaussian Splatting referred to Optimal Gaussian Splatting, which can accommodate a variety of camera models. Experimental validation further confirms that this projection methodology reduces artifacts, resulting in a more convincingly realistic rendering.
翻訳日:2024-03-01 17:53:43 公開日:2024-02-29
# 自律走行のためのリアルタイム交通物体検出

Real-time Traffic Object Detection for Autonomous Driving ( http://arxiv.org/abs/2402.00128v2 )

ライセンス: Link先を確認
Abdul Hannan Khan, Syed Tahseen Raza Rizvi, Andreas Dengel(参考訳) 最近のコンピュータビジョンの進歩により、自動運転は後年よりも早く現代社会の一部になるようだ。 しかし、対応すべき懸念点がまだ多数残っている。 現代のコンピュータビジョン技術は優れた性能を示すが、リアルタイムアプリケーションにおいて重要な側面である効率よりも精度を優先する傾向がある。 大規模物体検出モデルは、通常より高度なオンボードハードウェアを使用することで達成される高い計算能力を必要とする。 自動運転では、これらの要件は燃料コストの増大と最終的に走行距離の減少につながる。 さらに、計算の要求にもかかわらず、既存の物体検出器はリアルタイムにはほど遠い。 本研究では,これまで提案してきた,高度に効率的な歩行者検知LSFMの,多様な気象条件や夜間シーンを含む,確立された自律走行ベンチマークにおける堅牢性を評価する。 さらに,交通現場における物体のリアルタイム検出を実現するため,LSFMモデルを拡張した。 トラフィックオブジェクト検出データセットの性能,低レイテンシ,一般化性を評価する。 さらに,物体検出システムで採用されている現状のキー性能指標の不足を自律運転の文脈で検討し,リアルタイム要求を組み込んだより適切な代替案を提案する。

With recent advances in computer vision, it appears that autonomous driving will be part of modern society sooner rather than later. However, there are still a significant number of concerns to address. Although modern computer vision techniques demonstrate superior performance, they tend to prioritize accuracy over efficiency, which is a crucial aspect of real-time applications. Large object detection models typically require higher computational power, which is achieved by using more sophisticated onboard hardware. For autonomous driving, these requirements translate to increased fuel costs and, ultimately, a reduction in mileage. Further, despite their computational demands, the existing object detectors are far from being real-time. In this research, we assess the robustness of our previously proposed, highly efficient pedestrian detector LSFM on well-established autonomous driving benchmarks, including diverse weather conditions and nighttime scenes. Moreover, we extend our LSFM model for general object detection to achieve real-time object detection in traffic scenes. We evaluate its performance, low latency, and generalizability on traffic object detection datasets. Furthermore, we discuss the inadequacy of the current key performance indicator employed by object detection systems in the context of autonomous driving and propose a more suitable alternative that incorporates real-time requirements.
翻訳日:2024-03-01 17:53:21 公開日:2024-02-29
# 脆弱性検出のための大規模言語モデルの微調整

Finetuning Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.17010v3 )

ライセンス: Link先を確認
Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Anton Cheshkov(参考訳) 本稿では,ソースコードの脆弱性を検出するために,大規模言語モデル(LLM)の微調整を行った結果について述べる。 我々は、最新のLLM StarCoderの改良であるWizardCoderを活用し、さらなる微調整により脆弱性検出に適応する。 トレーニングを加速するために、WizardCoderのトレーニング手順を変更し、最適なトレーニング体制を調査する。 負の例が多い不均衡データセットに対しては、分類性能を改善するためのさまざまなテクニックも検討する。 この微調整ウィザードコーダモデルは、ソースコードの脆弱性検出に事前訓練されたllmを適用する効果を実証し、codebertライクなモデルに対するバランスと不均衡の脆弱性データセットに関するroc aucとf1の指標の改善を達成している。 主なコントリビューションは、最先端のコードLLMであるWizardCoderの微調整、パフォーマンスを損なわないトレーニング速度の向上、トレーニング手順とレシフィケーションの最適化、クラス不均衡の処理、困難な脆弱性検出データセットのパフォーマンス向上である。 これは、特定のソースコード解析タスクのために、大規模な事前訓練された言語モデルを微調整することで、転送学習の可能性を示す。

This paper presents the results of finetuning large language models (LLMs) for the task of detecting vulnerabilities in source code. We leverage WizardCoder, a recent improvement of the state-of-the-art LLM StarCoder, and adapt it for vulnerability detection through further finetuning. To accelerate training, we modify WizardCoder's training procedure, also we investigate optimal training regimes. For the imbalanced dataset with many more negative examples than positive, we also explore different techniques to improve classification performance. The finetuned WizardCoder model achieves improvement in ROC AUC and F1 measures on balanced and imbalanced vulnerability datasets over CodeBERT-like model, demonstrating the effectiveness of adapting pretrained LLMs for vulnerability detection in source code. The key contributions are finetuning the state-of-the-art code LLM, WizardCoder, increasing its training speed without the performance harm, optimizing the training procedure and regimes, handling class imbalance, and improving performance on difficult vulnerability detection datasets. This demonstrates the potential for transfer learning by finetuning large pretrained language models for specialized source code analysis tasks.
翻訳日:2024-03-01 17:53:03 公開日:2024-02-29
# BPDec:BERT事前学習におけるマスク言語モデリングデコーダの可能性を明らかにする

BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining ( http://arxiv.org/abs/2401.15861v2 )

ライセンス: Link先を確認
Wen Liang, Youzhi Liang(参考訳) BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理の分野に革命をもたらした。 しかし、研究者の大半は、相対的な位置埋め込みやより効率的な注意機構など、モデル構造に関連する拡張に集中してきた。 Masked Language Modelingに関連する事前トレーニングのトリックには、全体的な単語マスキングも含まれる。 DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。 マスク付き言語モデリングデコーダの設計と研究は過小評価されていると論じている。 本稿では,拡張デコーダの設計をいくつか提案し,新しいモデリング手法であるbpdec(bert pretraining decoder)を提案する。 通常、事前訓練されたBERTモデルは、特定の自然言語理解(NLU)タスクのために微調整される。 提案手法では,元のBERTモデルをエンコーダとして使用し,エンコーダを変更することなくデコーダを変更する。 このアプローチは、モデルのアーキテクチャに大きな変更を必要とせず、既存の微調整パイプラインやサービスとシームレスに統合することができ、効率的かつ効果的な拡張戦略を提供する。 他の方法と比較して、プレトレーニングプロセス中にデコーダの適度なトレーニングコストが発生するのに対し、本手法は微調整フェーズ中に追加のトレーニングコストを導入しない。 プレトレーニング後,複数の拡張デコーダ構造をテストし,その性能をGLUEベンチマークで評価した。 その結果,事前学習中のモデル構造に微調整を加えるだけで,推定時間や予算を増大させることなく,モデル性能が著しく向上することが示された。

BERT (Bidirectional Encoder Representations from Transformers) has revolutionized the field of natural language processing through its exceptional performance on numerous tasks. Yet, the majority of researchers have mainly concentrated on enhancements related to the model structure, such as relative position embedding and more efficient attention mechanisms. Others have delved into pretraining tricks associated with Masked Language Modeling, including whole word masking. DeBERTa introduced an enhanced decoder adapted for BERT's encoder model for pretraining, proving to be highly effective. We argue that the design and research around enhanced masked language modeling decoders have been underappreciated. In this paper, we propose several designs of enhanced decoders and introduce BPDec (BERT Pretraining Decoder), a novel method for modeling training. Typically, a pretrained BERT model is fine-tuned for specific Natural Language Understanding (NLU) tasks. In our approach, we utilize the original BERT model as the encoder, making only changes to the decoder without altering the encoder. This approach does not necessitate extensive modifications to the model's architecture and can be seamlessly integrated into existing fine-tuning pipelines and services, offering an efficient and effective enhancement strategy. Compared to other methods, while we also incur a moderate training cost for the decoder during the pretraining process, our approach does not introduce additional training costs during the fine-tuning phase. We test multiple enhanced decoder structures after pretraining and evaluate their performance on the GLUE benchmark. Our results demonstrate that BPDec, having only undergone subtle refinements to the model structure during pretraining, significantly enhances model performance without escalating the inference time and serving budget.
翻訳日:2024-03-01 17:52:41 公開日:2024-02-29
# sernet-former:アテンションブースティングゲートとアテンションフュージョンネットワークを用いた効率的な残差ネットワークによる意味セグメンテーション

SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks ( http://arxiv.org/abs/2401.15741v3 )

ライセンス: Link先を確認
Serdar Erisen(参考訳) セマンティクスセグメンテーションにおける最先端手法の効率を向上させるには、増大する計算コストと、グローバルおよびローカルコンテキストからのセマンティクス情報を融合するといった課題を克服する必要がある。 セマンティックセグメンテーションにおいて畳み込みニューラルネットワーク(CNN)が遭遇する最近の成功と問題に基づいて,一意に効率的な残余ネットワークであるEfficient-ResNetを用いたエンコーダデコーダアーキテクチャを提案する。 エンコーダ内の効率的な残留ネットワークのグローバルコンテキストの出力の等価サイズで同変および特徴に基づく意味情報を融合することを目的として、アテンションブースティングゲート(AbG)とアテンションブースティングモジュール(AbM)を配置する。 このデコーダネットワークは、AbMにインスパイアされた追加の注意融合ネットワーク(AfN)で開発されている。 AfNは、デコーダ部に追加の畳み込み層を配置することにより、意味情報の1対1変換の効率を向上させるように設計されている。 我々のネットワークは、挑戦的なCamVidとCityscapesのデータセットでテストされており、提案手法は残余ネットワークに大きな改善を示す。 我々の知る限り、開発ネットワークであるSERNet-FormerはCamVidデータセット上で最先端の結果(84.62 %はIoU)を達成し、Cityscapesバリデーションデータセットでは挑戦的な結果(87.35 %はIoU)を達成している。

Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network, Efficient-ResNet. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the equivariant and feature-based semantic information with the equivalent sizes of the output of global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the residual networks. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset.
翻訳日:2024-03-01 17:52:14 公開日:2024-02-29
# 医用画像深部能動学習のための獲得機能の検討

A Study of Acquisition Functions for Medical Imaging Deep Active Learning ( http://arxiv.org/abs/2401.15721v2 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou(参考訳) ディープラーニング革命は近年、画期的な成果をもたらしている。 乳がんの検出からタンパク質の折り畳みまで、ディープラーニングアルゴリズムは非常に重要な進歩の核心にある。 しかし、これらの近代的な進歩は、特に可用性が低いラベル付きデータにおいて、ますますデータ不足になりつつある。 本研究では,ラベル付きデータ(あるいは注釈予算が非常に限られている)の不足状況において,アクティブラーニングが極めて効果的であることを示す。 我々はISIC 2016データセットにおけるいくつかの選択基準(BALD, MeanSTD, MaxEntropy)を比較した。 また,プールサイズがモデルの性能に及ぼす影響についても検討した。 以上の結果から, メラノーマ検出タスクには不確実性が有用であり, 論文の著者の仮説である \textit{bald} が他の獲得関数よりも平均的に優れていることを裏付ける。 しかし,分析により,すべての獲得関数が正の(良質な)サンプルではうまく動作しないことが明らかとなり,実世界において重要なクラスアンバランスの活用が示唆された。 我々は、この現在の仕事を改善するのに役立つ将来の仕事の方向性を提案して締めくくります。 私たちの実装のコードは、 \url{https://github.com/bonaventuredossou/ece526_course_project}でオープンソースです。

The Deep Learning revolution has enabled groundbreaking achievements in recent years. From breast cancer detection to protein folding, deep learning algorithms have been at the core of very important advancements. However, these modern advancements are becoming more and more data-hungry, especially on labeled data whose availability is scarce: this is even more prevalent in the medical context. In this work, we show how active learning could be very effective in data scarcity situations, where obtaining labeled data (or annotation budget is very limited). We compare several selection criteria (BALD, MeanSTD, and MaxEntropy) on the ISIC 2016 dataset. We also explored the effect of acquired pool size on the model's performance. Our results suggest that uncertainty is useful to the Melanoma detection task, and confirms the hypotheses of the author of the paper of interest, that \textit{bald} performs on average better than other acquisition functions. Our extended analyses however revealed that all acquisition functions perform badly on the positive (cancerous) samples, suggesting exploitation of class unbalance, which could be crucial in real-world settings. We finish by suggesting future work directions that would be useful to improve this current work. The code of our implementation is open-sourced at \url{https://github.com/bonaventuredossou/ece526_course_project}
翻訳日:2024-03-01 17:51:46 公開日:2024-02-29
# 単層および複層2次元音響触覚皮膚(AST2)

Single and bi-layered 2-D acoustic soft tactile skin (AST2) ( http://arxiv.org/abs/2401.14292v2 )

ライセンス: Link先を確認
Vishnu Rajendran, Simon Parsons and Amir Ghalamzan E(参考訳) 本稿では,2次元触覚特性推定の精度向上を主目的とし,アコースティックソフト触覚(ast)皮膚の革新的かつ費用対効果の高い設計を提案する。 既存の課題は、コスト効率の良い解を用いて、特に接触形状特性に関する正確な触覚特徴の推定を達成することである。 知覚面下の2層に専用音響チャネルを介して音響エネルギーを活用し、振幅変調を解析することにより、感覚面上の相互作用を効果的にデコードし、触覚特徴推定を改善することができると仮定する。 私たちのアプローチでは、音響信号を発信し受信するハードウェアコンポーネントを分離し、モジュラーでカスタマイズ可能なスキンデザインを実現します。 この新規設計の有効性を実証し, 接触正規力(MAE < 0.8 N), 2次元接触局所化(MAE < 0.7 mm), 接触表面径(MAE < 0.3 mm)を推定した。 結論として、ASTスキンは革新的な設計とモジュラーアーキテクチャを持ち、触覚的特徴推定の課題に対処することに成功した。 その結果,様々な触覚特性を正確に推定する能力を示し,ロボットアプリケーションの実用的で費用対効果の高いソリューションとなった。

This paper aims to present an innovative and cost-effective design for Acoustic Soft Tactile (AST) Skin, with the primary goal of significantly enhancing the accuracy of 2-D tactile feature estimation. The existing challenge lies in achieving precise tactile feature estimation, especially concerning contact geometry characteristics, using cost-effective solutions. We hypothesise that by harnessing acoustic energy through dedicated acoustic channels in 2 layers beneath the sensing surface and analysing amplitude modulation, we can effectively decode interactions on the sensory surface, thereby improving tactile feature estimation. Our approach involves the distinct separation of hardware components responsible for emitting and receiving acoustic signals, resulting in a modular and highly customizable skin design. Practical tests demonstrate the effectiveness of this novel design, achieving remarkable precision in estimating contact normal forces (MAE < 0.8 N), 2D contact localisation (MAE < 0.7 mm), and contact surface diameter (MAE < 0.3 mm). In conclusion, the AST skin, with its innovative design and modular architecture, successfully addresses the challenge of tactile feature estimation. The presented results showcase its ability to precisely estimate various tactile features, making it a practical and cost-effective solution for robotic applications.
翻訳日:2024-03-01 17:51:26 公開日:2024-02-29
# WebVoyager: 大規模マルチモーダルモデルによるエンドツーエンドWebエージェントの構築

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models ( http://arxiv.org/abs/2401.13919v3 )

ライセンス: Link先を確認
Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu(参考訳) 大規模言語モデル(llm)の急速な進歩は、現実世界のシナリオにおける自律的アプリケーションの開発によって特徴づけられる新しい時代へと導かれ、先進的なwebエージェントの作成におけるイノベーションを駆動している。 既存のWebエージェントは通常、1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。 このギャップを埋めるために、WebVoyagerを紹介します。これは、LMM(Large Multimodal Model)を利用したWebエージェントで、現実世界のWebサイトと対話することで、エンド・ツー・エンドの指示を完了します。 さらに,15のWebサイトから実世界のタスクをコンパイルし,GPT-4Vのマルチモーダル理解機能を活用した自動評価プロトコルを導入し,オープンエンドWebエージェントの評価を行う。 webvoyagerは、ベンチマークで59.1%のタスク成功率を達成し、gpt-4(すべてのツール)とwebvoyager(テキストのみ)の2つの設定のパフォーマンスを大幅に上回り、webvoyagerの例外的な能力を強調しています。 提案した自動評価基準は,人的判断と85.3%の一致を達成し,Webエージェントの信頼性と正確性を示す。

The rapid advancement of large language models (LLMs) has led to a new era marked by the development of autonomous applications in real-world scenarios, which drives innovation in creating advanced web agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we establish a new benchmark by compiling real-world tasks from 15 popular websites and introduce an automatic evaluation protocol leveraging multimodal understanding abilities of GPT-4V to evaluate open-ended web agents. We show that WebVoyager achieves a 59.1% task success rate on our benchmark, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager. The proposed automatic evaluation metric achieves 85.3% agreement with human judgment, indicating its effectiveness in providing reliable and accurate assessments of web agents.
翻訳日:2024-03-01 17:51:02 公開日:2024-02-29
# admap:オンラインベクトル化hdマップを再構築する反disturbanceフレームワーク

ADMap: Anti-disturbance framework for reconstructing online vectorized HD map ( http://arxiv.org/abs/2401.13172v2 )

ライセンス: Link先を確認
Haotian Hu, Fanyi Wang, Yaonong Wang, Laifeng Hu, Jingwei Xu, Zhiwang Zhang(参考訳) 自動運転の分野では、オンラインハイデフィニション(HD)マップの再構築は計画作業に不可欠である。 最近の研究は、このニーズを満たすために、いくつかの高性能HDマップ再構成モデルを開発した。 しかし、インスタンスベクトル内の点列は予測バイアスによってジッタリあるいはジャグリングされ、その後のタスクに影響を及ぼす可能性がある。 そこで本稿では,admap (anti-disturbance map reconstruction framework) を提案する。 点次ジッターを緩和するため、このフレームワークは、マルチスケール知覚ネック、インスタンスインタラクティブアテンション(IIA)、ベクトル方向差損失(VDDL)の3つのモジュールで構成される。 カスケード方式でインスタンス内およびインスタンス内の点次関係を探索することにより、モデルがより効果的に点次予測プロセスを監視することができる。 ADMapはnuScenesとArgoverse2データセットで最先端のパフォーマンスを実現する。 広範な結果は、複雑で変化する駆動シナリオにおいて、安定かつ信頼性の高いマップ要素を生成する能力を示している。 コードとデモはhttps://github.com/hht1996ok/admap.comから入手できる。

In the field of autonomous driving, online high-definition (HD) map reconstruction is crucial for planning tasks. Recent research has developed several high-performance HD map reconstruction models to meet this necessity. However, the point sequences within the instance vectors may be jittery or jagged due to prediction bias, which can impact subsequent tasks. Therefore, this paper proposes the Anti-disturbance Map reconstruction framework (ADMap). To mitigate point-order jitter, the framework consists of three modules: Multi-Scale Perception Neck, Instance Interactive Attention (IIA), and Vector Direction Difference Loss (VDDL). By exploring the point-order relationships between and within instances in a cascading manner, the model can monitor the point-order prediction process more effectively. ADMap achieves state-of-the-art performance on the nuScenes and Argoverse2 datasets. Extensive results demonstrate its ability to produce stable and reliable map elements in complex and changing driving scenarios. Code and more demos are available at https://github.com/hht1996ok/ADMap.
翻訳日:2024-03-01 17:50:38 公開日:2024-02-29
# OK-Robot:ロボットのためのオープン知識モデルを統合する上で本当に重要なこと

OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics ( http://arxiv.org/abs/2401.12202v2 )

ライセンス: Link先を確認
Peiqi Liu, Yaswanth Orru, Jay Vakil, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto(参考訳) 近年、視覚、言語、ロボット工学の分野で顕著な進歩を遂げている。 現在、言語クエリに基づくオブジェクトの認識が可能な視覚モデル、モバイルシステムを効果的に制御できるナビゲーションシステム、広範囲のオブジェクトを扱うことができるモデルを把握しています。 こうした進歩にもかかわらず、ロボット工学の汎用応用は、認識、ナビゲーション、把握といった基本的な能力に依存しているものの、まだ遅れている。 本稿では,OK-Robotと呼ばれる新しいオープン知識ベースのロボット工学フレームワークを開発するためのシステムファーストアプローチを採用する。 オブジェクト検出のためのビジョンランゲージモデル(VLM)、移動のためのナビゲーションプリミティブ、オブジェクト操作のためのプリミティブの把握を組み合わせることで、OK-Robotはトレーニングを必要とせずにピック・アンド・ドロップ操作のための統合ソリューションを提供する。 その性能を評価するために,10の実環境においてOK-Robotを実行する。 OVMM(Open Vocabulary Mobile Manipulation)では,OVMM(Open Vocabulary Mobile Manipulation)が従来よりも1.8倍近い性能で,オープンエンドのピック・アンド・ドロップタスクにおいて58.5%の成功率を達成した。 よりクリーンで散らかっていない環境では、OK-Robotのパフォーマンスは82%に向上する。 しかし、OK-Robotから得られる最も重要な洞察は、VLMのようなオープン知識システムとロボットモジュールを組み合わせる際に、ニュアンスドディテールの重要な役割である。 私たちの実験とコードのビデオは、当社のwebサイト(https://ok-robot.github.io)で閲覧できます。

Remarkable progress has been made in recent years in the fields of vision, language, and robotics. We now have vision models capable of recognizing objects based on language queries, navigation systems that can effectively control mobile systems, and grasping models that can handle a wide range of objects. Despite these advancements, general-purpose applications of robotics still lag behind, even though they rely on these fundamental capabilities of recognition, navigation, and grasping. In this paper, we adopt a systems-first approach to develop a new Open Knowledge-based robotics framework called OK-Robot. By combining Vision-Language Models (VLMs) for object detection, navigation primitives for movement, and grasping primitives for object manipulation, OK-Robot offers a integrated solution for pick-and-drop operations without requiring any training. To evaluate its performance, we run OK-Robot in 10 real-world home environments. The results demonstrate that OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks, representing a new state-of-the-art in Open Vocabulary Mobile Manipulation (OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered environments, OK-Robot's performance increases to 82%. However, the most important insight gained from OK-Robot is the critical role of nuanced details when combining Open Knowledge systems like VLMs with robotic modules. Videos of our experiments and code are available on our website: https://ok-robot.github.io
翻訳日:2024-03-01 17:49:53 公開日:2024-02-29
# 多次元時系列予測のためのランダム投影層

Random Projection Layers for Multidimensional Time Series Forecasting ( http://arxiv.org/abs/2402.10487v2 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yujie Fan, Xin Dai, Vivian Lai, Prince Osei Aboagye, Junpeng Wang, Huiyuan Chen, Yan Zheng, Zhongfang Zhuang, Liang Wang, Wei Zhang(参考訳) All-Multi-Layer Perceptron (All-MLP) ミキサーモデルは時系列予測問題に有効であることが示されている。 しかし、そのようなモデルが高次元時系列(例えば時空間データセットの時系列)に適用された場合、その性能は過度な問題のために低下する可能性が高い。 本稿では、RPMixerと呼ばれる全MLP時系列予測アーキテクチャを提案する。 本手法は深層ニューラルネットワークのアンサンブル的挙動を利用しており,ネットワーク内の各ブロックはアンサンブルモデルにおいてベース学習者のように振る舞う。 ランダムなプロジェクション層をモデルに統合することにより、ブロックの出力の多様性を高め、RPMixerの全体的な性能を向上させる。 大規模時空間予測ベンチマークを用いて行った大規模な実験により,提案手法は空間時空間グラフモデルと一般予測モデルの両方を含む代替手法より優れていることが示された。

All-Multi-Layer Perceptron (all-MLP) mixer models have been shown to be effective for time series forecasting problems. However, when such a model is applied to high-dimensional time series (e.g., the time series in a spatial-temporal dataset), its performance is likely to degrade due to overfitting issues. In this paper, we propose an all-MLP time series forecasting architecture, referred to as RPMixer. Our method leverages the ensemble-like behavior of deep neural networks, where each individual block within the network acts like a base learner in an ensemble model, especially when identity mapping residual connections are incorporated. By integrating random projection layers into our model, we increase the diversity among the blocks' outputs, thereby enhancing the overall performance of RPMixer. Extensive experiments conducted on large-scale spatial-temporal forecasting benchmark datasets demonstrate that our proposed method outperforms alternative methods, including both spatial-temporal graph models and general forecasting models.
翻訳日:2024-03-01 17:45:57 公開日:2024-02-29
# ManiFPT: 生成モデルの指紋の定義と解析

ManiFPT: Defining and Analyzing Fingerprints of Generative Models ( http://arxiv.org/abs/2402.10401v2 )

ライセンス: Link先を確認
Hae Jin Song, Mahyar Khayatkhoei, Wael AbdAlmageed(参考訳) 近年の研究では、生成モデルが生成したサンプルに生成過程の痕跡を残していることが示されており、実画像からの合成画像の検出に有用性が研究されている。 しかし、これらの指紋が様々な種類の合成画像と区別し、基礎となる生成過程を特定するのに役立つ拡張は未検討のままである。 特に、指紋の定義は、私たちの知る限り、まだ不明です。 そこで本研究では,生成モデルにおけるアーティファクトと指紋の定義を定式化し,それを実際に計算するためのアルゴリズムを提案し,最終的に,多数の異なる生成モデルの識別におけるその効果について検討する。 提案手法を用いることで,既存の手法と比較して,サンプル(モデル属性)から生成過程を識別するタスクの性能が大幅に向上することがわかった。 さらに, 指紋の構造について検討し, 異なる設計選択が生成過程に与える影響を非常に予測していることを確認した。

Recent works have shown that generative models leave traces of their underlying generative process on the generated samples, broadly referred to as fingerprints of a generative model, and have studied their utility in detecting synthetic images from real ones. However, the extend to which these fingerprints can distinguish between various types of synthetic image and help identify the underlying generative process remain under-explored. In particular, the very definition of a fingerprint remains unclear, to our knowledge. To that end, in this work, we formalize the definition of artifact and fingerprint in generative models, propose an algorithm for computing them in practice, and finally study its effectiveness in distinguishing a large array of different generative models. We find that using our proposed definition can significantly improve the performance on the task of identifying the underlying generative process from samples (model attribution) compared to existing methods. Additionally, we study the structure of the fingerprints, and observe that it is very predictive of the effect of different design choices on the generative process.
翻訳日:2024-03-01 17:45:40 公開日:2024-02-29
# 名詞句における頭部の最適配置 形容詞, 数字, 形容詞, 名詞の1例

The optimal placement of the head in the noun phrase. The case of demonstrative, numeral, adjective and noun ( http://arxiv.org/abs/2402.10311v3 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho(参考訳) 文の語順は複数の原則で表される。 統語的依存関係距離最小化の原理は、単一頭部の統語的依存関係構造における超準最小化(または予測可能性の最大化)の原理と矛盾する: 前者は頭部を線形配置の中心に置くべきであると予測するが、後者は頭部を一方の端に置くべきであると予測する(第一または最後)。 重要な問題は、超準最小化(あるいは予測可能性の最大化)が構文依存距離最小化を超越すべきかどうかである。 単一頭部構造の文脈では、2つの条件が満たされた時に起こる可能性が高いと予測されている。 (a)少ない単語が絡み合っていること、 (b)単語は短い。 ここでは, 名詞句の予測を, 指示語, 数字, 形容詞, 名詞からなる場合に検証する。 言語において好まれる順序によって、名詞は終わりの1つに置かれる傾向にあり、理論的な予測が裏付けられる。 選択順序の構文依存性距離は、偶然に予想されるよりも長い。

The word order of a sentence is shaped by multiple principles. The principle of syntactic dependency distance minimization is in conflict with the principle of surprisal minimization (or predictability maximization) in single head syntactic dependency structures: while the former predicts that the head should be placed at the center of the linear arrangement, the latter predicts that the head should be placed at one of the ends (either first or last). A critical question is when surprisal minimization (or predictability maximization) should surpass syntactic dependency distance minimization. In the context of single head structures, it has been predicted that this is more likely to happen when two conditions are met, i.e. (a) fewer words are involved and (b) words are shorter. Here we test the prediction on the noun phrase when it is composed of a demonstrative, a numeral, an adjective and a noun. We find that, across preferred orders in languages, the noun tends to be placed at one of the ends, confirming the theoretical prediction. We also show evidence of anti locality effects: syntactic dependency distances in preferred orders are longer than expected by chance.
翻訳日:2024-03-01 17:45:22 公開日:2024-02-29
# 多体物理誘導誘導バイアスによる多重励起射影シミュレーション

Multi-Excitation Projective Simulation with a Many-Body Physics Inspired Inductive Bias ( http://arxiv.org/abs/2402.10192v2 )

ライセンス: Link先を確認
Philip A. LeMaitre, Marius Krumm, and Hans J. Briegel(参考訳) ディープラーニングの驚くべき進歩により、機械学習に依存するアプリケーションは、日々の生活にますます統合されている。 しかし、ほとんどのディープラーニングモデルは不透明でオラクルのような性質を持ち、その決定を解釈し理解することは困難である。 この問題は、eXplainable Artificial Intelligence (XAI)として知られる分野の開発につながった。 射影シミュレーション(ps)として知られるこの分野の1つの方法は、頂点を持つグラフ上の粒子のランダムなウォークとして思考の連鎖をモデル化する。 この記述には量子化の可能性を含む様々な利点があるが、複数の概念を同時に組み合わせた思考をモデル化することは自然にできない。 この制限を克服するために,超グラフ上の複数の粒子のランダムウォークと考える一般化であるmulti-excitation projective simulation (meps)を導入する。 動的ハイパーグラフの定義は、エージェントのトレーニング履歴と、AIやハイパーグラフ視覚化への応用を記述するために提案される。 量子多体物理学で著しく成功した多体相互作用モデルに着想を得た帰納的バイアスは、我々の古典的なmePSフレームワークで形式化され、ハイパーグラフの単純実装に関連する指数関数的複雑性に対処するために使用される。 帰納的バイアスは指数関数から多項式への複雑性を減少させ、指数は素粒子の相互作用のカットオフを表す。 本手法を2つの玩具環境に適用し, 故障したコンピュータの診断をモデル化するより複雑なシナリオを提案する。 これらの環境は、インダクティブバイアスの適切な選択によって提供されるリソースの節約と、解釈可能性の側面を示す。 また,mePSの量子モデルについても概説し,今後の方向性について述べる。

With the impressive progress of deep learning, applications relying on machine learning are increasingly being integrated into daily life. However, most deep learning models have an opaque, oracle-like nature making it difficult to interpret and understand their decisions. This problem led to the development of the field known as eXplainable Artificial Intelligence (XAI). One method in this field known as Projective Simulation (PS) models a chain-of-thought as a random walk of a particle on a graph with vertices that have concepts attached to them. While this description has various benefits, including the possibility of quantization, it cannot be naturally used to model thoughts that combine several concepts simultaneously. To overcome this limitation, we introduce Multi-Excitation Projective Simulation (mePS), a generalization that considers a chain-of-thought to be a random walk of several particles on a hypergraph. A definition for a dynamic hypergraph is put forward to describe the agent's training history along with applications to AI and hypergraph visualization. An inductive bias inspired by the remarkably successful few-body interaction models used in quantum many-body physics is formalized for our classical mePS framework and employed to tackle the exponential complexity associated with naive implementations of hypergraphs. We prove that our inductive bias reduces the complexity from exponential to polynomial, with the exponent representing the cutoff on how many particles can interact. We numerically apply our method to two toy environments and a more complex scenario modelling the diagnosis of a broken computer. These environments demonstrate the resource savings provided by an appropriate choice of inductive bias, as well as showcasing aspects of interpretability. A quantum model for mePS is also briefly outlined and some future directions for it are discussed.
翻訳日:2024-03-01 17:44:58 公開日:2024-02-29
# 数独問題に対するQrispの量子バックトラッキング

Quantum Backtracking in Qrisp Applied to Sudoku Problems ( http://arxiv.org/abs/2402.10060v2 )

ライセンス: Link先を確認
Raphael Seidel, Ren\'e Zander, Matic Petri\v{c}, Niklas Steinmann, David Q. Liu, Nikolay Tcholtchev, Manfred Hauswirth(参考訳) アシュリー・モンタナロによって提案された量子バックトラックアルゴリズムは、古典最適化アルゴリズムの大規模なクラスに対して量子スピードアップを提供するため、かなりの関心を集めている。 Barren-Plateaus に苦しめられず、任意の角度ゲートの限られた数しか必要としないため、フォールトトレラント時代にうまく移行する。 その可能性にもかかわらず、アルゴリズムは、おそらくその抽象的な定式化のために、実装の努力が限られている。 本稿では,任意のバックトラックインスタンスに対する量子ステップ演算子の実装に関する詳細な指導を行う。 深さ n のバイナリバックトラッキングツリーの単一の制御ディフューザに対して、実装には 6n+14$ cx ゲートしか必要としない。 我々は,量子バックトラッキングのためのインタフェースを用いて,崇徳問題に対するacceptとreject oracleの構築過程を詳述する。 提示されたコードは高レベルの量子プログラミング言語であるQrispを使って書かれており、現在のほとんどの物理バックエンドやシミュレータ上で実行可能である。 その後,シミュレータを用いた実験を行い,最大9個の空フィールドを用いた4x4 sudokuインスタンスの解法を示す。 これは、我々の知る限りでは、この一般化をコンパイル可能な実装の最初の例であり、量子ソフトウェア工学において重要かつエキサイティングなステップである。

The quantum backtracking algorithm proposed by Ashley Montanaro raised considerable interest, as it provides a quantum speed-up for a large class of classical optimization algorithms. It does not suffer from Barren-Plateaus and transfers well into the fault-tolerant era, as it requires only a limited number of arbitrary angle gates. Despite its potential, the algorithm has seen limited implementation efforts, presumably due to its abstract formulation. In this work, we provide a detailed instruction on implementing the quantum step operator for arbitrary backtracking instances. For a single controlled diffuser of a binary backtracking tree with depth n, our implementation requires only $6n+14$ CX gates. We detail the process of constructing accept and reject oracles for Sudoku problems using our interface to quantum backtracking. The presented code is written using Qrisp, a high-level quantum programming language, making it executable on most current physical backends and simulators. Subsequently, we perform several simulator based experiments and demonstrate solving 4x4 Sudoku instances with up to 9 empty fields. This is, to the best of our knowledge, the first instance of a compilable implementation of this generality, marking a significant and exciting step forward in quantum software engineering.
翻訳日:2024-03-01 17:44:18 公開日:2024-02-29
# less is more: submodular subset selection による解釈可能な領域の削減

Less is More: Fewer Interpretable Region via Submodular Subset Selection ( http://arxiv.org/abs/2402.09164v2 )

ライセンス: Link先を確認
Ruoyu Chen, Hua Zhang, Siyuan Liang, Jingzhi Li, Xiaochun Cao(参考訳) 画像帰属アルゴリズムは、モデル決定に非常に関連する重要な領域を特定することを目的としている。 既存の属性ソリューションは、ターゲット要素に効果的に重要度を割り当てることができますが、それでも以下の課題に直面します。 1)既存の帰属法は、不正確な小領域を生成し、正しい帰属の方向を誤解させる。 2) モデルでは, 誤った予測を行うサンプルに対して良好な帰属結果が得られない。 上記の課題に対処するため,本論文では,より少ない領域を用いたモデル解釈可能性の向上を目的としたサブモジュール部分集合選択問題として,上記の画像帰属問題をモデル化する。 地域への注意の欠如に対処するために,より正確な小さな解釈領域を発見するための新しいサブモジュラー関数を構築した。 また,すべてのサンプルに対する帰属効果を高めるために,サブリージョンの選択に4つの制約,すなわち信頼性,有効性,一貫性,コラボレーションスコアを課し,各サブセットの重要性を評価する。 さらに,本解析では,提案する関数が実は部分モジュラーであることを示す。 大規模な実験により,提案手法は2つの顔データセット(Celeb-AとVGG-Face2)と1つのきめ細かいデータセット(CUB-200-2011)においてSOTA法より優れていた。 正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。 提案手法は, HSIC-Attributionアルゴリズムの平均信頼度と挿入率に対して, それぞれ81.0%, 18.4%のゲインを達成している。 コードはhttps://github.com/RuoyuChen10/SMDL-Attributionで公開されている。

Image attribution algorithms aim to identify important regions that are highly relevant to model decisions. Although existing attribution solutions can effectively assign importance to target elements, they still face the following challenges: 1) existing attribution methods generate inaccurate small regions thus misleading the direction of correct attribution, and 2) the model cannot produce good attribution results for samples with wrong predictions. To address the above challenges, this paper re-models the above image attribution problem as a submodular subset selection problem, aiming to enhance model interpretability using fewer regions. To address the lack of attention to local regions, we construct a novel submodular function to discover more accurate small interpretation regions. To enhance the attribution effect for all samples, we also impose four different constraints on the selection of sub-regions, i.e., confidence, effectiveness, consistency, and collaboration scores, to assess the importance of various subsets. Moreover, our theoretical analysis substantiates that the proposed function is in fact submodular. Extensive experiments show that the proposed method outperforms SOTA methods on two face datasets (Celeb-A and VGG-Face2) and one fine-grained dataset (CUB-200-2011). For correctly predicted samples, the proposed method improves the Deletion and Insertion scores with an average of 4.9% and 2.5% gain relative to HSIC-Attribution. For incorrectly predicted samples, our method achieves gains of 81.0% and 18.4% compared to the HSIC-Attribution algorithm in the average highest confidence and Insertion score respectively. The code is released at https://github.com/RuoyuChen10/SMDL-Attribution.
翻訳日:2024-03-01 17:43:39 公開日:2024-02-29
# 自動車応用におけるAIベースのソフトウェア要素の進化的横冗長安全性機構

Inherent Diverse Redundant Safety Mechanisms for AI-based Software Elements in Automotive Applications ( http://arxiv.org/abs/2402.08208v2 )

ライセンス: Link先を確認
Mandar Pitale, Alireza Abbaspour, Devesh Upadhyay(参考訳) 本稿では,自律運転システムにおける人工知能(AI)アルゴリズム,特にAIベースのソフトウェア要素の役割と課題について考察する。 これらのaiシステムは、複雑な高次元環境でリアルタイム臨界関数を実行するのに基本である。 それらは、マルチモーダル知覚、認知、運動計画、車線維持、緊急ブレーキなどの意思決定といった重要なタスクを扱う。 主な関心事は、AIモデルの初期のトレーニングデータを超えて一般化する能力(と必要性)に関連している。 この一般化問題は、モデルがトレーニングや検証データで表現されない入力に頻繁に遭遇するリアルタイムシナリオで明らかになる。 そのような場合、aiシステムは、分散またはドメインシフトに直面したにもかかわらず、効果的に機能しなくてはならない。 本稿では、自律運転のような安全クリティカルなアプリケーションにおける過信AIモデルに関連するリスクについて検討する。 これらのリスクを軽減するために,自信過剰なパフォーマンス維持を支援するaiモデルのトレーニング手法を提案する。 これには、確実にレポートアーキテクチャを実装し、多様なトレーニングデータを確保することが含まれる。 aiモデルの安全メカニズムを提供するために、様々な分散ベースの方法が存在するが、特に安全クリティカルな自動車応用の文脈において、これらの方法の体系的な評価が特に欠如している。 文献における多くの手法は、安全クリティカルエッジアプリケーションに必要な迅速な応答時間にうまく適応しない。 本稿では,これらの手法を概観し,安全性に問題のあるアプリケーションに対する適合性を考察し,その強みと限界を強調した。 また、迅速かつ正確な意思決定プロセスにおいて、自動運転車におけるAIアルゴリズムの安全性と信頼性を高めるための潜在的な改善を提案する。

This paper explores the role and challenges of Artificial Intelligence (AI) algorithms, specifically AI-based software elements, in autonomous driving systems. These AI systems are fundamental in executing real-time critical functions in complex and high-dimensional environments. They handle vital tasks like multi-modal perception, cognition, and decision-making tasks such as motion planning, lane keeping, and emergency braking. A primary concern relates to the ability (and necessity) of AI models to generalize beyond their initial training data. This generalization issue becomes evident in real-time scenarios, where models frequently encounter inputs not represented in their training or validation data. In such cases, AI systems must still function effectively despite facing distributional or domain shifts. This paper investigates the risk associated with overconfident AI models in safety-critical applications like autonomous driving. To mitigate these risks, methods for training AI models that help maintain performance without overconfidence are proposed. This involves implementing certainty reporting architectures and ensuring diverse training data. While various distribution-based methods exist to provide safety mechanisms for AI models, there is a noted lack of systematic assessment of these methods, especially in the context of safety-critical automotive applications. Many methods in the literature do not adapt well to the quick response times required in safety-critical edge applications. This paper reviews these methods, discusses their suitability for safety-critical applications, and highlights their strengths and limitations. The paper also proposes potential improvements to enhance the safety and reliability of AI algorithms in autonomous vehicles in the context of rapid and accurate decision-making processes.
翻訳日:2024-03-01 17:43:13 公開日:2024-02-29
# 衝突機における量子絡み合いとベル不等式違反

Quantum entanglement and Bell inequality violation at colliders ( http://arxiv.org/abs/2402.07972v2 )

ライセンス: Link先を確認
Alan J. Barr, Marco Fabbrichesi, Roberto Floreanini, Emidio Gabrielli, Luca Marzola(参考訳) 粒子物理学における絡み合いの研究は、ここ数年で加速している。 これは、トップクォークや$\tau$-lepton対、巨大なゲージボソン、ベクター中間子のような様々な状態の衝突器において、絡み合いやベルの不等式を検出する可能性に関する重要な結果を提供する新しい分野である。 このレビューでは、これらの開発を理解するのに必要な定義、ツール、基本的な結果を提示した後、2023年末までに公表された主な発見を要約します。 これらの調査は、大型ハドロン衝突型加速器におけるトップクォーク対生成における絡み合いの観測を除いて、実験が追いつきつつあるため、主に理論的に行われている。 我々は、qubitおよびqutritsシステム、すなわちスピンの半減期とスピンの粒子を含む最終状態の両方の結果に関する詳細な議論を含む。 エンタングルメントは、標準モデル以外の新しい粒子や場を制約する新しいツールとして提案されており、この有望な機能についても読者を紹介する。

The study of entanglement in particle physics has been gathering pace in the past few years. It is a new field that is providing important results about the possibility of detecting entanglement and testing Bell inequality at colliders for final states as diverse as top-quark or $\tau$-lepton pairs, massive gauge bosons and vector mesons. In this review, after presenting definitions, tools and basic results that are necessary for understanding these developments, we summarize the main findings -- as published up to the end of year 2023. These investigations have been mostly theoretical since the experiments are only now catching up, with the notable exception of the observation of entanglement in top-quark pair production at the Large Hadron Collider. We include a detailed discussion of the results for both qubit and qutrits systems, that is, final states containing spin one-half and spin one particles. Entanglement has also been proposed as a new tool to constrain new particles and fields beyond the Standard Model and we introduce the reader to this promising feature as well.
翻訳日:2024-03-01 17:42:50 公開日:2024-02-29
# 対話型ソーシャルシーンシミュレーションによる大規模言語モデルの自己アライメント

Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation ( http://arxiv.org/abs/2402.05699v2 )

ライセンス: Link先を確認
Xianghe Pang, Shuo Tang, Rui Ye, Yuxin Xiong, Bolun Zhang, Yanfeng Wang, Siheng Chen(参考訳) 人的価値を持つ大きな言語モデル(LLM)の調整は、その誤用による潜在的な副作用を軽減するために不可欠である。 本論文は,すべての当事者の関心を社会学的に理解することが,人的価値形成の鍵となる要因であるとする考察から,LLMを自己で整合させる新たな方向性である社会シーンシミュレーションを提案する。 そこで本研究では,ユーザの入力クエリ周辺の現実的シーンをエミュレートする新しいソーシャルシーンシミュレータであるmatrixを提案する。 MATRIXはMonopolylogueに似た仮想リハーサル空間として機能し、LCMはクエリと実践に関するさまざまな役割をそれ自体で実行する。 このアライメントを注入するために,MATRIXシミュレーションデータを用いてLLMを微調整し,推論速度を損なうことなく人間の値への付着を確保する。 理論的には、MATRIXを用いたLLMは、軽微な仮定で構成AIよりも優れていることを示す。 最後に、我々の手法が4つのベンチマークで10以上のベースラインより優れていることを検証する。 875のユーザレーティングで証明されたように、チューニングされた13bサイズのllmは、人間の値に合わせるとgpt-4を超えます。 プロジェクトページはhttps://shuotang123.github.io/MATRIX.comで公開されている。

Aligning large language models (LLMs) with human values is imperative to mitigate potential adverse effects resulting from their misuse. Drawing from the sociological insight that acknowledging all parties' concerns is a key factor in shaping human values, this paper proposes a novel direction to align LLMs by themselves: social scene simulation. To achieve this, we present MATRIX, a novel social scene simulator that emulates realistic scenes around a user's input query, enabling the LLM to take social consequences into account before responding. MATRIX serves as a virtual rehearsal space, akin to a Monopolylogue, where the LLM performs diverse roles related to the query and practice by itself. To inject this alignment, we fine-tune the LLM with MATRIX-simulated data, ensuring adherence to human values without compromising inference speed. We theoretically show that the LLM with MATRIX outperforms Constitutional AI under mild assumptions. Finally, extensive experiments validate that our method outperforms over 10 baselines across 4 benchmarks. As evidenced by 875 user ratings, our tuned 13B-size LLM exceeds GPT-4 in aligning with human values. Our project page is available at https://shuotang123.github.io/MATRIX.
翻訳日:2024-03-01 17:42:28 公開日:2024-02-29
# 法的推論の進歩:半自動調停プロセス(saaps)によるグローバル法学における複雑度とバイアスをナビゲートするaiの統合

Advancing Legal Reasoning: The Integration of AI to Navigate Complexities and Biases in Global Jurisprudence with Semi-Automated Arbitration Processes (SAAPs) ( http://arxiv.org/abs/2402.04140v3 )

ライセンス: Link先を確認
Michael De'Shazer(参考訳) 本研究は,米国,英国,ルワンダ,スウェーデン,香港の5カ国にまたがる裁判所判決の分析に対する新たなアプローチからなる。 本研究はまた、人工知能(ai)と法的分析における最新の進歩の交点を探究し、人間のバイアスを識別し、様々な司法管轄区域における法律の一貫した適用を確保することを目的として、ai(特別に生成的なai)の役割を強調し、裁判所判断の自動化、有効性、一貫性のある多面的議論を促進する。 本稿では,高度言語モデル (ALMs) と新たに導入された人間とAIの協調的枠組みを組み込むことにより,法律の実践において,高度言語モデル (ALMs) を用いた地上理論に基づく研究設計を分析することを目的とする。 ShiRLEYは、AIベースのアプリケーション(OpenAIのGPT技術上に構築されている)の名前であり、さまざまな法的判断における論理的矛盾とバイアスを検出することに焦点を当てている。 ShiRLEY分析は集約され、SAM(ALM)と呼ばれる比較指向のAIベースのアプリケーションとともに、ShiRLEYバイアス検出における相対偏差を識別する。 さらに、ALM,SARAを介して半自律仲裁プロセス中にCRITICを生成する。 上記のAIアプリケーション(SAM in together with ShiRLEY)で識別されるバイアスと定性的ニュアンスを、ビジネスと人権の仲裁規則に基づいて批判的に評価するAI仲裁器の利用において、新しいアプローチが導入された。 この半自動仲裁プロセス(SAAP)は、AIと人間による協調分析のハイブリッドシステムを通じて、曖昧な議論に反する「理解」を確実にすることで、法的判断の完全性と公正性を維持することを目的としている。

This study consists of a novel approach toward the analysis of court judgments spanning five countries, including the United States, the United Kingdom, Rwanda, Sweden and Hong Kong. This study also explores the intersection of the latest advancements in artificial intelligence (AI) and legal analysis, emphasizing the role of AI (specifically generative AI) in identifying human biases and facilitating automated, valid, and coherent multisided argumentation of court judgments with the goal of ensuring consistent application of laws in and across various jurisdictions. By incorporating Advanced Language Models (ALMs) and a newly introduced human-AI collaborative framework, this paper seeks to analyze Grounded Theory-based research design with Advanced Language Models (ALMs) in the practice of law. SHIRLEY is the name of the AI-based application (built on top of OpenAI's GPT technology), focusing on detecting logical inconsistencies and biases across various legal decisions. SHIRLEY analysis is aggregated and is accompanied by a comparison-oriented AI-based application called SAM (also an ALM) to identify relative deviations in SHIRLEY bias detections. Further, a CRITIC is generated within semi-autonomous arbitration process via the ALM, SARA. A novel approach is introduced in the utilization of an AI arbitrator to critically evaluate biases and qualitative-in-nature nuances identified by the aforementioned AI applications (SAM in concert with SHIRLEY), based on the Hague Rules on Business and Human Rights Arbitration. This Semi-Automated Arbitration Process (SAAP) aims to uphold the integrity and fairness of legal judgments by ensuring a nuanced debate-resultant "understanding" through a hybrid system of AI and human-based collaborative analysis.
翻訳日:2024-03-01 17:42:08 公開日:2024-02-29
# インスタンス・ワイズ・セルフ・アテンティブ・ホークスプロセスによる粒状因果性学習

Learning Granger Causality from Instance-wise Self-attentive Hawkes Processes ( http://arxiv.org/abs/2402.03726v2 )

ライセンス: Link先を確認
Dongxia Wu, Tsuyoshi Id\'e, Aur\'elie Lozano, Georgios Kollias, Ji\v{r}\'i Navr\'atil, Naoki Abe, Yi-An Ma, Rose Yu(参考訳) 本稿では,非同期,相互依存型,複数タイプのイベントシーケンスからGranger因果関係を学習する問題に対処する。 特に、インスタンスレベルの因果構造を教師なしで発見することに興味がある。 インスタンスレベルの因果関係は個々のイベント間の因果関係を認識し、よりきめ細かい情報を提供する。 文献における既存の研究は、強度関数の線形性のような強い仮定や、必ずしもグランジャー因果関係の要件を満たさないヒューリスティックに定義されたモデルパラメータを必要とする。 本稿では,イベントインスタンスレベルでのグランジャー因果関係を直接推測可能な,新しいディープラーニングフレームワークであるisahp(instance-wise self-attentive hawkes processes)を提案する。 ISAHPは、Granger因果性の要求を満たす最初の神経点プロセスモデルである。 変圧器の自己着脱機構を利用して、グレンジャー因果関係の原理に合致する。 我々は、ISAHPが古典モデルでは扱えない複雑なインスタンスレベルの因果構造を発見することができることを実証的に実証した。 また、ISAHPは、タイプレベルの因果発見とインスタンスレベルのイベントタイプ予測を含むプロキシタスクにおいて、最先端のパフォーマンスを達成することを示す。

We address the problem of learning Granger causality from asynchronous, interdependent, multi-type event sequences. In particular, we are interested in discovering instance-level causal structures in an unsupervised manner. Instance-level causality identifies causal relationships among individual events, providing more fine-grained information for decision-making. Existing work in the literature either requires strong assumptions, such as linearity in the intensity function, or heuristically defined model parameters that do not necessarily meet the requirements of Granger causality. We propose Instance-wise Self-Attentive Hawkes Processes (ISAHP), a novel deep learning framework that can directly infer the Granger causality at the event instance level. ISAHP is the first neural point process model that meets the requirements of Granger causality. It leverages the self-attention mechanism of the transformer to align with the principles of Granger causality. We empirically demonstrate that ISAHP is capable of discovering complex instance-level causal structures that cannot be handled by classical models. We also show that ISAHP achieves state-of-the-art performance in proxy tasks involving type-level causal discovery and instance-level event type prediction.
翻訳日:2024-03-01 17:41:05 公開日:2024-02-29
# 自己回帰型大言語モデルを用いた説明可能な株価予測の学習

Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models ( http://arxiv.org/abs/2402.03659v3 )

ライセンス: Link先を確認
Kelvin J.L. Koa, Yunshan Ma, Ritchie Ng, Tat-Seng Chua(参考訳) ストック予測を説明することは、従来の非生成的ディープラーニングモデルでは一般的に難しいタスクであり、重要なテキストに対する注意重みを視覚化することに限定されている。 今日、Large Language Models (LLM) は、意思決定プロセスのための人間可読な説明を生成する既知の能力から、この問題に対する解決策を提示している。 しかし、株価にカオス的なソーシャルテキストが与える影響を測る能力が必要となるため、株価予測の課題は依然としてllmsにとって困難である。 この問題は説明コンポーネントの導入によって徐々に難しくなり、llmはなぜ特定の要因が他の要素よりも重要であるのかを口頭で説明する必要がある。 一方で,このような課題に対してllmを微調整するには,トレーニングセット内の各ストック移動に対して,専門家による説明のサンプルが必要となる。 これらの課題に対処するために,LLMが説明可能な株価予測を完全自律的に生成する方法を教えるために,自己回帰エージェントとPPO(Proximal Policy Optimization)を利用したSEP(Summarize-Explain-Predict)フレームワークを提案する。 反射剤は自己推論によって過去の株価の動きを説明する方法を学び、PPOトレーナーは入力テキストから最も可能性の高い説明を生成するためにモデルを訓練する。 PPOトレーナーのトレーニングサンプルは、反射過程中に生成された応答であり、人間のアノテータの必要性を排除している。 SEPフレームワークを用いて,従来の深層学習法とLLM法の両方を予測精度,およびストック分類タスクに対するマシューズ相関係数で上回り得るLLMを微調整する。 フレームワークの一般化能力を正当化するため、ポートフォリオ構築タスクでさらにテストし、さまざまなポートフォリオメトリクスを通してその効果を実証する。

Explaining stock predictions is generally a difficult task for traditional non-generative deep learning models, where explanations are limited to visualizing the attention weights on important texts. Today, Large Language Models (LLMs) present a solution to this problem, given their known capabilities to generate human-readable explanations for their decision-making process. However, the task of stock prediction remains challenging for LLMs, as it requires the ability to weigh the varying impacts of chaotic social texts on stock prices. The problem gets progressively harder with the introduction of the explanation component, which requires LLMs to explain verbally why certain factors are more important than the others. On the other hand, to fine-tune LLMs for such a task, one would need expert-annotated samples of explanation for every stock movement in the training set, which is expensive and impractical to scale. To tackle these issues, we propose our Summarize-Explain-Predict (SEP) framework, which utilizes a self-reflective agent and Proximal Policy Optimization (PPO) to let a LLM teach itself how to generate explainable stock predictions in a fully autonomous manner. The reflective agent learns how to explain past stock movements through self-reasoning, while the PPO trainer trains the model to generate the most likely explanations from input texts. The training samples for the PPO trainer are also the responses generated during the reflective process, which eliminates the need for human annotators. Using our SEP framework, we fine-tune a LLM that can outperform both traditional deep-learning and LLM methods in prediction accuracy and Matthews correlation coefficient for the stock classification task. To justify the generalization capability of our framework, we further test it on the portfolio construction task, and demonstrate its effectiveness through various portfolio metrics.
翻訳日:2024-03-01 17:40:35 公開日:2024-02-29
# IEEE ICME 2024グランドチャレンジの解説:ドメインシフトに基づく半教師付き音響シーン分類

Description on IEEE ICME 2024 Grand Challenge: Semi-supervised Acoustic Scene Classification under Domain Shift ( http://arxiv.org/abs/2402.02694v2 )

ライセンス: Link先を確認
Jisheng Bai, Mou Wang, Haohe Liu, Han Yin, Yafei Jia, Siwei Huang, Yutong Du, Dongzhe Zhang, Dongyuan Shi, Woon-Seng Gan, Mark D. Plumbley, Susanto Rahardja, Bin Xiang, Jianfeng Chen(参考訳) 音響シーン分類 (ASC) は, 音場解析において重要な研究課題であり, 環境の独特の音響特性を認識することを目的としている。 ASCタスクの課題の1つは、トレーニングとテストデータのドメインシフトである。 2018年以降、ASCの課題は、さまざまな記録デバイスにまたがるASCモデルの一般化に焦点を当てている。 近年,この課題はデバイス一般化において大きな進歩を遂げているが,時間,空間,文化,言語といった不一致を伴う地域間ドメインシフトの課題はいまだ不十分である。 また、実世界におけるラベルなし音響シーンデータの存在量を考慮すると、これらのラベルなしデータを利用する方法を検討することが重要である。 そこで,ICME 2024 Grand Challengeにおいて,ドメインシフトに基づく半教師付き音響シーン分類を提案する。 我々は、ドメインシフトの下でより堅牢なASCモデルを開発することを目的として、半教師付き学習技術で革新を奨励する。

Acoustic scene classification (ASC) is a crucial research problem in computational auditory scene analysis, and it aims to recognize the unique acoustic characteristics of an environment. One of the challenges of the ASC task is the domain shift between training and testing data. Since 2018, ASC challenges have focused on the generalization of ASC models across different recording devices. Although this task, in recent years, has achieved substantial progress in device generalization, the challenge of domain shift between different geographical regions, involving discrepancies such as time, space, culture, and language, remains insufficiently explored at present. In addition, considering the abundance of unlabeled acoustic scene data in the real world, it is important to study the possible ways to utilize these unlabelled data. Therefore, we introduce the task Semi-supervised Acoustic Scene Classification under Domain Shift in the ICME 2024 Grand Challenge. We encourage participants to innovate with semi-supervised learning techniques, aiming to develop more robust ASC models under domain shift.
翻訳日:2024-03-01 17:40:02 公開日:2024-02-29
# 強化学習における政策と未知の安全制約の同時学習

Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning ( http://arxiv.org/abs/2402.15893v2 )

ライセンス: Link先を確認
Lunet Yifru and Ali Baheri(参考訳) 強化学習(rl)は、過去数十年間、幅広いドメインにわたる意思決定に革命をもたらしてきた。 しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。 従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。 しかし、この事前定義された安全制約への依存は、そのような制約が利用できない、あるいは十分に適応できない、動的で予測不能な実世界の設定において制限をもたらす。 このギャップを埋めて、安全なRL制御ポリシーを同時に学習し、与えられた環境の未知の安全制約パラメータを識別する新しいアプローチを提案する。 パラメトリック信号時間論理(pSTL)の安全性仕様と小さな初期ラベル付きデータセットを初期化して、与えられたpSTLの安全性仕様のパラメータを最適化するためのベイズ最適化を用いて、2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムのラグランジアン変種を用いて、制約付きポリシー最適化を複雑に統合する二段階最適化タスクとする。 包括的ケーススタディにおける実験を通じて,様々な環境制約をまたいだこのアプローチの有効性を検証し,高いリターンで安全なrlポリシーを導出する。 さらに, 本研究は, STLの安全性制約パラメータの学習に成功し, 真の環境安全制約と高い適合性を示した。 モデルの性能は,安全制約の完全な事前知識を有し,環境安全制約を正確に同定し,その制約に準拠した安全ポリシーを学ぶ能力を示す理想的なシナリオを密接に反映している。

Reinforcement learning (RL) has revolutionized decision-making across a wide range of domains over the past few decades. Yet, deploying RL policies in real-world scenarios presents the crucial challenge of ensuring safety. Traditional safe RL approaches have predominantly focused on incorporating predefined safety constraints into the policy learning process. However, this reliance on predefined safety constraints poses limitations in dynamic and unpredictable real-world settings where such constraints may not be available or sufficiently adaptable. Bridging this gap, we propose a novel approach that concurrently learns a safe RL control policy and identifies the unknown safety constraint parameters of a given environment. Initializing with a parametric signal temporal logic (pSTL) safety specification and a small initial labeled dataset, we frame the problem as a bilevel optimization task, intricately integrating constrained policy optimization, using a Lagrangian-variant of the twin delayed deep deterministic policy gradient (TD3) algorithm, with Bayesian optimization for optimizing parameters for the given pSTL safety specification. Through experimentation in comprehensive case studies, we validate the efficacy of this approach across varying forms of environmental constraints, consistently yielding safe RL policies with high returns. Furthermore, our findings indicate successful learning of STL safety constraint parameters, exhibiting a high degree of conformity with true environmental safety constraints. The performance of our model closely mirrors that of an ideal scenario that possesses complete prior knowledge of safety constraints, demonstrating its proficiency in accurately identifying environmental safety constraints and learning safe policies that adhere to those constraints.
翻訳日:2024-03-01 17:35:15 公開日:2024-02-29
# LLMの採算能力の測定:ベンチマークと買い手エンハンスメント手法

Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method ( http://arxiv.org/abs/2402.15813v2 )

ライセンス: Link先を確認
Tian Xia, Zhiwei He, Tong Ren, Yibo Miao, Zhuosheng Zhang, Yang Yang, Rui Wang(参考訳) 交渉は人間同士の交渉において重要かつ独特な部分である。 LLM主導のエージェントは、実際の人間のように交渉し行動することを学ぶため、エージェントの交渉能力を評価する方法が未解決の問題である。 取引業務を非対称不完全情報ゲームとして、複数の交渉プロセスにおいて買い手と売り手の利益を定義することを初めて正式に記述した。 これにより,取引作業におけるエージェントのパフォーマンスを定量的に評価することができる。 実際の製品価格データセットであるAmazonHistoryPriceを収集し、さまざまなLLMエージェントのバリ取り能力の評価を行った。 買い手の遊びは売り手よりもずっと難しく,モデルサイズの増加は買い手のパフォーマンスを効果的に改善できないことがわかった。 そこで本研究では,提案する提案の価格範囲を制御するための決定論的オファージェネレータと,生成した提案に対する自然言語文を生成するLLMナレーターを組み合わせた,OG-Narratorという新しいアプローチを提案する。 実験の結果、OG-Narratorは購入者の取引レートを26.67%から88.88%に改善し、整列していないモデルであっても、すべてのベースラインに10倍の利益をもたらすことが示された。

Bargaining is an important and unique part of negotiation between humans. As LLM-driven agents learn to negotiate and act like real humans, how to evaluate agents' bargaining abilities remains an open problem. For the first time, we formally described the Bargaining task as an asymmetric incomplete information game, defining the gains of the Buyer and Seller in multiple bargaining processes. It allows us to quantitatively assess an agent's performance in the Bargain task. We collected a real product price dataset, AmazonHistoryPrice, and conducted evaluations of various LLM agents' bargaining abilities. We find that playing a Buyer is much harder than a Seller, and increasing model size can not effectively improve the Buyer's performance. To address the challenge, we propose a novel approach called OG-Narrator that integrates a deterministic Offer Generator to control the price range of Buyer's offers, and an LLM Narrator to create natural language sentences for generated offers. Experimental results show that OG-Narrator improves the buyer's deal rates from 26.67% to 88.88% and brings a ten times of multiplication of profits on all baselines, even a model that has not been aligned.
翻訳日:2024-03-01 17:34:44 公開日:2024-02-29
# 臨界量子センシングの最適性と雑音耐性

Optimality and Noise-Resilience of Critical Quantum Sensing ( http://arxiv.org/abs/2402.15559v2 )

ライセンス: Link先を確認
Uesli Alushi, Wojciech G\'orecki, Simone Felicetti, Roberto Di Candia(参考訳) 単一モード二次ハミルトニアンの周波数推定を行うために,臨界量子センシングとパッシブ量子戦略を比較した。 ユニタリの場合、どちらの戦略も光子数と精度2次スケーリングを達成するが、散逸の存在下では、これは重要な戦略にのみ当てはまる。 また、例外的なポイントやしきい値を超えて作業することで、サブ最適パフォーマンスが得られます。 この重要な拡張は、開放臨界力学における過渡的レジームの出現によるものであり、温度変化に不変である。 時間とシステムのサイズを資源として考えるとき、両方の戦略について、精度は、基本境界に従って、総時間と光子の数の積と線形にスケールする。 しかし,準備時間と測定時間が無視できない場合,クリティカルプロトコルは最適受動的戦略よりも優れていることを示す。

We compare critical quantum sensing to passive quantum strategies to perform frequency estimation, in the case of single-mode quadratic Hamiltonians. We show that, while in the unitary case both strategies achieve precision scaling quadratic with the number of photons, in the presence of dissipation this is true only for critical strategies. We also establish that working at the exceptional point or beyond threshold provides sub-optimal performance. This critical enhancement is due to the emergence of a transient regime in the open critical dynamics, and is invariant to temperature changes. When considering both time and system size as resources, for both strategies the precision scales linearly with the product of the total time and the number of photons, in accordance with fundamental bounds. However, we show that critical protocols outperform optimal passive strategies if preparation and measurement times are not negligible.
翻訳日:2024-03-01 17:33:54 公開日:2024-02-29
# (ほとんど)全てはディックモデルであり、相関した光マター系を正確に解けるディックモデルにマッピングする

(Almost) Everything is a Dicke model -- Mapping correlated light-matter systems to the exactly solvable Dicke model ( http://arxiv.org/abs/2402.15209v2 )

ライセンス: Link先を確認
Andreas Schellenberger, Kai Phillip Schmidt(参考訳) ディッケカップリングを持つ単一モードキャビティにおける相互作用量子スピン系のクラスを、強相関光マッター系のパラダイム的例として検討する。 弱い光物質結合と多数の物質実体の極限から、幅広いクラスのモデルの関連する低エネルギーセクターを、正確に解けるディックモデルにマッピングする。 この結果は、平均場理論によって得られた結果と一致して、パラダイム的例としてディッケライジングモデルに適用する。 さらに, 完全対角化法と直列展開法pcst++を用いて, 有限サイズの計算を行い, 検証を行った。

We investigate classes of interacting quantum spin systems in a single-mode cavity with a Dicke coupling, as a paradigmatic example of strongly correlated light-matter systems. Coming from the limit of weak light-matter couplings and large number of matter entities, we map the relevant low-energy sector of a broad class of models onto the exactly solvable Dicke model. We apply the outcomes to the Dicke-Ising model as a paradigmatic example, in agreement with results obtained by mean-field theory. We further accompany and verify our findings with finite-size calculations, using exact diagonalization and the series expansion method pcst++.
翻訳日:2024-03-01 17:33:37 公開日:2024-02-29
# $\widetilde{O}(N^2)$ 一般連続反対称関数の表現

$\widetilde{O}(N^2)$ Representation of General Continuous Anti-symmetric Function ( http://arxiv.org/abs/2402.15167v2 )

ライセンス: Link先を確認
Haotian Ye, Ruichen Li, Yuntian Gu, Yiping Lu, Di He, Liwei Wang(参考訳) 量子力学において、多体電子系のようなフェルミオン系の波動関数は反対称(as)かつ連続であり、それらを表現するアンサッツを見つけることは極めて困難である。 本稿では、置換同変関数に基づく${\widetilde O}(N^2)$ ansatzを提示することにより、この問題に対処する。 我々は、我々のアンサッツが任意の AS 連続函数を表現でき、Hutter [14] によって提案された行列式に基づく構造に対応できることを証明し、${O}(N)$ Slater 行列式が AS 連続函数の普遍表現を提供するのに十分であることを示す。 共に、AS連続関数を表現するための一般化可能かつ効率的なアプローチを提供し、波動関数を学習するためのニューラルネットワークの設計に光を当てる。

In quantum mechanics, the wave function of fermion systems such as many-body electron systems are anti-symmetric (AS) and continuous, and it is crucial yet challenging to find an ansatz to represent them. This paper addresses this challenge by presenting an ${\widetilde O}(N^2)$ ansatz based on permutation-equivariant functions. We prove that our ansatz can represent any AS continuous functions, and can accommodate the determinant-based structure proposed by Hutter [14], solving the proposed open problems that ${O}(N)$ Slater determinants are sufficient to provide universal representation of AS continuous functions. Together, we offer a generalizable and efficient approach to representing AS continuous functions, shedding light on designing neural networks to learn wave functions.
翻訳日:2024-03-01 17:33:24 公開日:2024-02-29
# 長いシステムプロンプトを持つ効率的な大言語モデルのリレーアテンション

RelayAttention for Efficient Large Language Model Serving with Long System Prompts ( http://arxiv.org/abs/2402.14808v2 )

ライセンス: Link先を確認
Lei Zhu, Xinjiang Wang, Wayne Zhang, Rynson W.H. Lau(参考訳) 実用的大規模言語モデル(llm)サービスには、タスクの指示、例、知識ドキュメントを指定する長いシステムプロンプトが含まれ、多数のリクエストにまたがって再利用される。 しかし、次のトークンを生成するコストがシーケンス長に比例して増加すると、長いシステムがスループット/レイテンシのボトルネックを引き起こす。 本稿では,長いシステムプロンプトを含むLCMサービスの効率化を目的とする。 我々のキーとなる観察は、既存の因果注意計算アルゴリズムにおいて、これらのシステムプロンプトの処理には大量のメモリアクセスが必要であることである。 具体的には、バッチリクエストでは、システムプロンプトのキャッシュされた隠された状態(すなわちキーと値のペア)がオフチップのDRAMからオンチップのSRAMに複数回転送される。 このような冗長性を排除するため,DRAMから複数の入力トークンを正確に1回だけ読み取ることができるアテンションアルゴリズムであるRelayAttentionを提案する。 RelayAttentionは無料のランチであり、因果的注意の数学的再構成に基づくため、モデルの再トレーニングを必要とせず、世代品質を維持している。 コードは \url{https://github.com/rayleizhu/vllm-ra} で入手できる。

Practical large language model (LLM) services may involve a long system prompt, which specifies the instructions, examples, and knowledge documents of the task and is reused across numerous requests. However, the long system prompt causes throughput/latency bottlenecks as the cost of generating the next token grows w.r.t. the sequence length. This paper aims to improve the efficiency of LLM services that involve long system prompts. Our key observation is that handling these system prompts requires heavily redundant memory accesses in existing causal attention computation algorithms. Specifically, for batched requests, the cached hidden states (i.e., key-value pairs) of system prompts are transferred from off-chip DRAM to on-chip SRAM multiple times, each corresponding to an individual request. To eliminate such a redundancy, we propose RelayAttention, an attention algorithm that allows reading these hidden states from DRAM exactly once for a batch of input tokens. RelayAttention is a free lunch: it maintains the generation quality while requiring no model retraining, as it is based on a mathematical reformulation of causal attention. Code is available at \url{https://github.com/rayleizhu/vllm-ra}.
翻訳日:2024-03-01 17:33:06 公開日:2024-02-29
# トークン化に対する2つの反例と無ノイズチャネル

Two Counterexamples to Tokenization and the Noiseless Channel ( http://arxiv.org/abs/2402.14614v2 )

ライセンス: Link先を確認
Marco Cognetta and Vil\'em Zouhar and Sangwhan Moon and Naoaki Okazaki(参考訳) Tokenization and the Noiseless Channel (Zouhar et al., 2023a)では、R'enyi効率は、トークン化器を評価するための本質的なメカニズムとして提案されている: NLPタスクでは、ユニグラム分布の最高R'enyi効率につながるトークン化器を選択するべきである。 したがって、R'enyi効率は、異なるトークン化器で複数のモデルをトレーニングするコストのかかるステップなしで、下流のパフォーマンスの予測(例えば、機械翻訳タスクのBLEUを予測する)として扱われる。 有用ではあるが、この計量の予測力は完全ではなく、著者らはR'enyi効率だけでは達成できない優れたトークン化スキームのさらなる性質があることを指摘している。 下流モデルの性能を低下させながらR'enyi効率を任意に向上させるBPEトークン化の2つのバリエーションについて述べる。 これらの反例は、R\'enyi効率が固有のトークン化計量として失敗するケースを明らかにし、より正確な予測器を構築するための洞察を与える。

In Tokenization and the Noiseless Channel (Zouhar et al., 2023a), R\'enyi efficiency is suggested as an intrinsic mechanism for evaluating a tokenizer: for NLP tasks, the tokenizer which leads to the highest R\'enyi efficiency of the unigram distribution should be chosen. The R\'enyi efficiency is thus treated as a predictor of downstream performance (e.g., predicting BLEU for a machine translation task), without the expensive step of training multiple models with different tokenizers. Although useful, the predictive power of this metric is not perfect, and the authors note there are additional qualities of a good tokenization scheme that R\'enyi efficiency alone cannot capture. We describe two variants of BPE tokenization which can arbitrarily increase R\'enyi efficiency while decreasing the downstream model performance. These counterexamples expose cases where R\'enyi efficiency fails as an intrinsic tokenization metric and thus give insight for building more accurate predictors.
翻訳日:2024-03-01 17:32:42 公開日:2024-02-29
# eyetrans: ニューラルコード要約のための人間と機械の注意の融合

EyeTrans: Merging Human and Machine Attention for Neural Code Summarization ( http://arxiv.org/abs/2402.14096v3 )

ライセンス: Link先を確認
Yifan Zhang, Jiliang Li, Zachary Karas, Aakash Bansal, Toby Jia-Jun Li, Collin McMillan, Kevin Leach, Yu Huang(参考訳) ニューラルネットワークの要約はディープラーニングモデルを利用して、コードスニペットの簡単な自然言語要約を自動的に生成する。 トランスフォーマーモデルの開発は、モデル設計中に広範囲に注意を向ける結果となった。 既存の作業は主にソースコードの静的な特性とAST(Abstract Syntax Tree)のような関連する構造表現に重点を置いているが、プログラマがコードを調べて理解しながら注目する研究はほとんどない。 本稿では,人間の注意を機械の注意に取り入れ,ニューラルネットワークの要約を強化する手法を開発する。 To facilitate this incorporation and vindicate this hypothesis, we introduce EyeTrans, which consists of three steps: (1) we conduct an extensive eye-tracking human study to collect and pre-analyze data for model training, (2) we devise a data-centric approach to integrate human attention with machine attention in the Transformer architecture, and (3) we conduct comprehensive experiments on two code summarization tasks to demonstrate the effectiveness of incorporating human attention into Transformers. 人間の注意を組み込むことで、関数的要約の最大29.91%、一般コード要約のパフォーマンスの最大6.39%が改善され、この組み合わせの実質的な利点が示される。 我々はさらに,eyetransが興味深い特性を示すような難解な要約シナリオを作成することにより,ロバスト性と効率性の観点からパフォーマンスを探求する。 また、人間の注意を取り入れることで、トランスフォーマーにおける機械的注意の簡易化効果を可視化する。 この研究は、より人間中心のアプローチとデータを導入することで、ソフトウェアエンジニアリングにおけるAI研究を促進する可能性がある。

Neural code summarization leverages deep learning models to automatically generate brief natural language summaries of code snippets. The development of Transformer models has led to extensive use of attention during model design. While existing work has primarily and almost exclusively focused on static properties of source code and related structural representations like the Abstract Syntax Tree (AST), few studies have considered human attention, that is, where programmers focus while examining and comprehending code. In this paper, we develop a method for incorporating human attention into machine attention to enhance neural code summarization. To facilitate this incorporation and vindicate this hypothesis, we introduce EyeTrans, which consists of three steps: (1) we conduct an extensive eye-tracking human study to collect and pre-analyze data for model training, (2) we devise a data-centric approach to integrate human attention with machine attention in the Transformer architecture, and (3) we conduct comprehensive experiments on two code summarization tasks to demonstrate the effectiveness of incorporating human attention into Transformers. Integrating human attention leads to an improvement of up to 29.91% in Functional Summarization and up to 6.39% in General Code Summarization performance, demonstrating the substantial benefits of this combination. We further explore performance in terms of robustness and efficiency by creating challenging summarization scenarios in which EyeTrans exhibits interesting properties. We also visualize the attention map to depict the simplifying effect of machine attention in the Transformer by incorporating human attention. This work has the potential to propel AI research in software engineering by introducing more human-centered approaches and data.
翻訳日:2024-03-01 17:32:08 公開日:2024-02-29
# E2USD:多変量時系列の効率的な非教師付き状態検出

E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series ( http://arxiv.org/abs/2402.14041v2 )

ライセンス: Link先を確認
Zhichen Lai, Huan Li, Dalin Zhang, Yan Zhao, Weizhu Qian, Christian S. Jensen(参考訳) 本稿では,効率よくyet-accurate unsupervised MTS状態検出が可能なE2USDを提案する。 E2USDはFast Fourier Transform-based Time Series Compressor (FFTCompress) とDecomposed Dual-view Embedding Module (DDEM) を利用している。 さらに,偽陰性の影響を克服し,よりクラスタフレンドリーな埋め込み空間を実現するfncclearningを提案する。 ストリーミング設定における計算オーバーヘッドを軽減するため,Adaptive Threshold Detection (ADATD)を導入する。 6つのベースラインと6つのデータセットによる総合的な実験は、E2USDが計算オーバーヘッドを大幅に削減したSOTA精度を持つことを示す。 私たちのコードはhttps://github.com/AI4CTS/E2Usd.comで利用可能です。

We propose E2USD that enables efficient-yet-accurate unsupervised MTS state detection. E2USD exploits a Fast Fourier Transform-based Time Series Compressor (FFTCompress) and a Decomposed Dual-view Embedding Module (DDEM) that together encode input MTSs at low computational overhead. Additionally, we propose a False Negative Cancellation Contrastive Learning method (FNCCLearning) to counteract the effects of false negatives and to achieve more cluster-friendly embedding spaces. To reduce computational overhead further in streaming settings, we introduce Adaptive Threshold Detection (ADATD). Comprehensive experiments with six baselines and six datasets offer evidence that E2USD is capable of SOTA accuracy at significantly reduced computational overhead. Our code is available at https://github.com/AI4CTS/E2Usd.
翻訳日:2024-03-01 17:31:42 公開日:2024-02-29
# YOLOv9: プログラマブルなグラディエント情報を使って学習したいことを学ぶ

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information ( http://arxiv.org/abs/2402.13616v2 )

ライセンス: Link先を確認
Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao(参考訳) 今日のディープラーニング手法は、モデルの予測結果が基礎的な真実に最も近いように、最も適切な目的関数を設計する方法に焦点を当てている。 一方、予測に十分な情報の取得を容易にする適切なアーキテクチャを設計する必要がある。 既存の方法は、入力データが層別特徴抽出と空間変換を行うと、大量の情報が失われるという事実を無視している。 本稿では,深層ネットワークを介してデータを送信する場合,情報損失の重要な問題,すなわち情報ボトルネックと可逆関数について考察する。 複数の目的を達成するために深層ネットワークが要求する様々な変化に対処するために,プログラム可能な勾配情報(pgi)の概念を提案した。 pgiは対象タスクの完全な入力情報を提供して目的関数を算出でき、信頼性の高い勾配情報を得てネットワーク重みを更新できる。 さらに、勾配経路計画に基づく、新しい軽量ネットワークアーキテクチャ -- 一般化された効率的な層集約ネットワーク(gelan)が設計されている。 GELANのアーキテクチャは、PGIが軽量モデルにおいて優れた結果を得たことを確認している。 提案したGELANとPGIを,MS COCOデータセットを用いたオブジェクト検出で検証した。 その結果,GELANは従来の畳み込み演算子のみを用いて,奥行きの畳み込みに基づく最先端手法よりも優れたパラメータ利用を実現していることがわかった。 PGIは軽量から大規模まで様々なモデルに使用することができる。 scratchモデルが、大規模なデータセットを使って事前トレーニングされた最先端モデルよりも優れた結果が得られるように、完全な情報を得るために使用できる。 ソースコードはhttps://github.com/wongkinyiu/yolov9。

Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.
翻訳日:2024-03-01 17:31:26 公開日:2024-02-29
# パターン分析と機械学習における文献レビューの文献レビュー

A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence ( http://arxiv.org/abs/2402.12928v3 )

ライセンス: Link先を確認
Penghai Zhao, Xin Zhang, Ming-Ming Cheng, Jian Yang, Xiang Li(参考訳) 散在する知識を集約することにより,研究対象の総合的な理解を提供する。 しかし、特にパターン分析とマシンインテリジェンス(PAMI)の急激な分野における過度なレビューは、研究者とレビュアーの両方に懸念を与えている。 これらの懸念に応えて,本分析は多種多様な視点からPAMI分野のレビューを徹底的にレビューすることを目的としている。 まず,大規模言語モデルを用いた文献評価指標を提案し,文献レビューを自動評価する。 これを容易にするために、PAMIレビューの統計的特徴を得るために、RiPAMIと呼ばれるメタデータデータベースとトピックデータセットを構築した。 従来の文献計測とは違って,提案した論文レベルの指標は,ユーザ定義のキーワードに頼ることなく,レビューのリアルタイムおよびフィールド正規化定量評価を提供する。 第2に、これらの指標に基づき、論文レビューの比較分析を行い、様々な分野、時代、雑誌にまたがる出版物の特徴を明らかにする。 新たなAI生成の文献レビューも評価されており、観察された違いは、ほとんどのAI生成のレビューが、いくつかの面で人間によるレビューより遅れていることを示している。 第3に,代表的なパミレビューを主観的に評価し,文献レビューの書体構造に基づくタイポロジーを紹介する。 このタイポロジーは、レビューの読み書きにおける学者の明快さと有効性を改善しつつ、十分に整理されたレビューを生成するためのAIシステムのガイドとしても機能する。 最後に、この分析は文献レビューの現在の課題に対する洞察を与え、今後の展開を展望する。

By consolidating scattered knowledge, the literature review provides a comprehensive understanding of the investigated topic. However, excessive reviews, especially in the booming field of pattern analysis and machine intelligence (PAMI), raise concerns for both researchers and reviewers. In response to these concerns, this Analysis aims to provide a thorough review of reviews in the PAMI field from diverse perspectives. First, large language model-empowered bibliometric indicators are proposed to evaluate literature reviews automatically. To facilitate this, a meta-data database dubbed RiPAMI, and a topic dataset are constructed, which are utilized to obtain statistical characteristics of PAMI reviews. Unlike traditional bibliometric measurements, the proposed article-level indicators provide real-time and field-normalized quantified assessments of reviews without relying on user-defined keywords. Second, based on these indicators, the study presents comparative analyses of different reviews, unveiling the characteristics of publications across various fields, periods, and journals. The newly emerging AI-generated literature reviews are also appraised, and the observed differences suggest that most AI-generated reviews still lag behind human-authored reviews in several aspects. Third, we briefly provide a subjective evaluation of representative PAMI reviews and introduce a paper structure-based typology of literature reviews. This typology may improve the clarity and effectiveness for scholars in reading and writing reviews, while also serving as a guide for AI systems in generating well-organized reviews. Finally, this Analysis offers insights into the current challenges of literature reviews and envisions future directions for their development.
翻訳日:2024-03-01 17:31:00 公開日:2024-02-29
# Sequoia: スケーラブル、ロバスト、ハードウェア対応の投機的デコーディング

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding ( http://arxiv.org/abs/2402.12374v2 )

ライセンス: Link先を確認
Zhuoming Chen, Avner May, Ruslan Svirschevski, Yuhsun Huang, Max Ryabinin, Zhihao Jia, Beidi Chen(参考訳) 大規模言語モデル(LLM)の利用が増加するにつれて、これらのモデルによる効率的な推論がますます重要になる。 投機的復号化は推論を高速化するための有望な方向として最近登場したが、既存の手法は投機予算を拡大し、異なるハイパーパラメータやハードウェアに適応する能力に制限されている。 本稿では,投機的復号化のためのスケーラブルでロバストでハードウェア対応のアルゴリズムsequoiaを紹介する。 より優れたスケーラビリティを実現するため、sequoiaは推測されたトークンの最適ツリー構造を見つけるために動的プログラミングアルゴリズムを導入した。 安定した投機的性能を達成するためにsequoiaは、異なる復号温度で以前の作業を上回る新しいサンプリングおよび検証手法を使用している。 最後に、Sequoiaはハードウェア対応ツリーオプティマイザを導入し、特定のハードウェアプラットフォームのトークンツリーサイズと深さを自動的に選択することで、投機的パフォーマンスを最大化する。 評価によると、sequoiaはa100のllama2-7b, llama2-13b, vicuna-33bの復号速度を最大4.04\times$, $3.73\times$, $2.27\times$で改善している。 l40のオフロード設定の場合、sequoiaはllama2-70bの正確な推論レイテンシのために 0.56 s/token($9.96\times$)、最適化されたオフロードシステム($5.6 s/token)、deepspeed-zero-inferenceより$9.7\times$、hughingfaceaccelerateより$19.5\times$である。

As the usage of large language models (LLMs) grows, performing efficient inference with these models becomes increasingly important. While speculative decoding has recently emerged as a promising direction for speeding up inference, existing methods are limited in their ability to scale to larger speculation budgets, and adapt to different hyperparameters and hardware. This paper introduces Sequoia, a scalable, robust, and hardware-aware algorithm for speculative decoding. To attain better scalability, Sequoia introduces a dynamic programming algorithm to find the optimal tree structure for the speculated tokens. To achieve robust speculative performance, Sequoia uses a novel sampling and verification method that outperforms prior work across different decoding temperatures. Finally, Sequoia introduces a hardware-aware tree optimizer that maximizes speculative performance by automatically selecting the token tree size and depth for a given hardware platform. Evaluation shows that Sequoia improves the decoding speed of Llama2-7B, Llama2-13B, and Vicuna-33B on an A100 by up to $4.04\times$, $3.73\times$, and $2.27\times$. For offloading setting on L40, Sequoia achieves as low as 0.56 s/token for exact Llama2-70B inference latency, which is $9.96\times$ on our optimized offloading system (5.6 s/token), $9.7\times$ than DeepSpeed-Zero-Inference, $19.5\times$ than Huggingface Accelerate.
翻訳日:2024-03-01 17:30:34 公開日:2024-02-29
# 財務文書質問応答におけるLCMの数学的推論の評価

Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering ( http://arxiv.org/abs/2402.11194v2 )

ライセンス: Link先を確認
Pragya Srivastava, Manuj Malik, Vivek Gupta, Tanuja Ganu, Dan Roth(参考訳) 大規模言語モデル(LLM)は、自然言語理解に優れているが、構造化テーブルと非構造化テキストの融合による複雑な数学的推論能力は不確実である。 本研究は,tatqa,finqa,convfinqa,multihierttの4つの財務表型質問応答データセットについて,llmsの数学的推論を考察する。 様々なモデルやプロンプト技術による広範な実験を通じて,LLMが複雑なテーブルや数学的タスクにどのように適応するかを評価する。 算術的推論ステップの増加に伴い,テーブルの複雑性や性能の変動に対する感度に注目する。 この結果は、半構造化テーブルの複雑な数学的シナリオを扱う際のLLMの能力と限界に関する洞察を与える。 最終的に、我々は、セミ構造化文書に適した新しいプロンプト技術を導入し、そのタスクに対するLCMの能力の微妙な理解を提供しながら、他のベースラインのマッチングや性能の向上を実現した。

Large Language Models (LLMs), excel in natural language understanding, but their capability for complex mathematical reasoning with an amalgamation of structured tables and unstructured text is uncertain. This study explores LLMs' mathematical reasoning on four financial tabular question-answering datasets: TATQA, FinQA, ConvFinQA, and Multihiertt. Through extensive experiments with various models and prompting techniques, we assess how LLMs adapt to complex tables and mathematical tasks. We focus on sensitivity to table complexity and performance variations with an increasing number of arithmetic reasoning steps. The results provide insights into LLMs' capabilities and limitations in handling complex mathematical scenarios for semi-structured tables. Ultimately, we introduce a novel prompting technique tailored to semi-structured documents, matching or outperforming other baselines in performance while providing a nuanced understanding of LLMs abilities for such a task.
翻訳日:2024-03-01 17:29:56 公開日:2024-02-29
# Schr\'odinger方程式の正確な解について

On the exact solution for the Schr\"odinger equation ( http://arxiv.org/abs/2402.18499v2 )

ライセンス: Link先を確認
Yair Mulian(参考訳) 約75年間、シュル=オディンガー方程式の一般解はダイソン級数として知られる時間順指数によって生成されると仮定された。 この解のユニタリティが壊れている条件の下で議論し、追加の特異ダイナミクスが出現する。 次に、ハミルトニアンの選択によらず、明らかにユニタリである別の構成を提供し、その影響の様々な側面を研究する。 新しい構成には、非段階的な方法で進化する追加の自己随伴演算子が含まれる。 ゲージ理論の対応するダイナミクスは、測度 0$ で遷移を行う特異なリウヴィル方程式によって支配される集合的対象の振る舞いを示す。 我々の考察は、シュル・オーディンガーとリウヴィルの方程式が実際に同じコインの2つの側面であり、共に量子系の統一的な記述となることを示している。

For almost 75 years, the general solution for the Schr\"odinger equation was assumed to be generated by a time-ordered exponential known as the Dyson series. We discuss under which conditions the unitarity of this solution is broken, and additional singular dynamics emerges. Then, we provide an alternative construction that is manifestly unitary, regardless of the choice of the Hamiltonian, and study various aspects of the implications. The new construction involves an additional self-adjoint operator that might evolve in a non-gradual way. Its corresponding dynamics for gauge theories exhibit the behavior of a collective object governed by a singular Liouville's equation that performs transitions at a measure $0$ set. Our considerations show that Schr\"odinger's and Liouville's equations are, in fact, two sides of the same coin, and together they become the unified description of quantum systems.
翻訳日:2024-03-01 17:26:07 公開日:2024-02-29
# 自己と他者の信念を表す言語モデル

Language Models Represent Beliefs of Self and Others ( http://arxiv.org/abs/2402.18496v2 )

ライセンス: Link先を確認
Wentao Zhu, Zhining Zhang, Yizhou Wang(参考訳) 心の理論 (ToM) として知られる精神状態の理解と帰属は、人間の社会的推論の基本的な能力として現れる。 大きな言語モデル(LLM)は特定のToM能力を持っているように見えるが、これらの能力の基盤となるメカニズムはいまだ解明されていない。 本研究では,言語モデルのニューラルアクティベーションを通じて,様々なエージェントの視点から,自己や他者の信念の内部表現の存在を示す信念状態を線形にデコードすることが可能であることを見出した。 これらの表現を操作することで,モデルのToMパフォーマンスの劇的な変化を観察し,社会的推論プロセスにおけるそれらの重要な役割を明らかにする。 さらに, 因果的推論パターンの異なる多様な社会的推論タスクにも応用し, それらの表現の一般化可能性も示唆した。

Understanding and attributing mental states, known as Theory of Mind (ToM), emerges as a fundamental capability for human social reasoning. While Large Language Models (LLMs) appear to possess certain ToM abilities, the mechanisms underlying these capabilities remain elusive. In this study, we discover that it is possible to linearly decode the belief status from the perspectives of various agents through neural activations of language models, indicating the existence of internal representations of self and others' beliefs. By manipulating these representations, we observe dramatic changes in the models' ToM performance, underscoring their pivotal role in the social reasoning process. Additionally, our findings extend to diverse social reasoning tasks that involve different causal inference patterns, suggesting the potential generalizability of these representations.
翻訳日:2024-03-01 17:25:52 公開日:2024-02-29
# ROG$_{PL}$:地域型プロトタイプ学習によるロバストなオープンセットグラフ学習

ROG$_{PL}$: Robust Open-Set Graph Learning via Region-Based Prototype Learning ( http://arxiv.org/abs/2402.18495v2 )

ライセンス: Link先を確認
Qin Zhang, Xiaowei Li, Jiexin Lu, Liping Qiu, Shirui Pan, Xiaojun Chen, Junyang Chen(参考訳) オープンセットグラフ学習は、既知のクラスノードを分類し、未知のクラスサンプルを未知として識別することを目的とした実用的なタスクである。 従来のノード分類手法は通常、out-of-distribution(ood)データやin-distribution(ind)ノイズといった複雑なデータによって、オープンセットのシナリオでは不十分に実行される。 OODデータは、既知のクラスに属さないサンプルである。 それらはトレーニング中に発生する場合(オードノイズ)とテスト時に発生する場合のオープンセットサンプルである。 INDノイズは、間違ったラベルが割り当てられたトレーニングサンプルである。 INDノイズとOODノイズの存在が一般的であり、通常はクラス内多様性問題やクラス間混乱問題を含む曖昧性問題を引き起こす。 したがって、頑健なオープンセット学習手法の探索は必要であり、非IIDグラフデータにとってさらに困難になる。このため、プロトタイプ学習を導入することにより、複雑なノイズグラフデータに対する堅牢なオープンセット学習を実現するためにROG$_{PL}$という統合フレームワークを提案する。 具体的には、rog$_{pl}$は2つのモジュールで構成される。 第1モジュールは、類似性に基づくラベル伝播によりノイズラベルを補正し、低信頼サンプルを除去し、ノイズによるクラス内バラエティ問題を解決する。 第2のモジュールは、非オーバーラップ領域を介して、既知の各クラスのオープンセットプロトタイプを学習し、クラス間の混乱問題を解決するために、内部と境界の両方のプロトタイプを継続する。 私たちの知る限りでは、提案されたrog$_{pl}$は、複雑なノイズを持つグラフデータに対する最初の堅牢なオープンセットノード分類法である。

Open-set graph learning is a practical task that aims to classify the known class nodes and to identify unknown class samples as unknowns. Conventional node classification methods usually perform unsatisfactorily in open-set scenarios due to the complex data they encounter, such as out-of-distribution (OOD) data and in-distribution (IND) noise. OOD data are samples that do not belong to any known classes. They are outliers if they occur in training (OOD noise), and open-set samples if they occur in testing. IND noise are training samples which are assigned incorrect labels. The existence of IND noise and OOD noise is prevalent, which usually cause the ambiguity problem, including the intra-class variety problem and the inter-class confusion problem. Thus, to explore robust open-set learning methods is necessary and difficult, and it becomes even more difficult for non-IID graph data.To this end, we propose a unified framework named ROG$_{PL}$ to achieve robust open-set learning on complex noisy graph data, by introducing prototype learning. In specific, ROG$_{PL}$ consists of two modules, i.e., denoising via label propagation and open-set prototype learning via regions. The first module corrects noisy labels through similarity-based label propagation and removes low-confidence samples, to solve the intra-class variety problem caused by noise. The second module learns open-set prototypes for each known class via non-overlapped regions and remains both interior and border prototypes to remedy the inter-class confusion problem.The two modules are iteratively updated under the constraints of classification loss and prototype diversity loss. To the best of our knowledge, the proposed ROG$_{PL}$ is the first robust open-set node classification method for graph data with complex noise.
翻訳日:2024-03-01 17:25:37 公開日:2024-02-29
# 金融取引のためのマルチモーダル財団エージェント:ツール提供、多様化、ジェネラリスト

A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist ( http://arxiv.org/abs/2402.18485v2 )

ライセンス: Link先を確認
Wentao Zhang, Lingxuan Zhao, Haochong Xia, Shuo Sun, Jiaze Sun, Molei Qin, Xinyi Li, Yuqing Zhao, Yilei Zhao, Xinyu Cai, Longtao Zheng, Xinrun Wang, Bo An(参考訳) 金融取引は市場の重要な要素であり、ニュース、物価、クラインチャートを包含するマルチモーダルな情報状況から情報を得ており、量的取引や様々な資産との高周波取引といった様々なタスクを包含している。 ディープラーニングや強化学習といった高度なai技術は金融の分野で広く利用されているが、金融取引タスクにおける彼らの応用は、マルチモーダルデータの不適切な処理とさまざまなタスクの一般化可能性の制限によって、しばしば課題に直面している。 これらの課題に対処するため、金融取引のためのツール強化を備えたマルチモーダル基盤エージェントであるFinAgentを提示する。 FinAgentのマーケットインテリジェンスモジュールは、金融市場を正確に分析するために、さまざまなデータ数字、テキスト、視覚的に処理する。 そのユニークなデュアルレベルリフレクションモジュールは、市場ダイナミクスへの迅速な適応を可能にするだけでなく、多様なメモリ検索システムを導入し、履歴データから学習するエージェントの能力を高め、意思決定プロセスを改善する。 エージェントが行動の推論に重きを置くことで、その財務判断に対する信頼が高まる。 さらにFinAgentは、既存のトレーディング戦略と専門家の洞察を統合し、そのトレーディングアプローチがデータ駆動であり、健全な金融原則に根ざしていることを保証する。 株式やCryptoを含む6つの金融データセットに関する総合的な実験により、FinAgentは6つの金融指標で9つの最先端のベースラインを著しく上回り、利益の平均は36%を超えた。 具体的には、1つのデータセットで92.27%のリターン(84.39%の改善)を達成する。 特にFinAgentは、金融取引タスク用に設計された最初の先進的マルチモーダル・ファンデーションエージェントである。

Financial trading is a crucial component of the markets, informed by a multimodal information landscape encompassing news, prices, and Kline charts, and encompasses diverse tasks such as quantitative trading and high-frequency trading with various assets. While advanced AI techniques like deep learning and reinforcement learning are extensively utilized in finance, their application in financial trading tasks often faces challenges due to inadequate handling of multimodal data and limited generalizability across various tasks. To address these challenges, we present FinAgent, a multimodal foundational agent with tool augmentation for financial trading. FinAgent's market intelligence module processes a diverse range of data-numerical, textual, and visual-to accurately analyze the financial market. Its unique dual-level reflection module not only enables rapid adaptation to market dynamics but also incorporates a diversified memory retrieval system, enhancing the agent's ability to learn from historical data and improve decision-making processes. The agent's emphasis on reasoning for actions fosters trust in its financial decisions. Moreover, FinAgent integrates established trading strategies and expert insights, ensuring that its trading approaches are both data-driven and rooted in sound financial principles. With comprehensive experiments on 6 financial datasets, including stocks and Crypto, FinAgent significantly outperforms 9 state-of-the-art baselines in terms of 6 financial metrics with over 36% average improvement on profit. Specifically, a 92.27% return (a 84.39% relative improvement) is achieved on one dataset. Notably, FinAgent is the first advanced multimodal foundation agent designed for financial trading tasks.
翻訳日:2024-03-01 17:25:02 公開日:2024-02-29
# 大規模視覚言語モデルのための画像推論と記述の認知的評価ベンチマーク

A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models ( http://arxiv.org/abs/2402.18409v2 )

ライセンス: Link先を確認
Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen(参考訳) 近年の成功にもかかわらず、LVLM(Large Vision Language Models)は認知能力について包括的にテストされることはほとんどない。 人間の認知テストにおける「Cookie Theft」タスクの利用に着想を得て,リッチなセマンティクスを持つ画像を用いてLVLMの高レベル認知能力を評価するための評価ベンチマークを提案する。 8つの推論能力を定義し、画像記述タスクと視覚的質問応答タスクで構成される。 LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。

Large Vision Language Models (LVLMs), despite their recent success, are hardly comprehensively tested for their cognitive abilities. Inspired by the prevalent use of the "Cookie Theft" task in human cognition test, we propose a novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs using images with rich semantics. It defines eight reasoning capabilities and consists of an image description task and a visual question answering task. Our evaluation on well-known LVLMs shows that there is still a large gap in cognitive ability between LVLMs and humans.
翻訳日:2024-03-01 17:24:31 公開日:2024-02-29
# 文法誤り訂正の有効性の評価 : 日本語文脈における人的評価アプローチ

Assessing the Efficacy of Grammar Error Correction: A Human Evaluation Approach in the Japanese Context ( http://arxiv.org/abs/2402.18101v2 )

ライセンス: Link先を確認
Qiao Wang and Zheng Yuan(参考訳) 本研究では,日本の大学生の筆記サンプルを用いて,最先端のタギング文法誤り検出・訂正モデル(SeqTagger)の性能評価を行った。 errantという自動アノテーションツールキットを用いて,ヒューマンエキスパートをベンチマークとして,エラー訂正におけるseqtaggerのパフォーマンスを最初に評価した。 次に、人間の注釈付きアプローチを用いて、書き込みデータセットのサブセットを使用して誤り検出におけるSeqtaggerのパフォーマンスを評価する。 その結果、全データセットにおける誤り訂正の精度は63.66%、リコールは20.19%であった。 セマンティクスやメカニカルなエラーのような無関係なエラーを手動で排除した後、モデルは97.98%の精度を調整し、エラー検出のために42.98%のリコールを調整した。 モデルで検出されなかった誤りの理論的解析により、決定者や記事、特に後者が主流であることが判明した。 特に、文脈に依存しないエラーの観点では、モデルは時々基本的なエラーを見落とし、過度に誤った構造や複雑な構造を持つ問題に直面した。 一方、文脈依存の誤り、特に時制や名詞数に関する誤りや、学生の第一言語(l1)に影響される可能性のある誤りは、特に困難であった。

In this study, we evaluated the performance of the state-of-the-art sequence tagging grammar error detection and correction model (SeqTagger) using Japanese university students' writing samples. With an automatic annotation toolkit, ERRANT, we first evaluated SeqTagger's performance on error correction with human expert correction as the benchmark. Then a human-annotated approach was adopted to evaluate Seqtagger's performance in error detection using a subset of the writing dataset. Results indicated a precision of 63.66% and a recall of 20.19% for error correction in the full dataset. For the subset, after manual exclusion of irrelevant errors such as semantic and mechanical ones, the model shows an adjusted precision of 97.98% and an adjusted recall of 42.98% for error detection, indicating the model's high accuracy but also its conservativeness. Thematic analysis on errors undetected by the model revealed that determiners and articles, especially the latter, were predominant. Specifically, in terms of context-independent errors, the model occasionally overlooked basic ones and faced challenges with overly erroneous or complex structures. Meanwhile, context-dependent errors, notably those related to tense and noun number, as well as those possibly influenced by the students' first language (L1), remained particularly challenging.
翻訳日:2024-03-01 17:24:19 公開日:2024-02-29
# 医学的疑問への回答と説明に関する大規模言語モデルのベンチマーク

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions ( http://arxiv.org/abs/2402.18060v2 )

ライセンス: Link先を確認
Hanjie Chen, Zhouxiang Fang, Yash Singla, Mark Dredze(参考訳) LLMは、医療免許試験の合格点などの医学的問題に答える上で、素晴らしいパフォーマンスを示している。 しかし、医療委員会試験質問や一般臨床質問は、現実的な臨床症例の複雑さを捉えていない。 また、参考説明の欠如は、複雑な医療判断を行う際に医師を支援する重要な要素であるモデル決定の推論を、容易に評価できないことを意味する。 これらの課題に対処するため、JAMA Clinical ChallengeとMedbulletsという2つの新しいデータセットを構築した。 jama clinical challengeは挑戦的な臨床症例に基づく質問から成り、medbulletsはusmle step 2&3スタイルの臨床質問からなる。 どちらのデータセットも、専門家が記述した説明を伴う複数の質問回答タスクとして構成されている。 異なるプロンプトを用いて2つのデータセット上で4つのLSMを評価する。 実験では、データセットが以前のベンチマークよりも難しいことが示されています。 モデル生成説明の自動評価と人的評価の矛盾は、説明可能な医療QAに関する将来の研究を支援するために、新しいメトリクスを開発する必要性を浮き彫りにする。

LLMs have demonstrated impressive performance in answering medical questions, such as passing scores on medical licensing examinations. However, medical board exam questions or general clinical questions do not capture the complexity of realistic clinical cases. Moreover, the lack of reference explanations means we cannot easily evaluate the reasoning of model decisions, a crucial component of supporting doctors in making complex medical decisions. To address these challenges, we construct two new datasets: JAMA Clinical Challenge and Medbullets. JAMA Clinical Challenge consists of questions based on challenging clinical cases, while Medbullets comprises USMLE Step 2&3 style clinical questions. Both datasets are structured as multiple-choice question-answering tasks, where each question is accompanied by an expert-written explanation. We evaluate four LLMs on the two datasets using various prompts. Experiments demonstrate that our datasets are harder than previous benchmarks. The inconsistency between automatic and human evaluations of model-generated explanations highlights the need to develop new metrics to support future research on explainable medical QA.
翻訳日:2024-03-01 17:23:56 公開日:2024-02-29
# QN-Mixer:Sparse-View CT再構成のための準ニュートンMLP-Mixerモデル

QN-Mixer: A Quasi-Newton MLP-Mixer Model for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2402.17951v2 )

ライセンス: Link先を確認
Ishak Ayad, Nicolas Larue, Ma\"i K. Nguyen(参考訳) 逆問題は様々な分野にまたがる。 医学的な文脈では、ctは患者の内部構造を再構築する上で重要な役割を担っており、本質的に不適切な逆問題に起因するアーティファクトによる課題を呈している。 これまでの研究では、ポストプロセッシングとディープアンロールアルゴリズムによる画質向上が、超疎データによるコンバージェンス時間の延長などの課題に直面している。 拡張にもかかわらず、結果として得られる画像は、しばしば重要なアーティファクトを示し、現実世界の診断アプリケーションでの有効性を制限する。 画像逆問題を解くための深い2次アンロールアルゴリズムを探索し,その収束速度と時間の複雑さを,勾配降下のような一般的な一階法と比較して強調する。 本稿では,準ニュートン法に基づくアルゴリズムであるqn-mixerを提案する。 BFGSアルゴリズムを通じて学習パラメータを使用し、非局所正規化用語として機能し、画像内の長距離依存関係をキャプチャする効率的なニューラルネットワークであるIncept-Mixerを導入する。 完全ヘッセン行列計算を必要とする準ニュートンアルゴリズムに典型的に関連する計算要求に対処するため,メモリ効率の代替案を提案する。 本手法は,勾配情報をインテリジェントにサンプリングし,性能を維持しつつ計算要求を大幅に削減する。 このアプローチは、さまざまなデータセットや走査プロトコルを含むスパースビューCT問題の実験を通じて検証され、後処理や最先端のアプローチと比較される。 提案手法は既存の手法より優れ,SSIMとPSNRの両面において最先端の性能を実現し,必要なアンロールイテレーションの回数を削減した。

Inverse problems span across diverse fields. In medical contexts, computed tomography (CT) plays a crucial role in reconstructing a patient's internal structure, presenting challenges due to artifacts caused by inherently ill-posed inverse problems. Previous research advanced image quality via post-processing and deep unrolling algorithms but faces challenges, such as extended convergence times with ultra-sparse data. Despite enhancements, resulting images often show significant artifacts, limiting their effectiveness for real-world diagnostic applications. We aim to explore deep second-order unrolling algorithms for solving imaging inverse problems, emphasizing their faster convergence and lower time complexity compared to common first-order methods like gradient descent. In this paper, we introduce QN-Mixer, an algorithm based on the quasi-Newton approach. We use learned parameters through the BFGS algorithm and introduce Incept-Mixer, an efficient neural architecture that serves as a non-local regularization term, capturing long-range dependencies within images. To address the computational demands typically associated with quasi-Newton algorithms that require full Hessian matrix computations, we present a memory-efficient alternative. Our approach intelligently downsamples gradient information, significantly reducing computational requirements while maintaining performance. The approach is validated through experiments on the sparse-view CT problem, involving various datasets and scanning protocols, and is compared with post-processing and deep unrolling state-of-the-art approaches. Our method outperforms existing approaches and achieves state-of-the-art performance in terms of SSIM and PSNR, all while reducing the number of unrolling iterations required.
翻訳日:2024-03-01 17:23:39 公開日:2024-02-29
# 非対数凹分布のゼロ次サンプリング法:拡散による転移性軽減

Zeroth-Order Sampling Methods for Non-Log-Concave Distributions: Alleviating Metastability by Denoising Diffusion ( http://arxiv.org/abs/2402.17886v2 )

ライセンス: Link先を確認
Ye He, Kevin Rojas, Molei Tao(参考訳) 本稿では,非正規化密度の問合せに基づいて,非logconcave分布からのサンプリング問題を考察する。 最初に、一般化モンテカルロ推定器によって近似されたスコア関数を持つ消音拡散過程のシミュレーションに基づいて、拡散モンテカルロ(dmc)という枠組みを記述する。 dmcはoracleベースのメタアルゴリズムであり、oracleはモンテカルロスコア推定器を生成するサンプルへのアクセスを想定している。 次に、このオラクルの実装を拒絶サンプリングに基づいて提供し、DMCをZOD-MC(Zeroth-Order Diffusion Monte Carlo)と呼ばれる真のアルゴリズムに変換する。 対象分布が対数凸である、あるいは任意の等長不等式を満たすと仮定することなく、まず汎用フレームワーク、すなわちdmcの性能保証を構築することにより収束解析を行う。 そして、ZOD-MCが所望のサンプリング精度に逆多項式依存があることを証明した。 その結果、低次元分布では、ZOD-MCは非常に効率的なサンプリング装置であり、RDMCやRS-DMCを含む最新のサンプリング器よりも性能が高い。 最後に,ZOD-MCの非凸電位におけるモード間や不連続性に対する感受性を実験的に実証した。

This paper considers the problem of sampling from non-logconcave distribution, based on queries of its unnormalized density. It first describes a framework, Diffusion Monte Carlo (DMC), based on the simulation of a denoising diffusion process with its score function approximated by a generic Monte Carlo estimator. DMC is an oracle-based meta-algorithm, where its oracle is the assumed access to samples that generate a Monte Carlo score estimator. Then we provide an implementation of this oracle, based on rejection sampling, and this turns DMC into a true algorithm, termed Zeroth-Order Diffusion Monte Carlo (ZOD-MC). We provide convergence analyses by first constructing a general framework, i.e. a performance guarantee for DMC, without assuming the target distribution to be log-concave or satisfying any isoperimetric inequality. Then we prove that ZOD-MC admits an inverse polynomial dependence on the desired sampling accuracy, albeit still suffering from the curse of dimensionality. Consequently, for low dimensional distributions, ZOD-MC is a very efficient sampler, with performance exceeding latest samplers, including also-denoising-diffusion-based RDMC and RS-DMC. Last, we experimentally demonstrate the insensitivity of ZOD-MC to increasingly higher barriers between modes or discontinuity in non-convex potential.
翻訳日:2024-03-01 17:23:09 公開日:2024-02-29
# 選択的エントロピー蒸留によるロバストで効率的な雲縁弾性モデル適応

Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation ( http://arxiv.org/abs/2402.17316v2 )

ライセンス: Link先を確認
Yaofo Chen, Shuaicheng Niu, Shoukai Xu, Hengjie Song, Yaowei Wang, Mingkui Tan(参考訳) 従来のディープラーニングパラダイムでは、しばしば、サーバー上でディープモデルをトレーニングし、モデルまたは蒸留したモデルをリソース制限エッジデバイスにデプロイする。 通常、モデルは、サーバ側とエッジ側の両方に対するモデル適応の潜在的高コストのために、一度(少なくとも一定期間)デプロイしても固定され続けなければならない。 しかし、多くの実世界のシナリオでは、テスト環境は動的に変化し(分散シフトと呼ばれる)、しばしば性能が低下する。 したがって、エッジモデルに迅速に適応して、有望なパフォーマンスを達成する必要がある。 さらに、エッジで収集されるデータの増加に伴い、このパラダイムは、パフォーマンス向上のためにクラウドモデルをさらに適応することができない。 これらに対処するために、私たちは2つの大きな課題に遭遇します。 1)エッジモデルは計算能力が限られており,前方伝播のみをサポートすることができる。 2) クラウドとエッジデバイス間のデータ転送予算は遅延に敏感なシナリオで制限される。 本稿では,クラウド-エッジ弾性モデル適応(CEMA)パラダイムを構築し,エッジモデルが前方伝播のみを実行し,エッジモデルをオンラインで適用可能にする。 CEMAでは、通信負担を軽減するため、不要なサンプルをクラウドにアップロードすること、すなわち動的で信頼性の低いサンプルを除外することの2つの基準を考案した。 アップロードしたサンプルに基づいて,より強力な基礎モデルから試料再生戦略を用いてエッジモデルに蒸留することにより,正規化層のアフィンパラメータを更新,分散する。 ImageNet-C と ImageNet-R の大規模な実験結果により,CEMA の有効性が検証された。

The conventional deep learning paradigm often involves training a deep model on a server and then deploying the model or its distilled ones to resource-limited edge devices. Usually, the models shall remain fixed once deployed (at least for some period) due to the potential high cost of model adaptation for both the server and edge sides. However, in many real-world scenarios, the test environments may change dynamically (known as distribution shifts), which often results in degraded performance. Thus, one has to adapt the edge models promptly to attain promising performance. Moreover, with the increasing data collected at the edge, this paradigm also fails to further adapt the cloud model for better performance. To address these, we encounter two primary challenges: 1) the edge model has limited computation power and may only support forward propagation; 2) the data transmission budget between cloud and edge devices is limited in latency-sensitive scenarios. In this paper, we establish a Cloud-Edge Elastic Model Adaptation (CEMA) paradigm in which the edge models only need to perform forward propagation and the edge models can be adapted online. In our CEMA, to reduce the communication burden, we devise two criteria to exclude unnecessary samples from uploading to the cloud, i.e., dynamic unreliable and low-informative sample exclusion. Based on the uploaded samples, we update and distribute the affine parameters of normalization layers by distilling from the stronger foundation model to the edge model with a sample replay strategy. Extensive experimental results on ImageNet-C and ImageNet-R verify the effectiveness of our CEMA.
翻訳日:2024-03-01 17:22:43 公開日:2024-02-29
# 多回転航空機ローカライゼーションのためのアクティブ推進ノイズシェーピング

Active propulsion noise shaping for multi-rotor aircraft localization ( http://arxiv.org/abs/2402.17289v2 )

ライセンス: Link先を確認
Gabriele Serussi, Tamir Shor, Tom Hirshberg, Chaim Baskin, Alex Bronstein(参考訳) マルチローターの自律走行車(MAV)は主にナビゲーション目的のビジョンに依存している。 しかし、視覚的局在化とオドメトリー技術は、低い日光や直射日光、視野の制限、閉塞に対する脆弱性に悩まされている。 音響センシングは多くの状況において視覚の補完的あるいは代替的モダリティとして機能し、特にマイクロ航空機にとって重要なシステムコストとエネルギーフットプリントの利点も備えている。 本稿では,ロータが発する航空機の推進騒音を,有害なニュアンスではなく,局部化作業のために積極的に制御・成形することを提案する。 既知の環境における自己雑音に基づくローカライゼーションのためのニューラルネットワークアーキテクチャを提案する。 学習時間変動ロータ位相変調と同時にトレーニングすることで,高精度でロバストな局所化を実現することを示す。 提案手法は,回転子圧力場の実記録に適合する2次元音響環境におけるmavロータ雑音の計算可能なシミュレーションを用いて評価する。

Multi-rotor aerial autonomous vehicles (MAVs) primarily rely on vision for navigation purposes. However, visual localization and odometry techniques suffer from poor performance in low or direct sunlight, a limited field of view, and vulnerability to occlusions. Acoustic sensing can serve as a complementary or even alternative modality for vision in many situations, and it also has the added benefits of lower system cost and energy footprint, which is especially important for micro aircraft. This paper proposes actively controlling and shaping the aircraft propulsion noise generated by the rotors to benefit localization tasks, rather than considering it a harmful nuisance. We present a neural network architecture for selfnoise-based localization in a known environment. We show that training it simultaneously with learning time-varying rotor phase modulation achieves accurate and robust localization. The proposed methods are evaluated using a computationally affordable simulation of MAV rotor noise in 2D acoustic environments that is fitted to real recordings of rotor pressure fields.
翻訳日:2024-03-01 17:22:19 公開日:2024-02-29
# MISC:大規模マルチモーダルモデルによる超低ビットレート画像セマンティック圧縮

MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model ( http://arxiv.org/abs/2402.16749v2 )

ライセンス: Link先を確認
Chunyi Li, Guo Lu, Donghui Feng, Haoning Wu, Zicheng Zhang, Xiaohong Liu, Guangtao Zhai, Weisi Lin, Wenjun Zhang(参考訳) ストレージと通信プロトコルの進化に伴い、超低ビットレート画像圧縮が要求されるトピックとなっている。 しかし、既存の圧縮アルゴリズムは、地上の真実との整合性を犠牲にするか、超低ビットレートでの知覚品質を犠牲にしなければならない。 近年,LMM(Large Multimodal Model)の急速な発展により,これらの2つの目標のバランスが図られている。 本稿では、画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、上記の情報に基づいて画像を再構成するデコーダとからなる、マルチモーダル画像セマンティック圧縮(MISC)と呼ばれる手法を提案する。 実験の結果,提案したMISCは,従来の自然感画像(NSI)とAIGI(AIGI)コンテンツの両方を圧縮するのに適していることがわかった。 50%のビットレートを節約しながら、最適な一貫性と知覚結果を達成することができる。 コードはhttps://github.com/lcysyzxdxc/MISCでリリースされる。

With the evolution of storage and communication protocols, ultra-low bitrate image compression has become a highly demanding topic. However, existing compression algorithms must sacrifice either consistency with the ground truth or perceptual quality at ultra-low bitrate. In recent years, the rapid development of the Large Multimodal Model (LMM) has made it possible to balance these two goals. To solve this problem, this paper proposes a method called Multimodal Image Semantic Compression (MISC), which consists of an LMM encoder for extracting the semantic information of the image, a map encoder to locate the region corresponding to the semantic, an image encoder generates an extremely compressed bitstream, and a decoder reconstructs the image based on the above information. Experimental results show that our proposed MISC is suitable for compressing both traditional Natural Sense Images (NSIs) and emerging AI-Generated Images (AIGIs) content. It can achieve optimal consistency and perception results while saving 50% bitrate, which has strong potential applications in the next generation of storage and communication. The code will be released on https://github.com/lcysyzxdxc/MISC.
翻訳日:2024-03-01 17:22:00 公開日:2024-02-29
# LLM推論が明らかに:サーベイとルーフラインモデル

LLM Inference Unveiled: Survey and Roofline Model Insights ( http://arxiv.org/abs/2402.16363v3 )

ライセンス: Link先を確認
Zhihang Yuan, Yuzhang Shang, Yang Zhou, Zhen Dong, Chenhao Xue, Bingzhe Wu, Zhikai Li, Qingyi Gu, Yong Jae Lee, Yan Yan, Beidi Chen, Guangyu Sun, Kurt Keutzer(参考訳) 効率的な大規模言語モデル(llm)推論の分野は急速に進化しており、機会と課題のユニークなブレンドを示している。 フィールドは拡張され、活気があるが、このドメインを明確に理解するために、LLM推論の様々なメソッドを分析する簡潔なフレームワークは存在していない。 本調査は,研究の現状を要約するだけでなく,LLM推論手法の系統解析のための屋上モデルに基づく枠組みを導入することで,従来の文献レビューから際立っている。 このフレームワークは、LLMをハードウェアデバイスにデプロイする際のボトルネックを特定し、LCMがメモリバウンドである理由、必要なメモリと計算量、適切なハードウェアを選択する方法など、実用的な問題を明確に理解する。 我々は、効率的なllm推論における最新の進歩を体系的に調整し、モデル圧縮(例えば、知識の蒸留と量子化)、アルゴリズムの改善(例えば、アーリーエグジットとミキシング・オブ・エキスパート)、ハードウェアとシステムレベルの強化といった重要な領域をカバーする。 本調査では,これらの手法を屋上モデルで解析し,メモリアクセスと計算への影響を明らかにする。 この独特なアプローチは、現在の研究状況を示すだけでなく、我々の研究をこの分野に新たに参入した研究者や、効率的なLLMデプロイメントの理解を深めようとする研究者にとって欠かせない資源として位置づける、実践的な実践のための貴重な洞察を提供する。 アナリティクスツールのLLM-Viewerがオープンソース化された。

The field of efficient Large Language Model (LLM) inference is rapidly evolving, presenting a unique blend of opportunities and challenges. Although the field has expanded and is vibrant, there hasn't been a concise framework that analyzes the various methods of LLM Inference to provide a clear understanding of this domain. Our survey stands out from traditional literature reviews by not only summarizing the current state of research but also by introducing a framework based on roofline model for systematic analysis of LLM inference techniques. This framework identifies the bottlenecks when deploying LLMs on hardware devices and provides a clear understanding of practical problems, such as why LLMs are memory-bound, how much memory and computation they need, and how to choose the right hardware. We systematically collate the latest advancements in efficient LLM inference, covering crucial areas such as model compression (e.g., Knowledge Distillation and Quantization), algorithm improvements (e.g., Early Exit and Mixture-of-Expert), and both hardware and system-level enhancements. Our survey stands out by analyzing these methods with roofline model, helping us understand their impact on memory access and computation. This distinctive approach not only showcases the current research landscape but also delivers valuable insights for practical implementation, positioning our work as an indispensable resource for researchers new to the field as well as for those seeking to deepen their understanding of efficient LLM deployment. The analyze tool, LLM-Viewer, is open-sourced.
翻訳日:2024-03-01 17:21:39 公開日:2024-02-29
# BLO-SAM: SAMのオーバーフィッティングによる最適化

BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM ( http://arxiv.org/abs/2402.16338v2 )

ライセンス: Link先を確認
Li Zhang, Youwei Liang, Ruiyi Zhang, Pengtao Xie(参考訳) 数百万の画像とセグメンテーションマスクに事前訓練された基礎モデルであるSegment Anything Model (SAM)は、コンピュータビジョンの基本的なタスクであるセグメンテーションを著しく進歩させた。 その強みにもかかわらず、SAMは2つの大きな課題に直面している。 まず、特定のオブジェクトを自律的にセグメント化するのに苦労する。それは、ユーザーが手動でポイントやバウンディングボックスなどのプロンプトを入力して対象オブジェクトを識別するからだ。 第二に、samは、一般的にドメインイメージで構成されるプリトレーニングデータの分布と、ダウンストリームタスクで使用されるデータとの差があるため、医療画像などの特定の下流タスクに優れているという課題に直面している。 SAMを微調整するこれらの問題に対する現在の解決策は、しばしば過度に適合し、医療画像のような非常に限られたデータを持つシナリオにおいて顕著な問題となる。 これらの制限を克服するため,二段階最適化(BLO)に基づいてSAMを微調整するBLO-SAMを導入する。 提案手法では,手動のプロンプトを必要とせず,学習可能なプロンプト埋め込みを最適化することにより,自動画像セグメンテーションを可能にする。 さらに、モデルの重みパラメータをトレーニングし、トレーニングデータセットの2つの別々のサブセットにプロンプトを埋め込むことで、オーバーフィッティングのリスクを大幅に低減する。 BLO-SAMを一般分野および医療分野における多様なセマンティックセグメンテーションタスクに適用する。 その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。

The Segment Anything Model (SAM), a foundation model pretrained on millions of images and segmentation masks, has significantly advanced semantic segmentation, a fundamental task in computer vision. Despite its strengths, SAM encounters two major challenges. Firstly, it struggles with segmenting specific objects autonomously, as it relies on users to manually input prompts like points or bounding boxes to identify targeted objects. Secondly, SAM faces challenges in excelling at specific downstream tasks, like medical imaging, due to a disparity between the distribution of its pretraining data, which predominantly consists of general-domain images, and the data used in downstream tasks. Current solutions to these problems, which involve finetuning SAM, often lead to overfitting, a notable issue in scenarios with very limited data, like in medical imaging. To overcome these limitations, we introduce BLO-SAM, which finetunes SAM based on bi-level optimization (BLO). Our approach allows for automatic image segmentation without the need for manual prompts, by optimizing a learnable prompt embedding. Furthermore, it significantly reduces the risk of overfitting by training the model's weight parameters and the prompt embedding on two separate subsets of the training dataset, each at a different level of optimization. We apply BLO-SAM to diverse semantic segmentation tasks in general and medical domains. The results demonstrate BLO-SAM's superior performance over various state-of-the-art image semantic segmentation methods.
翻訳日:2024-03-01 17:21:09 公開日:2024-02-29
# 最大平均不一致に対するマルチ人口認識最適化による機械生成テキストの検出

Detecting Machine-Generated Texts by Multi-Population Aware Optimization for Maximum Mean Discrepancy ( http://arxiv.org/abs/2402.16041v2 )

ライセンス: Link先を確認
Shuhai Zhang, Yiliao Song, Jiahao Yang, Yuanqing Li, Bo Han, Mingkui Tan(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間のようなテキストを生成する際に顕著な性能を示した。 しかし、機械生成テキスト(MGT)は、盗作問題、誤解を招く情報、幻覚問題などの重大なリスクを負う可能性がある。 したがって、多くの状況においてMGTを検出することが非常に緊急かつ重要である。 残念ながら、MGTと人文テキストを区別することは困難である。なぜなら、両者の分布の相違は、LLMの顕著な性能のため、しばしば非常に微妙であるからである。 本稿では, MMD が分布的不一致を適切に識別できるという意味で, この問題に対処するために, textit{maximum mean discrepancy} (MMD) を利用する。 しかし、MGTs は様々な LLM により \textit{multiple text population} を含む可能性があるため、MDD のばらつきが著しく増大する。 これにより、mmdの2つのサンプル間の差を測定する能力が著しく損なわれる。 そこで本研究では,MDD-MPと呼ばれるMDDの新規な<textit{multi-population}対応最適化手法を提案する。 MMD-MPを用いて段落ベースと文ベース検出の2つの手法を開発した。 各種LLM, \eg, GPT2, ChatGPTの大規模実験により, MMD-MPの優れた検出性能を示した。 ソースコードは \url{https://github.com/ZSHSH98/MMD-MP} で入手できる。

Large language models (LLMs) such as ChatGPT have exhibited remarkable performance in generating human-like texts. However, machine-generated texts (MGTs) may carry critical risks, such as plagiarism issues, misleading information, or hallucination issues. Therefore, it is very urgent and important to detect MGTs in many situations. Unfortunately, it is challenging to distinguish MGTs and human-written texts because the distributional discrepancy between them is often very subtle due to the remarkable performance of LLMs. In this paper, we seek to exploit \textit{maximum mean discrepancy} (MMD) to address this issue in the sense that MMD can well identify distributional discrepancies. However, directly training a detector with MMD using diverse MGTs will incur a significantly increased variance of MMD since MGTs may contain \textit{multiple text populations} due to various LLMs. This will severely impair MMD's ability to measure the difference between two samples. To tackle this, we propose a novel \textit{multi-population} aware optimization method for MMD called MMD-MP, which can \textit{avoid variance increases} and thus improve the stability to measure the distributional discrepancy. Relying on MMD-MP, we develop two methods for paragraph-based and sentence-based detection, respectively. Extensive experiments on various LLMs, \eg, GPT2 and ChatGPT, show superior detection performance of our MMD-MP. The source code is available at \url{https://github.com/ZSHsh98/MMD-MP}.
翻訳日:2024-03-01 17:20:42 公開日:2024-02-29
# センサ故障時の一般化:トークン化+トランスフォーマーでより堅牢な潜在空間を実現する

Generalizability Under Sensor Failure: Tokenization + Transformers Enable More Robust Latent Spaces ( http://arxiv.org/abs/2402.18546v2 )

ライセンス: Link先を確認
Geeling Chau, Yujin An, Ahamed Raffey Iqbal, Soon-Jo Chung, Yisong Yue, Sabera Talukder(参考訳) 神経科学の主要な目標は、一般化する神経データ表現を見つけることである。 この目標は、記録セッション(例えば、環境)、被験者(例えば、様々な神経構造)、センサー(例えば、センサーノイズ)などの変動によって挑戦される。 最近の研究は、セッションや主題間の一般化に対処し始めているが、神経科学実験でよく見られるセンサー障害に対する堅牢性の研究はほとんどない。 これらの一般化可能性次元に対処するために、我々はまず多数のセッション、被験者、センサーで独自の脳波データセットを収集し、次にEEGNet(Lawhern et al., 2018)とTOTEM(Talukder et al., 2024)の2つの時系列モデルを研究します。 EEGNetは広く使われている畳み込みニューラルネットワークであり、TOTEMは離散時系列トークンとトランスフォーマーモデルである。 一般化可能なすべてのケースにおいて、TOTEMがEEGNetを上回ったり、マッチすることがわかった。 最後に、TOTEMの潜在コードブックの分析を通して、トークン化が一般化を可能にすることを観察する。

A major goal in neuroscience is to discover neural data representations that generalize. This goal is challenged by variability along recording sessions (e.g. environment), subjects (e.g. varying neural structures), and sensors (e.g. sensor noise), among others. Recent work has begun to address generalization across sessions and subjects, but few study robustness to sensor failure which is highly prevalent in neuroscience experiments. In order to address these generalizability dimensions we first collect our own electroencephalography dataset with numerous sessions, subjects, and sensors, then study two time series models: EEGNet (Lawhern et al., 2018) and TOTEM (Talukder et al., 2024). EEGNet is a widely used convolutional neural network, while TOTEM is a discrete time series tokenizer and transformer model. We find that TOTEM outperforms or matches EEGNet across all generalizability cases. Finally through analysis of TOTEM's latent codebook we observe that tokenization enables generalization
翻訳日:2024-03-01 17:11:06 公開日:2024-02-29
# 脳にインスパイアされた自律型人工知能

Brain-inspired and Self-based Artificial Intelligence ( http://arxiv.org/abs/2402.18784v1 )

ライセンス: Link先を確認
Yi Zeng, Feifei Zhao, Yuxuan Zhao, Dongcheng Zhao, Enmeng Lu, Qian Zhang, Yuwei Wang, Hui Feng, Zhuoya Zhao, Jihang Wang, Qingqun Kong, Yinqian Sun, Yang Li, Guobin Shen, Bing Han, Yiting Dong, Wenxuan Pan, Xiang He, Aorigele Bao, Jin Wang(参考訳) マシンが人間レベルの知性を達成できるかどうかを評価するチューリングテストは、AIのルーツのひとつだ。 哲学的議論「私はそう思う。だから私はそう思う」で、この論文は、現在のAIが支援している「思考機械」という概念に挑戦する。 現在の人工知能は、一見知的な情報処理であり、自分自身を真に理解したり、主観的に認識したりせず、人間の知性のように世界を理解する。 本稿ではブレインインスパイアされた自己ベース人工知能(BriSe AI)のパラダイムを紹介する。 このBriSe AIパラダイムは、人間レベルのAIモデルとロボットアプリケーションを構築するために、さまざまな認知機能と学習戦略を自己組織化して調整することを目的としている。 具体的には、BriSe AIは、知覚と学習、身体的自己、自律、社会的自己、概念的自己など、実践的な階層的な自己フレームワークをルーツとする、未来のAIを形成する上での自己の重要な役割を強調している。 自己の階層的な枠組みは、自己に基づく環境認識、自己身体モデリング、環境との自律的な相互作用、他者との社会的相互作用とコラボレーション、さらに抽象的な自己理解を強調している。 さらに、多段階の自己と学習の間のポジティブな相互促進と支援により、ブライスaiの情報に対する意識的な理解と複雑な環境への柔軟適応が強化され、ブライスaiを真の人工知能へと推進する原動力となる。

The question "Can machines think?" and the Turing Test to assess whether machines could achieve human-level intelligence is one of the roots of AI. With the philosophical argument "I think, therefore I am", this paper challenge the idea of a "thinking machine" supported by current AIs since there is no sense of self in them. Current artificial intelligence is only seemingly intelligent information processing and does not truly understand or be subjectively aware of oneself and perceive the world with the self as human intelligence does. In this paper, we introduce a Brain-inspired and Self-based Artificial Intelligence (BriSe AI) paradigm. This BriSe AI paradigm is dedicated to coordinating various cognitive functions and learning strategies in a self-organized manner to build human-level AI models and robotic applications. Specifically, BriSe AI emphasizes the crucial role of the Self in shaping the future AI, rooted with a practical hierarchical Self framework, including Perception and Learning, Bodily Self, Autonomous Self, Social Self, and Conceptual Self. The hierarchical framework of the Self highlights self-based environment perception, self-bodily modeling, autonomous interaction with the environment, social interaction and collaboration with others, and even more abstract understanding of the Self. Furthermore, the positive mutual promotion and support among multiple levels of Self, as well as between Self and learning, enhance the BriSe AI's conscious understanding of information and flexible adaptation to complex environments, serving as a driving force propelling BriSe AI towards real Artificial General Intelligence.
翻訳日:2024-03-01 16:35:07 公開日:2024-02-29
# 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習

Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games ( http://arxiv.org/abs/2402.18781v1 )

ライセンス: Link先を確認
Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu(参考訳) 確率的なゲームは、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生し、情報非対称性は意思決定エンティティ(プレイヤー)の課題を示す。 非対称情報確率ゲーム(AISG)の既存の計算手法は、主にオフラインであり、信念階層を避けるためにAISGの特別なクラスをターゲットにしており、平衡からの逸脱に対するオンライン適応性を欠いている。 この制限に対処するため,汎用AISGの学習手法であるConjectural Online Learning (COL)を提案する。 colは予測者-実行者-批判(fac)アーキテクチャとして構成され、隠れた状態に対する一階の信念と、相手の戦略に対する主観的な予測を利用する。 予想された対戦相手に対して、コルはオンラインロールアウトとベイズ学習による予想の解法を用いて、アクター-批判的アプローチで戦略を更新する。 col における予想は、緩和されたベイズ整合性という意味での情報フィードバックと漸近的に一致することが証明される。 その結果得られた経験的戦略プロファイルは、主観性の下での合理性を特徴づける解概念であるバーク・ナッシュ均衡に収束する。 非定常攻撃に対する最先端の強化学習法よりもCOLの方が優れていることを示す侵入応答ユースケースによる実験結果を得た。

Stochastic games arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures, where information asymmetry presents challenges for decision-making entities (players). Existing computational methods for asymmetric information stochastic games (AISG) are primarily offline, targeting special classes of AISGs to avoid belief hierarchies, and lack online adaptability to deviations from equilibrium. To address this limitation, we propose a conjectural online learning (COL), a learning scheme for generic AISGs. COL, structured as a forecaster-actor-critic (FAC) architecture, utilizes first-order beliefs over the hidden states and subjective forecasts of the opponent's strategies. Against the conjectured opponent, COL updates strategies in an actor-critic approach using online rollout and calibrates conjectures through Bayesian learning. We prove that conjecture in COL is asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. The resulting empirical strategy profile converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate COL's superiority over state-of-the-art reinforcement learning methods against nonstationary attacks.
翻訳日:2024-03-01 16:34:39 公開日:2024-02-29
# テキスト・トゥ・3Dによるスコア蒸留サンプリングの定量的評価

A Quantitative Evaluation of Score Distillation Sampling Based Text-to-3D ( http://arxiv.org/abs/2402.18780v1 )

ライセンス: Link先を確認
Xiaohan Fei, Chethan Parameshwara, Jiawei Mo, Xiaolong Li, Ashwin Swaminathan, CJ Taylor, Paolo Favaro, Stefano Soatto(参考訳) テキストプロンプトから3Dコンテンツを生成する生成モデルの開発は、画像生成のための事前学習拡散モデルにスコア蒸留サンプリング(SDS)法を用いることにより、かなりの進歩を遂げている。 しかし、SDS法は、Janus問題、テキストプロンプトと生成された3Dモデルとのミスアライメント、そして3Dモデルの不正確さなど、いくつかのアーティファクトの源でもある。 既存の手法は,限られたサンプルを視覚的に検査することで,これらの成果物の質的評価に大きく依存するが,本研究では,人間の評価によって相互に検証する,より客観的な定量的評価指標を提案し,SDS手法の故障事例の分析を行った。 本研究は,提案した指標の最先端性能を達成し,上記のすべての成果物に対処する,計算効率の良い新しいベースラインモデルを設計することで,この分析の有効性を実証する。

The development of generative models that create 3D content from a text prompt has made considerable strides thanks to the use of the score distillation sampling (SDS) method on pre-trained diffusion models for image generation. However, the SDS method is also the source of several artifacts, such as the Janus problem, the misalignment between the text prompt and the generated 3D model, and 3D model inaccuracies. While existing methods heavily rely on the qualitative assessment of these artifacts through visual inspection of a limited set of samples, in this work we propose more objective quantitative evaluation metrics, which we cross-validate via human ratings, and show analysis of the failure cases of the SDS technique. We demonstrate the effectiveness of this analysis by designing a novel computationally efficient baseline model that achieves state-of-the-art performance on the proposed metrics while addressing all the above-mentioned artifacts.
翻訳日:2024-03-01 16:34:17 公開日:2024-02-29
# X-ResQ:フレキシブル並列性を用いた量子MIMO検出のためのリバースアニーリング

X-ResQ: Reverse Annealing for Quantum MIMO Detection with Flexible Parallelism ( http://arxiv.org/abs/2402.18778v1 )

ライセンス: Link先を確認
Minsung Kim, Abhishek Kumar Singh, Davide Venturelli, John Kaewell, Kyle Jamieson(参考訳) 量子アニーリング(QA)によるMIMO検出は、NextG無線ネットワークにおける新たな研究手法である。 この機会は、大規模なMIMOシステムを有効にし、無線性能を向上させることである。 このアプローチは、QAを活用して、理論上最適だが計算上必要となる計算を高速化し、現在展開されている線形検出器の限界を克服することを目的としている。 本稿では,Reverse Annealing (RA)プロトコルによって一意に実現された量子タスク並列処理を特徴とするQAベースのMIMO検出器である。 従来の設計とは異なり、X-ResQは並列QA検出器に望ましい多くのシステム特性を持ち、より多くのキュービットが割り当てられるにつれて検出性能を効果的に改善した。 完全並列X-ResQは、240キュービットの6レベルの並列処理と220〜220〜2mu$s QA計算時間を用い、他の検定検出器と比較して2.5--5$\times$ゲインを達成し、ほぼ最適スループット(10ビット/s/Hz以上)を4\times6$MIMOで達成した。 より包括的な評価を行うため、非量子ディジタル設定でX-ResQを実装し、評価する。 この量子ではないX-ResQのデモは、超大型の1024\times1024$ MIMOを実現する可能性を示し、最先端のRA検出器を含む他のMIMO検出器よりも大幅に優れている。

Quantum Annealing (QA)-accelerated MIMO detection is an emerging research approach in the context of NextG wireless networks. The opportunity is to enable large MIMO systems and thus improve wireless performance. The approach aims to leverage QA to expedite the computation required for theoretically optimal but computationally-demanding Maximum Likelihood detection to overcome the limitations of the currently deployed linear detectors. This paper presents \textbf{X-ResQ}, a QA-based MIMO detector system featuring fine-grained quantum task parallelism that is uniquely enabled by the Reverse Annealing (RA) protocol. Unlike prior designs, X-ResQ has many desirable system properties for a parallel QA detector and has effectively improved detection performance as more qubits are assigned. In our evaluations on a state-of-the-art quantum annealer, fully parallel X-ResQ achieves near-optimal throughput (over 10 bits/s/Hz) for $4\times6$ MIMO with 16-QAM using six levels of parallelism with 240 qubits and $220~\mu$s QA compute time, achieving 2.5--5$\times$ gains compared against other tested detectors. For more comprehensive evaluations, we implement and evaluate X-ResQ in the non-quantum digital setting. This non-quantum X-ResQ demonstration showcases the potential to realize ultra-large $1024\times1024$ MIMO, significantly outperforming other MIMO detectors, including the state-of-the-art RA detector classically implemented in the same way.
翻訳日:2024-03-01 16:34:00 公開日:2024-02-29
# gdcnet:深層学習によるエコー平面画像データのキャリブレーションレス幾何歪み補正

GDCNet: Calibrationless geometric distortion correction of echo planar imaging data using deep learning ( http://arxiv.org/abs/2402.18777v1 )

ライセンス: Link先を確認
Marina Manso Jimeno, Keren Bachi, George Gardner, Yasmin L. Hurd, John Thomas Vaughan Jr., Sairam Geethanath(参考訳) 機能的磁気共鳴イメージング技術は、エコープラナーイメージングの高速画像取得の恩恵を受けるが、主磁場の不均一性に影響を受け、画像の幾何学的歪みと信号損失アーティファクトが生じる。 従来の手法では、歪み補正のためにフィールドマップやボクセル変位マップを利用する。 しかし、ボクセル変位マップ推定には追加のシーケンス取得が必要であり、その推定精度が補正性能に影響を及ぼす。 この研究はGDCNetと呼ばれる新しいアプローチを実装し、T1重み付き解剖画像への非線形登録により幾何学的歪み写像を推定し、歪み補正に応用する。 GDCNetは、振り返りおよび将来的なデータセットにおける機能画像の高速歪み補正を実証した。 比較モデルのうち,2次元自己監督構成は,FUGUEやTOPUPと比較して,歪み補正機能とT1重み付き画像間の正規化相互情報に対して統計的に有意な改善をもたらした。 さらに、GDCNetモデルは、予測データセットのTOPUPよりも14倍高速な処理速度を達成した。

Functional magnetic resonance imaging techniques benefit from echo-planar imaging's fast image acquisition but are susceptible to inhomogeneities in the main magnetic field, resulting in geometric distortion and signal loss artifacts in the images. Traditional methods leverage a field map or voxel displacement map for distortion correction. However, voxel displacement map estimation requires additional sequence acquisitions, and the accuracy of the estimation influences correction performance. This work implements a novel approach called GDCNet, which estimates a geometric distortion map by non-linear registration to T1-weighted anatomical images and applies it for distortion correction. GDCNet demonstrated fast distortion correction of functional images in retrospectively and prospectively acquired datasets. Among the compared models, the 2D self-supervised configuration resulted in a statistically significant improvement to normalized mutual information between distortion-corrected functional and T1-weighted images compared to the benchmark methods FUGUE and TOPUP. Furthermore, GDCNet models achieved processing speeds 14 times faster than TOPUP in the prospective dataset.
翻訳日:2024-03-01 16:33:26 公開日:2024-02-29
# エネルギーフィルタによるフロケトポロジカル絶縁体の量子化輸送

Achieving quantized transport in Floquet topological insulators via energy filters ( http://arxiv.org/abs/2402.18776v1 )

ライセンス: Link先を確認
Ruoyu Zhang, Frederik Nathan, Netanel H. Lindner and Mark S. Rudner(参考訳) 光子支援輸送過程のため、周期的駆動によって引き起こされるキラルエッジモードは量子化された輸送を直接媒介しない。 本稿では,帯域幅の狭い「エネルギーフィルタ」がフロッケサイドバンドを介した光子支援輸送を抑制することで量子化を回復できることを示す。 フロッケ・ランダウアー型方程式を導出して、そのようなエネルギーフィルター構成による輸送を記述するとともに、フィルタをいかに統合してエネルギー依存的な再正規化系-リードカップリングを生じさせるかを示す。 フィルタ導入時の共振および共振誘起準エネルギーギャップにおいて、ほぼ量子化コンダクタンスが達成できることを解析および数値シミュレーションにより示す。 コンダクタンスは,各高原の適切な量子化値に接近し,システムとフィルタサイズを増加させる。 我々は「フロッケ分布関数」を導入し、狭帯域フィルタを導入したときの平衡フェルミ・ディラック形式に近づき、量子化された輸送を復元する機構を強調した。

Due to photon-assisted transport processes, chiral edge modes induced by periodic driving do not directly mediate quantized transport. Here we show how narrow bandwidth "energy filters" can restore quantization by suppressing photon assisted transport through Floquet sidebands. We derive a Floquet Landauer type equation to describe transport through such an energy-filtered setup, and show how the filter can be integrated out to yield a sharply energy-dependent renormalized system-lead coupling. We show analytically and through numerical simulations that a nearly quantized conductance can be achieved in both off-resonantly and resonantly induced quasienergy gaps when filters are introduced. The conductance approaches the appropriate quantized value on each plateau with increasing system and filter size. We introduce a "Floquet distribution function" and show both analytically and numerically that it approaches the equilibrium Fermi-Dirac form when narrow-band filters are introduced, highlighting the mechanism that restores quantized transport.
翻訳日:2024-03-01 16:33:09 公開日:2024-02-29
# ナルト:不確実な標的観測から神経活動的再構築

NARUTO: Neural Active Reconstruction from Uncertain Target Observations ( http://arxiv.org/abs/2402.18771v1 )

ライセンス: Link先を確認
Ziyue Feng, Huangying Zhan, Zheng Chen, Qingan Yan, Xiangyu Xu, Changjiang Cai, Bing Li, Qilun Zhu, Yi Xu(参考訳) 本研究では,ニューラル表現と不確実性学習を組み合わせた高忠実性表面再構成システムであるnarutoを提案する。 提案手法は,多分解能ハッシュグリッドをマッピングバックボーンとして活用し,その異常収束速度と高周波局所的特徴をキャプチャする能力から,環境を動的に再構築しながら再構成の不確実性を動的に定量化する不確実性学習モジュールを組み込んだものである。 学習した不確実性を利用してゴール探索と効率的な経路計画のための新しい不確実性集約戦略を提案する。 システムは,不確定な観測を目標として自律的に探索し,目覚ましい完全性と忠実度で環境を再構築する。 また,SOTAニューラルSLAMシステムを能動線サンプリング戦略により拡張することにより,この不確実性を考慮したアプローチの有用性を示す。 室内シーンシミュレーターを用いた各種環境におけるNARUTOの広範囲な評価は、ReplicaやMP3Dといったベンチマークデータセットの顕著な結果から、アクティブリビルドにおける優れたパフォーマンスと最先端のステータスを確認している。

We present NARUTO, a neural active reconstruction system that combines a hybrid neural representation with uncertainty learning, enabling high-fidelity surface reconstruction. Our approach leverages a multi-resolution hash-grid as the mapping backbone, chosen for its exceptional convergence speed and capacity to capture high-frequency local features.The centerpiece of our work is the incorporation of an uncertainty learning module that dynamically quantifies reconstruction uncertainty while actively reconstructing the environment. By harnessing learned uncertainty, we propose a novel uncertainty aggregation strategy for goal searching and efficient path planning. Our system autonomously explores by targeting uncertain observations and reconstructs environments with remarkable completeness and fidelity. We also demonstrate the utility of this uncertainty-aware approach by enhancing SOTA neural SLAM systems through an active ray sampling strategy. Extensive evaluations of NARUTO in various environments, using an indoor scene simulator, confirm its superior performance and state-of-the-art status in active reconstruction, as evidenced by its impressive results on benchmark datasets like Replica and MP3D.
翻訳日:2024-03-01 16:32:53 公開日:2024-02-29
# 粒子保存型量子回路ansatzとボソニック系の変分シミュレーションへの応用

Particle-conserving quantum circuit ansatz with applications in variational simulation of bosonic systems ( http://arxiv.org/abs/2402.18768v1 )

ライセンス: Link先を確認
Sina Bahrami, Nicolas Sawaya(参考訳) 制約された問題は古典的および量子最適化においてしばしば発生する。 特に粒子の保存は、化学および固体系のエネルギースペクトルを研究する際に一般的に課される。 フェルミオン(例えば分子電子構造)ハミルトニアンのために粒子数制約技術が開発されているが、ボソニック系や整数変数に対する古典的な最適化問題のように、非二項および非フェルミオン問題には類似技術が欠けている。 ここでは、量子変分アルゴリズムに用いるために、二進符号化多層粒子回路アンサッツ(BEMPA)、すなわち、構成による粒子数を保存するアンサッツを紹介する。 鍵となる洞察は、対称性を保つ2ビットと3ビットのゲートを慎重に配置することで回路ブロックを構築することである。 本稿では,Bose-Hubbard Hamiltonian の変分量子固有解法 (VQE) アルゴリズムを用いて基底状態固有値を求める問題を数値解析する。 mott絶縁体から超流動相までの範囲のモデルパラメータについて,提案する回路ansatzが,ペナルティに基づく戦略手法と比較して,極めて短いランタイム内で基底状態固有値を求めることを実証した。 最後に、最適化ルーチンの最後にqubitエンコーディングを変更することで、潜在的なリソースの利点を分析する。 粒子数が保存されたボゾン問題に対するBEMPAの有効性を実証した。

Constrained problems are frequently encountered in classical and quantum optimization. Particle conservation, in particular, is commonly imposed when studying energy spectra of chemical and solid state systems. Though particle number-constraining techniques have been developed for fermionic (e.g. molecular electronic structure) Hamiltonians, analogous techniques are lacking for non-binary and non-fermionic problems, as in the case of bosonic systems or classical optimization problems over integer variables. Here we introduce the binary encoded multilevel particles circuit ansatz (BEMPA) -- an ansatz which preserves particle count by construction -- for use in quantum variational algorithms. The key insight is to build the circuit blocks by carefully positioning a set of symmetry-preserving 2- and 3-qubit gates. We numerically analyze the problem of finding the ground state eigenvalues -- via the Variational Quantum Eigensolver (VQE) algorithm -- of the Bose-Hubbard Hamiltonian. For a range of model parameters spanning from Mott insulator to superfluid phase, we demonstrate that our proposed circuit ansatz finds the ground state eigenvalues within drastically shorter runtimes compared to penalty-based strategies methods. Finally, we analyze the potential resource benefits of changing the qubit encoding at the end of the optimization routine. Our results attest to the efficacy of BEMPA for simulating bosonic problems for which particle number is preserved.
翻訳日:2024-03-01 16:32:34 公開日:2024-02-29
# Open Decoder Gerv\'asio PT*によるポルトガル語生成AIの強化

Advancing Generative AI for Portuguese with Open Decoder Gerv\'asio PT* ( http://arxiv.org/abs/2402.18766v1 )

ライセンス: Link先を確認
Rodrigo Santos, Jo\~ao Silva, Lu\'is Gomes, Jo\~ao Rodrigues, Ant\'onio Branco(参考訳) 本稿では,ポルトガル語のニューラルデコードを促進するために,トランスフォーマーをベースとした命令調整型デコーダモデルを提案する。 私たちがgerv\'asio pt*と命名したこのデコーダを開発するために、強いllama~2 7bモデルが出発点として使われ、この目的のために準備されたポルトガル語の新しい命令データセットを含む言語リソースに対して、追加のトレーニングによってさらなる改善が行われた。 gerv\'asioのすべてのバージョンはオープンソースであり、研究用または商用用を含むオープンライセンス下で無償で配布されており、消費者レベルのハードウェア上で動作可能であるため、ポルトガル語のための言語技術の研究とイノベーションの進展に貢献したいと考えている。

To advance the neural decoding of Portuguese, in this paper we present a fully open Transformer-based, instruction-tuned decoder model that sets a new state of the art in this respect. To develop this decoder, which we named Gerv\'asio PT*, a strong LLaMA~2 7B model was used as a starting point, and its further improvement through additional training was done over language resources that include new instruction data sets of Portuguese prepared for this purpose, which are also contributed in this paper. All versions of Gerv\'asio are open source and distributed for free under an open license, including for either research or commercial usage, and can be run on consumer-grade hardware, thus seeking to contribute to the advancement of research and innovation in language technology for Portuguese.
翻訳日:2024-03-01 16:32:08 公開日:2024-02-29
# 制限量子制御による雑音量子メトロロジーの限界

Limits of noisy quantum metrology with restricted quantum controls ( http://arxiv.org/abs/2402.18765v1 )

ライセンス: Link先を確認
Sisi Zhou(参考訳) ハイゼンベルク極限 (heisenberg limit, hl) と標準量子極限 (standard quantum limit, sql) は、推定精度のスケーリングを記述した2つの量子メトロロジー極限であり、未知のパラメータ $\theta$ に対して 1 パラメータの量子チャネルの数である $n$ に対して$\delta \hat\theta$ である。 HL ($\Delta \hat\theta \propto 1/n$) は 'HNKS' 条件が満たされたときに量子誤り補正(QEC)戦略を用いて達成可能であることが知られており、HNKS が違反した場合、SQL ($\Delta \hat\theta \propto 1/n^{1/2}$) は最適であり、n$ の繰り返し測定で達成できる。 しかし、そのような制限が、必要となるQEC操作が利用できない制限量子デバイス(例えば、ユニタリ制御しか利用できない有限サイズのデバイスや、ノイズのないアンシラが利用できないようなデバイス)で達成できるかどうかは不明である。 本研究では,1パラメータのキュービットチャネルを制限された制御で異なる設定で推定するための,様々なノイズのあるメソジカル限界を同定する。 HLはこれらのケースでは達成不可能であることが証明され、HLを達成する上でQECの必要性が示唆された。 さらに, キュービットチャネルがSQLを実現するために必要な条件として, ‘rotation-generators-not-in-Kraus-span' (RGNKS) 条件がある。 RGNKSが満たされると、SQLはユニタリ制御と1つの測定だけを使用して達成される。 RGNKSが破られた場合、推定精度(ほとんどの場合)は繰り返し測定が許されない場合に一定のフロアを有する。 メトロロジカルパワーにおけるこの分離の実証は、現在の量子技術の範囲内にある。

The Heisenberg limit (HL) and the standard quantum limit (SQL) are two quantum metrological limits, which describe the scalings of estimation precision $\Delta \hat\theta$ of an unknown parameter $\theta$ with respect to $n$, the number of one-parameter quantum channels applied. It was known that the HL ($\Delta \hat\theta \propto 1/n$) is achievable using quantum error correction (QEC) strategies when the ``Hamiltonian-not-in-Kraus-span'' (HNKS) condition is satisfied; and when HNKS is violated, the SQL ($\Delta \hat\theta \propto 1/n^{1/2}$) is optimal and can be achieved with $n$ repeated measurements. However, it is unknown whether such limits are still achievable using restricted quantum devices where the required QEC operations are not available -- e.g., finite-size devices where only unitary controls are available or where noiseless ancilla is not available. In this work, we identify various new noisy metrological limits for estimating one-parameter qubit channels in different settings with restricted controls. The HL is proven to be unattainable in these cases, indicating the necessity of QEC in achieving the HL. Furthermore, we find a necessary and sufficient condition for qubit channels to attain the SQL, called the ``rotation-generators-not-in-Kraus-span'' (RGNKS) condition. When RGNKS is satisfied, the SQL is achievable using only unitary controls and a single measurement. When RGNKS is violated, the estimation precision (in most cases) has a constant floor when repeated measurements are not allowed. Demonstration of this separation in metrological powers is within reach of current quantum technologies.
翻訳日:2024-03-01 16:31:52 公開日:2024-02-29
# ニューラルネットワークにおける塑性損失の原因の特定

Disentangling the Causes of Plasticity Loss in Neural Networks ( http://arxiv.org/abs/2402.18762v1 )

ライセンス: Link先を確認
Clare Lyle, Zeyu Zheng, Khimya Khetarpal, Hado van Hasselt, Razvan Pascanu, James Martens, Will Dabney(参考訳) ニューラルネットワークの設計、初期化、最適化に関する過去数十年の研究の基盤となるのは、一見無害な仮定である。 この仮定に違反する環境では、例えば、深い強化学習では、学習アルゴリズムはハイパーパラメータやランダムシードに対して不安定で不安定になる。 この不安定性を引き起こす要因の1つは可塑性の喪失であり、トレーニングが進むにつれて、新たな情報に応じてネットワークの予測を更新することが難しくなることを意味する。 近年の多くの研究が、この現象の分析と部分解を提供しているが、根本的な疑問は解決されていない: 塑性損失の既知のメカニズムがどの程度重複しているか、そして、ネットワークのトレーニング性を維持するために緩和戦略を組み合わせるにはどうすればよいか? 本稿では, 可塑性の損失を複数の独立機構に分解できることを示すとともに, 任意の単一機構に干渉しても可塑性の損失を避けるには不十分であるが, 複数の機構を併用することで高い頑健な学習アルゴリズムが得られることを示す。 その結果,多種多様な非定常学習課題において,層正規化と重量減少の組み合わせは可塑性維持に非常に有効であり,さらにアーケード学習環境における強化学習を含む自然発生非定常性に対する効果が示された。

Underpinning the past decades of work on the design, initialization, and optimization of neural networks is a seemingly innocuous assumption: that the network is trained on a \textit{stationary} data distribution. In settings where this assumption is violated, e.g.\ deep reinforcement learning, learning algorithms become unstable and brittle with respect to hyperparameters and even random seeds. One factor driving this instability is the loss of plasticity, meaning that updating the network's predictions in response to new information becomes more difficult as training progresses. While many recent works provide analyses and partial solutions to this phenomenon, a fundamental question remains unanswered: to what extent do known mechanisms of plasticity loss overlap, and how can mitigation strategies be combined to best maintain the trainability of a network? This paper addresses these questions, showing that loss of plasticity can be decomposed into multiple independent mechanisms and that, while intervening on any single mechanism is insufficient to avoid the loss of plasticity in all cases, intervening on multiple mechanisms in conjunction results in highly robust learning algorithms. We show that a combination of layer normalization and weight decay is highly effective at maintaining plasticity in a variety of synthetic nonstationary learning tasks, and further demonstrate its effectiveness on naturally arising nonstationarities, including reinforcement learning in the Arcade Learning Environment.
翻訳日:2024-03-01 16:31:10 公開日:2024-02-29
# 完全スケーラブルかつアクセシブルウェーブレット様画像圧縮のための学習自由度に基づく変換構造の探索

Exploration of Learned Lifting-Based Transform Structures for Fully Scalable and Accessible Wavelet-Like Image Compression ( http://arxiv.org/abs/2402.18761v1 )

ライセンス: Link先を確認
Xinyue Li, Aous Naman and David Taubman(参考訳) 本稿では,完全にスケーラブルでアクセス可能な画像圧縮のコンテキストにおいて,ニューラルネットワークをリフトベースウェーブレット様変換に組み込むためのさまざまな方法の特徴と性能に関する包括的研究を行う。 具体的には,様々な昇降ステップの配置や,学習された昇降演算子のための様々なネットワークアーキテクチャについて検討する。 さらに,学習した昇降ステップ数,チャネル数,レイヤ数,各学習昇降演算子におけるカーネルサポートの影響について検討した。 本研究は,多種多様な揚力構造に同時に適合する2つの総合的な訓練手法について検討する。 実験結果から, ベースウェーブレット変換からの昇降ステップの維持は極めて有益であることが示唆された。 さらに,各学習昇降演算子における学習昇降段数と層数の増加が圧縮性能に大きく寄与しないことを実証する。 しかし、学習した各リフト演算子でより多くのチャネルを利用することで、利点を得ることができる。 本論文で提案する学習ウェーブレット様変換はJPEG 2000と比較して25%以上のビットレートの削減を実現している。

This paper provides a comprehensive study on features and performance of different ways to incorporate neural networks into lifting-based wavelet-like transforms, within the context of fully scalable and accessible image compression. Specifically, we explore different arrangements of lifting steps, as well as various network architectures for learned lifting operators. Moreover, we examine the impact of the number of learned lifting steps, the number of channels, the number of layers and the support of kernels in each learned lifting operator. To facilitate the study, we investigate two generic training methodologies that are simultaneously appropriate to a wide variety of lifting structures considered. Experimental results ultimately suggest that retaining fixed lifting steps from the base wavelet transform is highly beneficial. Moreover, we demonstrate that employing more learned lifting steps and more layers in each learned lifting operator do not contribute strongly to the compression performance. However, benefits can be obtained by utilizing more channels in each learned lifting operator. Ultimately, the learned wavelet-like transform proposed in this paper achieves over 25% bit-rate savings compared to JPEG 2000 with compact spatial support.
翻訳日:2024-03-01 16:30:47 公開日:2024-02-29
# 集合原子-原子間相互作用におけるナノ電気磁気スーパーデファスメント

Nano-Electromagnetic Super-dephasing in Collective Atom-Atom Interactions ( http://arxiv.org/abs/2402.18816v1 )

ライセンス: Link先を確認
Wenbo Sun, Adrian E. Rubio L\'opez, Zubin Jacob(参考訳) 純脱落と自然放出は、変動する電磁(EM)モードと相互作用する原子またはスピンの2つの非単位過程である。 集団自発的放出(例えば超放射)は、原子と共鳴してemモードと相互作用し、かなりの注目を集めている。 一方、類似の集団的否定現象は未だよく分かっていない。 本稿では,材料界面近傍のフォトニック環境で発生するナノエムスーパーデファスメント現象について紹介する。 この効果は,低周波エバネッセンスEM変動における長距離相関の存在により,自由空間やフォトニックキャビティと比較して10桁以上向上することを示した。 我々は, 強磁性体, 金属, 超伝導体近傍におけるナノエム超強調挙動の普遍性と低周波材料特性依存性を明らかにする。 我々は,ナノ-EMスーパーデフォーカスのスケーリングがEMモードの波長に依存しないことを実証し,GHZ状態を含む絡み合った状態のデコヒーレンスを分析することにより,従来のN^2$超輝度のスケーリングと異なることを示した。 最後に、スケーラブルな量子システムのための興味深いフロンティアを開くために、超強調を実験的に分離し、制御する方法を示す。

Pure dephasing and spontaneous emission are two non-unitary processes of atoms or spins interacting with fluctuating electromagnetic (EM) modes. Collective spontaneous emission (e.g., superradiance) originates from interactions with EM modes in resonance with atoms and has received considerable attention. Meanwhile, the analogous collective dephasing phenomena remain poorly understood. Here, we introduce the nano-EM super-dephasing phenomenon arising in the photonic environment near lossy material interfaces. We show that this effect is enhanced by over 10 orders of magnitude compared to free space or photonic cavities due to the presence of long-range correlations in low-frequency evanescent EM fluctuations. We unravel the universality of nano-EM super-dephasing behaviors near ferrimagnets, metals, and superconductors and their dependence on low-frequency material properties. We demonstrate that the scaling of nano-EM super-dephasing is independent of EM modes' wavelengths and differs from the conventional $N^2$ scaling of superradiance by analyzing the decoherence of entangled states, including GHZ states. Finally, we show how to experimentally isolate and control super-dephasing to open interesting frontiers for scalable quantum systems.
翻訳日:2024-03-01 16:26:01 公開日:2024-02-29
# 大規模言語モデルは多言語をどう扱うか?

How do Large Language Models Handle Multilingualism? ( http://arxiv.org/abs/2402.18815v1 )

ライセンス: Link先を確認
Yiran Zhao, Wenxuan Zhang, Guizhen Chen, Kenji Kawaguchi, Lidong Bing(参考訳) 大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMは多言語主義をどのように扱うのか? 最初のいくつかのレイヤでは、llmsが質問を理解し、多言語入力を英語に変換してタスク解決のフェーズを容易にする。 中間層では、LLMは英語で考えることで問題解決に取り組み、多言語知識を取り入れて、それぞれが自己意識とフィードフォワード構造を活用。 最後の数層では、LLMはクエリの本来の言語と一致したレスポンスを生成する。 さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。 入力言語によって活性化されるニューロンをラベル無しに検出するために,多言語入力を扱う際のニューロンの意義を効果的に測定する並列言語特異的ニューロン検出法(\texttt{plnd}$)を革新的に設計する。 異なる層や構造の非活性化ニューロンによる包括的アブレーション解析により、提案する枠組みを検証する。 さらに,このような枠組みを活用して,学習労力をはるかに少なくして,多言語能力を効果的に向上できることを実証する。

Large language models (LLMs) demonstrate remarkable performance across a spectrum of languages. In this work, we delve into the question: How do LLMs handle multilingualism? We introduce a framework that depicts LLMs' processing of multilingual inputs: In the first several layers, LLMs understand the question, converting multilingual inputs into English to facilitate the task-solving phase. In the intermediate layers, LLMs engage in problem-solving by thinking in English and incorporating multilingual knowledge to obtain factual content, leveraging the self-attention and feed-forward structures, respectively. In the last several layers, LLMs generate responses that align with the original language of the query. In addition, we investigate the existence of language-specific neurons when processing a certain language. To detect neurons activated by the input language, even without labels, we innovatively design a Parallel Language specific Neuron Detection ($\texttt{PLND}$) method that effectively measures the significance of neurons when handling multilingual inputs. By comprehensive ablation analysis through deactivating neurons of different layers and structures, we verify the framework that we propose. Additionally, we demonstrate that we can utilize such a framework to effectively enhance the multilingual ability with much less training effort.
翻訳日:2024-03-01 16:25:40 公開日:2024-02-29
# bfrformer:実世界のブラインドフェース修復のためのトランスフォーマティブ・ジェネレータ

BFRFormer: Transformer-based generator for Real-World Blind Face Restoration ( http://arxiv.org/abs/2402.18811v1 )

ライセンス: Link先を確認
Guojing Ge, Qi Song, Guibo Zhu, Yuting Zhang, Jinglu Chen, Miao Xin, Ming Tang, Jinqiao Wang(参考訳) ブラインドフェース修復は未知の複雑な劣化のために難しい課題である。 顔の先行法や参照法は近年,高品質な結果を示しているが,復元された画像には過度に滑らかな結果が含まれており,劣化が深刻である場合には識別保存された詳細が失われる傾向にある。 これは畳み込みニューラルネットワークの本質的な制限である短距離依存によるものと考えられる。 長距離依存をモデル化するために,トランスフォーマーをベースとしたブラインドフェイス復元手法であるBFRFormerを提案する。 BFRFormerでは、ブロッキングアーティファクトを除去するために、ウェーブレット判別器と集約アテンションモジュールを開発し、スペクトル正規化と平衡整合制御をそれぞれ適応的に適用し、トレーニングの不安定性と過度適合問題に対処する。 広範な実験により,本手法は合成データセットと実世界の4つのデータセットにおいて最先端の手法よりも優れていることが示された。 ソースコード、casia-testデータセット、事前トレーニングされたモデルはhttps://github.com/s8znk/bfrformer.com/でリリースされている。

Blind face restoration is a challenging task due to the unknown and complex degradation. Although face prior-based methods and reference-based methods have recently demonstrated high-quality results, the restored images tend to contain over-smoothed results and lose identity-preserved details when the degradation is severe. It is observed that this is attributed to short-range dependencies, the intrinsic limitation of convolutional neural networks. To model long-range dependencies, we propose a Transformer-based blind face restoration method, named BFRFormer, to reconstruct images with more identity-preserved details in an end-to-end manner. In BFRFormer, to remove blocking artifacts, the wavelet discriminator and aggregated attention module are developed, and spectral normalization and balanced consistency regulation are adaptively applied to address the training instability and over-fitting problem, respectively. Extensive experiments show that our method outperforms state-of-the-art methods on a synthetic dataset and four real-world datasets. The source code, Casia-Test dataset, and pre-trained models are released at https://github.com/s8Znk/BFRFormer.
翻訳日:2024-03-01 16:25:19 公開日:2024-02-29
# ボソニックランダムな変位チャネル学習のための絡み合い対応の利点

Entanglement-enabled advantage for learning a bosonic random displacement channel ( http://arxiv.org/abs/2402.18809v1 )

ライセンス: Link先を確認
Changhun Oh, Senrui Chen, Yat Wong, Sisi Zhou, Hsin-Yuan Huang, Jens A.H. Nielsen, Zheng-Hao Liu, Jonas S. Neergaard-Nielsen, Ulrik L. Andersen, Liang Jiang, John Preskill(参考訳) 量子エンタングルメントはボソニック連続変数(cv)システムの学習特性において指数関数的に有利であることを示す。 私たちが検討するタスクは、ランダム変位チャネルと呼ばれる、n$ボソニックモードに作用する変位演算子の確率的混合を推定することである。 我々は、n$モードが補助的な量子メモリと絡んでいない場合、その特性関数を合理的な精度で推定するために、チャネルを数倍指数的にn$でサンプリングしなければならないことを証明している。 一方、簡単な絡み合わせ支援スキームは、十分な量のスクイージングを条件に、$n$に依存しないサンプルを数個だけ必要とします。 これにより、サンプルの複雑さが指数関数的に分離される。 次に、光子損失の影響を分析し、軽度実験条件下では、エンタングルメント支援スキームは、損失のないエンタングルメントフリースキームよりもかなり効率的であることを示す。 本研究は,連続変数システム学習における絡み合いの役割を照らし,CV量子プラットフォームを用いた実現可能な絡み合い対応の実証実験に向けてのものである。

We show that quantum entanglement can provide an exponential advantage in learning properties of a bosonic continuous-variable (CV) system. The task we consider is estimating a probabilistic mixture of displacement operators acting on $n$ bosonic modes, called a random displacement channel. We prove that if the $n$ modes are not entangled with an ancillary quantum memory, then the channel must be sampled a number of times exponential in $n$ in order to estimate its characteristic function to reasonable precision; this lower bound on sample complexity applies even if the channel inputs and measurements performed on channel outputs are chosen adaptively. On the other hand, we present a simple entanglement-assisted scheme that only requires a number of samples independent of $n$, given a sufficient amount of squeezing. This establishes an exponential separation in sample complexity. We then analyze the effect of photon loss and show that the entanglement-assisted scheme is still significantly more efficient than any lossless entanglement-free scheme under mild experimental conditions. Our work illuminates the role of entanglement in learning continuous-variable systems and points toward experimentally feasible demonstrations of provable entanglement-enabled advantage using CV quantum platforms.
翻訳日:2024-03-01 16:24:48 公開日:2024-02-29
# 大規模言語モデルを用いたロールプレイングにおける意思決定能力について

On the Decision-Making Abilities in Role-Playing using Large Language Models ( http://arxiv.org/abs/2402.18807v1 )

ライセンス: Link先を確認
Chenglei Shen and Guofu Xie and Xiao Zhang and Jun Xu(参考訳) 大規模言語モデル(llm)は現在、ロールプレイングタスク、特にドメイン固有の専門家をまねるタスク、主にロールプレイングプロンプトにますます利用されている。 現実世界のシナリオで相互作用する場合、役割の意思決定能力はその行動パターンを著しく形作る。 本稿では,ロールプレイング後のLCMの意思決定能力を評価することに集中し,ロールプレイングの有効性を検証する。 我々のゴールは、ロールプレイングタスクにおけるLCMの意思決定能力を高めるためのメトリクスとガイダンスを提供することです。 具体的には、まずLLMを用いて、人口の区分を表す16種類のMers-Briggs Type Indicator(MBTI)に対応する仮想的な役割記述を生成する。 次に,ロールプレイング後のllmsの意思決定能力を評価するための具体的な定量的操作を,適応性,探索$\&$爆発トレードオフ能力,推論能力,安全性という4つの側面から設計する。 最後に,意思決定性能と対応するMBTIタイプとの関係をGPT-4を用いて解析する。 総合的な実験は、異なる役割における意思決定能力の4つの側面に安定した相違を示し、LCMによってエミュレートされた意思決定能力と役割との堅牢な相関を示す。 これらの結果から, LLMは, 本来の社会学的特徴を具現化しつつ, 様々な役割を効果的に体現できることが示唆された。

Large language models (LLMs) are now increasingly utilized for role-playing tasks, especially in impersonating domain-specific experts, primarily through role-playing prompts. When interacting in real-world scenarios, the decision-making abilities of a role significantly shape its behavioral patterns. In this paper, we concentrate on evaluating the decision-making abilities of LLMs post role-playing thereby validating the efficacy of role-playing. Our goal is to provide metrics and guidance for enhancing the decision-making abilities of LLMs in role-playing tasks. Specifically, we first use LLMs to generate virtual role descriptions corresponding to the 16 personality types of Myers-Briggs Type Indicator (abbreviated as MBTI) representing a segmentation of the population. Then we design specific quantitative operations to evaluate the decision-making abilities of LLMs post role-playing from four aspects: adaptability, exploration$\&$exploitation trade-off ability, reasoning ability, and safety. Finally, we analyze the association between the performance of decision-making and the corresponding MBTI types through GPT-4. Extensive experiments demonstrate stable differences in the four aspects of decision-making abilities across distinct roles, signifying a robust correlation between decision-making abilities and the roles emulated by LLMs. These results underscore that LLMs can effectively impersonate varied roles while embodying their genuine sociological characteristics.
翻訳日:2024-03-01 16:24:27 公開日:2024-02-29
# VEC-SBM:ベクターエッジ共変量を用いた最適コミュニティ検出

VEC-SBM: Optimal Community Detection with Vectorial Edges Covariates ( http://arxiv.org/abs/2402.18805v1 )

ライセンス: Link先を確認
Guillaume Braun and Masashi Sugiyama(参考訳) ソーシャルネットワークは、しばしばテキストや画像などのリッチなサイド情報と関連付けられている。 相互の相互作用からコミュニティを識別する多くの手法が開発されているが、通常はそのような側面情報を無視している。 本研究では, ベクトルエッジを共変する確率ブロックモデル (VEC-SBM) と, ベクトルエッジを共変する確率ブロックモデル (SBM) の拡張について検討する。 本研究では,反復的改良手法に基づく新しいアルゴリズムを提案し,vec-sbm下で潜在コミュニティを最適に回復することを示す。 さらに,コミュニティ検出プロセスにおいて,エッジ側情報を活用する付加価値を厳格に評価する。 合成および半合成データに関する数値実験により理論的結果を補完する。

Social networks are often associated with rich side information, such as texts and images. While numerous methods have been developed to identify communities from pairwise interactions, they usually ignore such side information. In this work, we study an extension of the Stochastic Block Model (SBM), a widely used statistical framework for community detection, that integrates vectorial edges covariates: the Vectorial Edges Covariates Stochastic Block Model (VEC-SBM). We propose a novel algorithm based on iterative refinement techniques and show that it optimally recovers the latent communities under the VEC-SBM. Furthermore, we rigorously assess the added value of leveraging edge's side information in the community detection process. We complement our theoretical results with numerical experiments on synthetic and semi-synthetic data.
翻訳日:2024-03-01 16:24:01 公開日:2024-02-29
# プールにしないか:共有モデルにおけるグループフェアトレーニングの正規化効果の分析

To Pool or Not To Pool: Analyzing the Regularizing Effects of Group-Fair Training on Shared Models ( http://arxiv.org/abs/2402.18803v1 )

ライセンス: Link先を確認
Cyrus Cousins, I. Elizabeth Kumar, Suresh Venkatasubramanian(参考訳) 公平な機械学習では、グループ間のパフォーマンス格差の1つの源は、比較的少ないトレーニングサンプルを持つグループへの過剰フィットである。 多数群のサンプルサイズが大きいことの恩恵を受ける福祉中心の公正機械学習の一般化誤差に群特異的な境界を導出する。 私たちは、適切な学習目標(例えば、パワー平均)に関してうまく機能する可能性のあるモデル群を含む制限付き仮説クラス上で、グループ固有のラデマッハ平均を考えることによって、これを行う。 シミュレーションにより,これらの境界は,理論上予想されるようなナイーブな方法よりも改善され,より小さな群サイズでは特に顕著に改善されることが示された。

In fair machine learning, one source of performance disparities between groups is over-fitting to groups with relatively few training samples. We derive group-specific bounds on the generalization error of welfare-centric fair machine learning that benefit from the larger sample size of the majority group. We do this by considering group-specific Rademacher averages over a restricted hypothesis class, which contains the family of models likely to perform well with respect to a fair learning objective (e.g., a power-mean). Our simulations demonstrate these bounds improve over a naive method, as expected by theory, with particularly significant improvement for smaller group sizes.
翻訳日:2024-03-01 16:23:47 公開日:2024-02-29
# 重畳モノリシックキャビティによる狭帯域帯帯偏光結合光子源

Narrowband telecom band polarization-entangled photon source by superposed monolithic cavities ( http://arxiv.org/abs/2402.18802v1 )

ライセンス: Link先を確認
Ming-Yuan Gao, Yin-Hai Li, Yan Li, Zhenghe Zhou, Guang-Can Guo, Zhi-Yuan Zhou and Bao-Sen Shi(参考訳) 光ファイバの長距離伝送における周波数分散を回避し、通信帯域量子メモリと効率よく結合させるため、通信帯域における高品質な狭帯域偏光絡み源が好ましい。 本稿では,ビーム変位子に基づく受動安定干渉計における2つの不定形非線形結晶空洞から単一長方モード光子対の重ね合わせに基づく狭帯域,通信帯域,偏光エンタングル光子対生成について報告する。 キャビティから生成された光子対は、偶然の一致率20000に高い一致を示し、帯域幅は500mhz以下である。 2光子偏光干渉、ベル不等式、および量子状態トモグラフィは、絡み合った光源の高品質を示すために行われる。 現在の構成は、量子通信用途に期待できる従来の自由空間キャビティ強化偏光絡み状態発生よりも大きな安定性を示す。

A high-quality narrowband polarization-entangled source in the telecom band is preferred to avoid frequency dispersion for long-distance transmission in optical fibers and to efficiently couple with telecom band quantum memories. Here, we report narrowband, telecom-band, polarization-entangled photon pair generation based on the superposition of single-longitudinal-mode photon pairs from two monolithic nonlinear crystal cavities in a passively stable interferometer based on beam displacers. The photon pairs generated from the cavities exhibit a high coincidence to accidental coincidence ratio of 20000 and a bandwidth below 500 MHz. Two-photon polarization interference, Bell-inequality, and quantum state tomography are performed to indicate the high quality of the entangled source. The current configuration demonstrates greater stability than traditional free space cavity-enhanced polarization-entangled state generation, which is promising for quantum communication applications.
翻訳日:2024-03-01 16:23:32 公開日:2024-02-29
# BlockEcho:Block-Wiseミスデータに対する長距離依存性を維持する

BlockEcho: Retaining Long-Range Dependencies for Imputing Block-Wise Missing Data ( http://arxiv.org/abs/2402.18800v1 )

ライセンス: Link先を確認
Qiao Han, Mingqian Li, Yao Yang and Yiteng Zhai(参考訳) ブロック単位で欠落したデータは、実世界のデータインプテーションタスクにおいて大きな課題となる。 散乱したデータと比較すると、ブロックワイドギャップはその後の分析および機械学習タスクに悪影響を及ぼし、局所的な近傍要素の欠如は補間能力と予測能力を大幅に低下させる。 しかし、この問題には十分な注意が払われていない。 多くのSOTA行列補完法は、主に予測のために隣接する要素を過度に頼っているため、効果が低かった。 そこで我々は,この問題を体系的に解析し,より包括的ソリューションのための新しい行列補完法 ``BlockEcho" を提案する。 この方法は、GAN(Generative Adversarial Networks)にマトリックス因子分解(MF)を創造的に統合し、元の行列における長距離要素間関係を明示的に保持する。 さらに,ganの判別器を付加し,生成器の中間進行と事前学習したmf結果を比較し,高次特徴分布を制約する。 次に、3つのドメインにわたる公開データセット上でBlockEchoを評価する。 従来のSOTA法とSOTA法は,ブロック単位の欠落データ,特に高い欠落率で高い性能を示した。 また、欠落率の高い散逸データにもメリットがある。 また,ブロックデータ不足に対するMFとGANの融合の最適性と収束性を理論的に正当化する上でも寄与する。

Block-wise missing data poses significant challenges in real-world data imputation tasks. Compared to scattered missing data, block-wise gaps exacerbate adverse effects on subsequent analytic and machine learning tasks, as the lack of local neighboring elements significantly reduces the interpolation capability and predictive power. However, this issue has not received adequate attention. Most SOTA matrix completion methods appeared less effective, primarily due to overreliance on neighboring elements for predictions. We systematically analyze the issue and propose a novel matrix completion method ``BlockEcho" for a more comprehensive solution. This method creatively integrates Matrix Factorization (MF) within Generative Adversarial Networks (GAN) to explicitly retain long-distance inter-element relationships in the original matrix. Besides, we incorporate an additional discriminator for GAN, comparing the generator's intermediate progress with pre-trained MF results to constrain high-order feature distributions. Subsequently, we evaluate BlockEcho on public datasets across three domains. Results demonstrate superior performance over both traditional and SOTA methods when imputing block-wise missing data, especially at higher missing rates. The advantage also holds for scattered missing data at high missing rates. We also contribute on the analyses in providing theoretical justification on the optimality and convergence of fusing MF and GAN for missing block data.
翻訳日:2024-03-01 16:23:16 公開日:2024-02-29
# ARTiST:拡張現実におけるタスクガイダンスのためのテキストの簡易化

ARTiST: Automated Text Simplification for Task Guidance in Augmented Reality ( http://arxiv.org/abs/2402.18797v1 )

ライセンス: Link先を確認
Guande Wu, Jing Qian, Sonia Castelo, Shaoyu Chen, Joao Rulff, Claudio Silva(参考訳) 拡張現実で提示されたテキストは、ユーザーに対してその場でリアルタイム情報を提供する。 しかし、このコンテンツは、特にヘッドマウントディスプレイ上でarタスクを認知的に要求する場合、素早く理解することが難しい可能性がある。 本稿では,arのためのテキスト長と意味コンテンツの最適化のために,数ショットプロンプトモデルとgpt-3モデルを用いたテキスト簡易化システムであるartistを提案する。 7名のユーザと3名のエキスパートを含むフォーマティブな研究から開発されたこのシステムは、カスタマイズされたエラーキャリブレーションモデルと、数発のプロンプトを組み合わせることで、構文的、語彙的、詳細的、およびコンテンツ単純化技術を統合し、ヘッドワーンディスプレイ用の簡易arテキストを生成する。 16ユーザを対象にした実証実験の結果,ARTiSTは認知負荷を軽減し,従来の手法で修正した未修正テキストとテキストの両方よりも性能を向上することがわかった。 我々の研究は、拡張現実における可読性と性能のためのバッチテキストデータの最適化を自動化するためのステップを構成する。

Text presented in augmented reality provides in-situ, real-time information for users. However, this content can be challenging to apprehend quickly when engaging in cognitively demanding AR tasks, especially when it is presented on a head-mounted display. We propose ARTiST, an automatic text simplification system that uses a few-shot prompt and GPT-3 models to specifically optimize the text length and semantic content for augmented reality. Developed out of a formative study that included seven users and three experts, our system combines a customized error calibration model with a few-shot prompt to integrate the syntactic, lexical, elaborative, and content simplification techniques, and generate simplified AR text for head-worn displays. Results from a 16-user empirical study showed that ARTiST lightens the cognitive load and improves performance significantly over both unmodified text and text modified via traditional methods. Our work constitutes a step towards automating the optimization of batch text data for readability and performance in augmented reality.
翻訳日:2024-03-01 16:22:54 公開日:2024-02-29
# mpat: テキスト逆攻撃に対する堅牢なディープニューラルネットワークの構築

MPAT: Building Robust Deep Neural Networks against Textual Adversarial Attacks ( http://arxiv.org/abs/2402.18792v1 )

ライセンス: Link先を確認
Fangyuan Zhang, Huichi Zhou, Shuangjiao Li, Hongtao Wang(参考訳) ディープニューラルネットワークは敵の例に弱いことが証明されており、自然言語処理タスクに対する敵の攻撃を防御する様々な方法が提案されている。 しかし、従来の防御方法は、元のタスクのパフォーマンスを確保しつつ、効果的な防御を維持するための制限がある。 本稿では,テキスト攻撃に対して頑健な深層ニューラルネットワークを構築するための,悪意のある摂動に基づく敵訓練手法(mpat)を提案する。 具体的には、モデルのトレーニングに元の入力の代わりに悪質な摂動を伴う敵の例を生成するために、多レベル悪質な例生成戦略を構築する。 また、新たな訓練目標関数を用いて、元のタスクにおける性能を損なうことなく、防衛目標を達成する。 3つのベンチマークデータセット上で5つの犠牲者モデルを攻撃し,防衛手法を評価するための総合的な実験を行った。 以上の結果から,本手法は従来の防御手法と比較して悪質な敵攻撃に対して有効でありながら,元のタスクの性能を維持・改善することが示唆された。

Deep neural networks have been proven to be vulnerable to adversarial examples and various methods have been proposed to defend against adversarial attacks for natural language processing tasks. However, previous defense methods have limitations in maintaining effective defense while ensuring the performance of the original task. In this paper, we propose a malicious perturbation based adversarial training method (MPAT) for building robust deep neural networks against textual adversarial attacks. Specifically, we construct a multi-level malicious example generation strategy to generate adversarial examples with malicious perturbations, which are used instead of original inputs for model training. Additionally, we employ a novel training objective function to ensure achieving the defense goal without compromising the performance on the original task. We conduct comprehensive experiments to evaluate our defense method by attacking five victim models on three benchmark datasets. The result demonstrates that our method is more effective against malicious adversarial attacks compared with previous defense methods while maintaining or further improving the performance on the original task.
翻訳日:2024-03-01 16:22:34 公開日:2024-02-29
# 非負振幅をもつ無絡量子証明のパワー

The Power of Unentangled Quantum Proofs with Non-negative Amplitudes ( http://arxiv.org/abs/2402.18790v1 )

ライセンス: Link先を確認
Fernando Granha Jeronimo and Pei Wu(参考訳) 量子絡み合いは量子力学の基本的な性質であり、量子計算と情報において重要な役割を果たす。 計算複雑性のレンズによる絡み合いを、複数の非絡み合い量子証明を持つクラスNPの量子一般化、いわゆるQMA(2)とその変種を考慮して検討する。 QMA(2) の複雑さは長年の開問題であり、自明な境界 QMA $\subseteq$ QMA(2) $\subseteq$ NEXP のみが知られている。 本研究では、非負の振幅を持つ非絡み合った量子証明のパワー、すなわち $\text{QMA}^+(2)$ を表わすクラスについて研究する。 この設定では、対数サイズの量子証明と、yesとnoインスタンスの区別において一定の確率ギャップを持つ問題に対する証明検証プロトコルを設計することができる。 特に,小集合拡張,ユニークなゲーム,PCP検証のためのグローバルプロトコルを設計する。 その結果、定数ギャップを持つNP $\subseteq \text{QMA}^+_{\log}(2)$を得る。 新しい定数ギャップにより、この結果が $\text{QMA}^+(2)$ となり、 NEXP の PCP のより強い明示性特性を確立することにより、フル特徴づけ $\text{QMA}^+(2)$=NEXP が得られる。 これらのプロトコルの重要な新しさの1つは、一定ギャップを与える大域的かつコヒーレントな方法での量子証明の操作である。 以前のプロトコル(一般的な振幅でのみ使用可能)は局所的に小さなギャップを持つか、量子証明を多項式的に多くの証明を必要とする古典的確率分布として扱うかのいずれかであり、qma(2) 上の非自明な境界を含まない。 最後に、qma(2) が$\text{qma}^+(2)$ に等しいことを示す。 特に、$\text{qma}^+(2)$ がギャップ増幅を許すなら、qma(2)=nexp である。

Quantum entanglement is a fundamental property of quantum mechanics and plays a crucial role in quantum computation and information. We study entanglement via the lens of computational complexity by considering quantum generalizations of the class NP with multiple unentangled quantum proofs, the so-called QMA(2) and its variants. The complexity of QMA(2) is a longstanding open problem, and only the trivial bounds QMA $\subseteq$ QMA(2) $\subseteq$ NEXP are known. In this work, we study the power of unentangled quantum proofs with non-negative amplitudes, a class which we denote $\text{QMA}^+(2)$. In this setting, we are able to design proof verification protocols for problems both using logarithmic size quantum proofs and having a constant probability gap in distinguishing yes from no instances. In particular, we design global protocols for small set expansion, unique games, and PCP verification. As a consequence, we obtain NP $\subseteq \text{QMA}^+_{\log}(2)$ with a constant gap. By virtue of the new constant gap, we are able to ``scale up'' this result to $\text{QMA}^+(2)$, obtaining the full characterization $\text{QMA}^+(2)$=NEXP by establishing stronger explicitness properties of the PCP for NEXP. One key novelty of these protocols is the manipulation of quantum proofs in a global and coherent way yielding constant gaps. Previous protocols (only available for general amplitudes) are either local having vanishingly small gaps or treat the quantum proofs as classical probability distributions requiring polynomially many proofs thereby not implying non-trivial bounds on QMA(2). Finally, we show that QMA(2) is equal to $\text{QMA}^+(2)$ provided the gap of the latter is a sufficiently large constant. In particular, if $\text{QMA}^+(2)$ admits gap amplification, then QMA(2)=NEXP.
翻訳日:2024-03-01 16:22:17 公開日:2024-02-29
# flexllm: 大きな言語モデル推論とパラメータ効率の良い微調整を共用するシステム

FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning ( http://arxiv.org/abs/2402.18789v1 )

ライセンス: Link先を確認
Xupeng Miao, Gabriele Oliaro, Xinhao Cheng, Mengdi Wu, Colin Unger, Zhihao Jia(参考訳) パラメータ効率ファインタニング(PEFT)は、大規模言語モデルを様々なタスクに適応させる手法として広く用いられている。 サービスプロバイダは通常、ユーザがPEFTモデルの微調整と推論タスクを実行するために別々のシステムを作成する。 これは、既存のシステムが推論とpeftの微調整要求の混合を含むワークロードを処理できないためである。 その結果、共有GPUリソースは未使用となり、非効率になる。 この問題を解決するため、flexllmは推論とパラメーター効率の良い微調整要求を同じイテレーションで処理できる最初のシステムである。 本システムは,これら2つのタスクの相補的な性質を活用し,共有GPUリソースを用いて協調動作を行う。 これを実現するためにflexllmは新しいトークンレベルの微調整機構を導入し、シーケンスの微調整をより小さなトークンレベルの計算に分解し、2つの静的コンパイル最適化である依存並列化とグラフプラニングを使用して、メモリのオーバーヘッドと待ち時間を最小化する。 既存のシステムと比較して、flexllmのco-servingアプローチは、アクティベーションgpuメモリのオーバヘッドを最大8倍削減し、エンドツーエンドのgpuメモリの微調整要件を最大36%削減するとともに、推論レイテンシの低減と微調整スループットの向上を実現している。 例えば、重い推論のワークロードの下では、flexllmはピークの微調整のスループットの80%以上を維持できるが、既存のシステムは微調整で何の進歩もできない。 FlexLLMのソースコードはhttps://github.com/flexflow/FlexFlowで公開されている。

Parameter-efficient finetuning (PEFT) is a widely used technique to adapt large language models for different tasks. Service providers typically create separate systems for users to perform PEFT model finetuning and inference tasks. This is because existing systems cannot handle workloads that include a mix of inference and PEFT finetuning requests. As a result, shared GPU resources are underutilized, leading to inefficiencies. To address this problem, we present FlexLLM, the first system that can serve inference and parameter-efficient finetuning requests in the same iteration. Our system leverages the complementary nature of these two tasks and utilizes shared GPU resources to run them jointly, using a method called co-serving. To achieve this, FlexLLM introduces a novel token-level finetuning mechanism, which breaks down the finetuning computation of a sequence into smaller token-level computations and uses dependent parallelization and graph pruning, two static compilation optimizations, to minimize the memory overhead and latency for co-serving. Compared to existing systems, FlexLLM's co-serving approach reduces the activation GPU memory overhead by up to 8x, and the end-to-end GPU memory requirement of finetuning by up to 36% while maintaining a low inference latency and improving finetuning throughput. For example, under a heavy inference workload, FlexLLM can still preserve more than 80% of the peak finetuning throughput, whereas existing systems cannot make any progress with finetuning. The source code of FlexLLM is publicly available at https://github.com/flexflow/FlexFlow.
翻訳日:2024-03-01 16:21:37 公開日:2024-02-29
# 敵防衛のための混在型ネットワークの「免疫」の強化

Enhancing the "Immunity" of Mixture-of-Experts Networks for Adversarial Defense ( http://arxiv.org/abs/2402.18787v1 )

ライセンス: Link先を確認
Qiao Han, yong huang, xinling Guo, Yiteng Zhai, Yu Qin and Yao Yang(参考訳) 近年の研究では、DNNを騙して誤った予測をすることができる敵対的な例に対するディープニューラルネットワーク(DNN)の脆弱性が明らかにされている。 そこで本研究では,Mixture-of-Experts (MoE) アーキテクチャを改良した「Immunity (Innovative MoE with MUtual Information \& positioN Stability)」と呼ばれる新たな敵防衛手法を提案する。 標準moeのキーとなる拡張は2つある。 1) ランダムスイッチゲート(RSG)の統合は,1回のトレーニング後にRSGが決定されたにもかかわらず,評価時にRSGパラメータをランダムに置換することで,多様なネットワーク構造を得る。 2) エキスパートネットワークの多様性と因果性を高めるために, grad-camの説明力を活用することにより, 革新的相互情報(mi)と位置安定に基づく損失関数を考案する。 特にMIに基づく損失はヒートマップ上で直接動作するため、理論的には同じタイプの損失と比較して分類性能に微妙な悪影響を及ぼす。 広範な評価は、幅広い攻撃に対する敵のロバスト性を改善するための提案手法の有効性を検証する。

Recent studies have revealed the vulnerability of Deep Neural Networks (DNNs) to adversarial examples, which can easily fool DNNs into making incorrect predictions. To mitigate this deficiency, we propose a novel adversarial defense method called "Immunity" (Innovative MoE with MUtual information \& positioN stabilITY) based on a modified Mixture-of-Experts (MoE) architecture in this work. The key enhancements to the standard MoE are two-fold: 1) integrating of Random Switch Gates (RSGs) to obtain diverse network structures via random permutation of RSG parameters at evaluation time, despite of RSGs being determined after one-time training; 2) devising innovative Mutual Information (MI)-based and Position Stability-based loss functions by capitalizing on Grad-CAM's explanatory power to increase the diversity and the causality of expert networks. Notably, our MI-based loss operates directly on the heatmaps, thereby inducing subtler negative impacts on the classification performance when compared to other losses of the same type, theoretically. Extensive evaluation validates the efficacy of the proposed approach in improving adversarial robustness against a wide range of attacks.
翻訳日:2024-03-01 16:21:09 公開日:2024-02-29
# opticaldr: プライバシー保護型抑うつ認識のための深部光学イメージングモデル

OpticalDR: A Deep Optical Imaging Model for Privacy-Protective Depression Recognition ( http://arxiv.org/abs/2402.18786v1 )

ライセンス: Link先を確認
Yuchen Pan, Junjun Jiang, Kui Jiang, Zhihao Wu, Keyuan Yu, Xianming Liu(参考訳) 抑うつ認識(DR)は特にプライバシーをめぐる懸念が高まる中で大きな課題となる。 従来のDR技術の自動診断は、顔画像の使用を必要とし、間違いなく患者のアイデンティティー機能を公開する。 患者顔画像の不適切な開示に伴う潜在的なリスクを軽減するため,我々は疾患関連の特徴を維持しつつ,捕獲した顔画像の識別情報を消去する新しい画像システムを構築した。 正確なDRに必要な本質的な疾患の特徴を保ちながら、アイデンティティ情報の回復には不可逆的であり、より具体的には、次のDRタスクと連動して最適化された学習可能なレンズにより、識別不能な顔画像(可能な限りその特徴を推定する)をエンドツーエンドに記録しようとする。 これらの戦略は、我々の最後の光深度認識ネットワーク(OpticalDR)を形成する。 CelebA、AVEC 2013、AVEC 2014データセットの実験によると、私たちのOptoDRは、一般的な顔認識モデルでは平均0.51のAUCで最先端のプライバシ保護性能を達成し、AVEC 2014ではMAE/RMSEが7.53/8.48、AVEC 2014では7.89/8.82の競合結果を達成した。

Depression Recognition (DR) poses a considerable challenge, especially in the context of the growing concerns surrounding privacy. Traditional automatic diagnosis of DR technology necessitates the use of facial images, undoubtedly expose the patient identity features and poses privacy risks. In order to mitigate the potential risks associated with the inappropriate disclosure of patient facial images, we design a new imaging system to erase the identity information of captured facial images while retain disease-relevant features. It is irreversible for identity information recovery while preserving essential disease-related characteristics necessary for accurate DR. More specifically, we try to record a de-identified facial image (erasing the identifiable features as much as possible) by a learnable lens, which is optimized in conjunction with the following DR task as well as a range of face analysis related auxiliary tasks in an end-to-end manner. These aforementioned strategies form our final Optical deep Depression Recognition network (OpticalDR). Experiments on CelebA, AVEC 2013, and AVEC 2014 datasets demonstrate that our OpticalDR has achieved state-of-the-art privacy protection performance with an average AUC of 0.51 on popular facial recognition models, and competitive results for DR with MAE/RMSE of 7.53/8.48 on AVEC 2013 and 7.89/8.82 on AVEC 2014, respectively.
翻訳日:2024-03-01 16:20:46 公開日:2024-02-29
# 人間の3次元姿勢推定とメッシュ回復のための深層学習:サーベイ

Deep Learning for 3D Human Pose Estimation and Mesh Recovery: A Survey ( http://arxiv.org/abs/2402.18844v1 )

ライセンス: Link先を確認
Yang Liu, Changzhen Qiu, Zhiyong Zhang(参考訳) 3D人間のポーズ推定とメッシュ回復は、コンピュータビジョン、自律運転、ロボット工学など、多くの分野で広く研究されている。 人間の3次元ポーズ推定とメッシュ回復の深層学習が最近発展し、この分野のさまざまな問題に対処する多くの方法が提案されている。 本稿では,今後の研究を奨励するために,200以上の参考文献を掘り下げることで,過去5年間の深層学習手法の進歩を包括的に概観する。 我々の知る限り、この調査は、一人称と複数人称の両方のアプローチと、明示的なモデルと暗黙的な表現に基づく手法を含む、人間のポーズ推定のためのディープラーニング手法を包括的にカバーした初めてのものである。 また、いくつかの公開データセットに比較結果を提示し、洞察に富んだ観察と将来の研究方向性を示唆する。 定期的に更新されたプロジェクトページはhttps://github.com/liuyangme/SOTA-3DHPE-HMRで見ることができる。

3D human pose estimation and mesh recovery have attracted widespread research interest in many areas, such as computer vision, autonomous driving, and robotics. Deep learning on 3D human pose estimation and mesh recovery has recently thrived, with numerous methods proposed to address different problems in this area. In this paper, to stimulate future research, we present a comprehensive review of recent progress over the past five years in deep learning methods for this area by delving into over 200 references. To the best of our knowledge, this survey is arguably the first to comprehensively cover deep learning methods for 3D human pose estimation, including both single-person and multi-person approaches, as well as human mesh recovery, encompassing methods based on explicit models and implicit representations. We also present comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions. A regularly updated project page can be found at https://github.com/liuyangme/SOTA-3DHPE-HMR.
翻訳日:2024-03-01 16:14:33 公開日:2024-02-29
# viewfusion:interpolated denoisingによるマルチビュー一貫性の実現

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising ( http://arxiv.org/abs/2402.18842v1 )

ライセンス: Link先を確認
Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel(参考訳) 拡散モデルによる新しいビュー合成は、多彩で高品質な画像を生成する顕著な可能性を示している。 しかし,これらの手法における画像生成の独立したプロセスは,複数視点の一貫性を維持する上での課題に繋がる。 そこで本研究では,既存の拡散モデルにシームレスに統合可能な,新しいトレーニングフリーなアルゴリズムであるviewfusionを提案する。 提案手法では,従来のビューをコンテキストとして暗黙的に活用する自動回帰手法を採用し,新規ビュー生成プロセスにおける堅牢なマルチビュー整合性を確保する。 補間デノベーションにより既知のビュー情報を融合する拡散プロセスを通じて、我々は、単一ビュー条件付きモデルを拡張して、追加の微調整なしで複数ビュー条件設定で動作させることに成功した。 広範にわたる実験結果は、一貫した詳細な新しいビューを生成するためのViewFusionの有効性を示している。

Novel-view synthesis through diffusion models has demonstrated remarkable potential for generating diverse and high-quality images. Yet, the independent process of image generation in these prevailing methods leads to challenges in maintaining multiple-view consistency. To address this, we introduce ViewFusion, a novel, training-free algorithm that can be seamlessly integrated into existing pre-trained diffusion models. Our approach adopts an auto-regressive method that implicitly leverages previously generated views as context for the next view generation, ensuring robust multi-view consistency during the novel-view generation process. Through a diffusion process that fuses known-view information via interpolated denoising, our framework successfully extends single-view conditioned models to work in multiple-view conditional settings without any additional fine-tuning. Extensive experimental results demonstrate the effectiveness of ViewFusion in generating consistent and detailed novel views.
翻訳日:2024-03-01 16:14:16 公開日:2024-02-29
# 拡張フローマッチング:一般化連続性方程式を用いた条件付き生成法

Extended Flow Matching: a Method of Conditional Generation with Generalized Continuity Equation ( http://arxiv.org/abs/2402.18839v1 )

ライセンス: Link先を確認
Noboru Isobe, Masanori Koyama, Kohei Hayashi and Kenji Fukumizu(参考訳) 条件生成の課題は生成モデルの最も重要な応用の1つであり、指導に基づく分類器フリーな手法が先導する、祝福された拡散モデルに基づく多くの手法が開発されている。 しかし、誘導法の理論は「誘導強度」を微調整するだけでなく、目標ベクトル場が必ずしも訓練で使用する条件分布に対応しているとは限らない。 本稿では,現在の拡散法候補であるフローマッチングに基づく条件生成の理論を考案する。 確率経路を経路空間上の分布として解釈することで、フローマッチングにおける連続性方程式の代わりに一般化連続性方程式の数学的枠組みを用いて、流れに基づく条件分布の生成の新しい理論を確立する。 この理論は、ベクトル場とは対照的に行列場に一致することを目的とする手法を自然に導出する。 本フレームワークは,条件分布間の流れの存在を通じて生成した条件分布の連続性を保証する。 我々は実験と数学的結果を通して理論を提示する。

The task of conditional generation is one of the most important applications of generative models, and numerous methods have been developed to date based on the celebrated diffusion models, with the guidance-based classifier-free method taking the lead. However, the theory of the guidance-based method not only requires the user to fine-tune the "guidance strength," but its target vector field does not necessarily correspond to the conditional distribution used in training. In this paper, we develop the theory of conditional generation based on Flow Matching, a current strong contender of diffusion methods. Motivated by the interpretation of a probability path as a distribution on path space, we establish a novel theory of flow-based generation of conditional distribution by employing the mathematical framework of generalized continuity equation instead of the continuity equation in flow matching. This theory naturally derives a method that aims to match the matrix field as opposed to the vector field. Our framework ensures the continuity of the generated conditional distribution through the existence of flow between conditional distributions. We will present our theory through experiments and mathematical results.
翻訳日:2024-03-01 16:14:02 公開日:2024-02-29
# 単語の順序はいつ重要でいつでないのですか。

When does word order matter and when doesn't it? ( http://arxiv.org/abs/2402.18838v1 )

ライセンス: Link先を確認
Xuanda Chen and Timothy O'Donnell and Siva Reddy(参考訳) 言語モデル(LM)は、自然言語理解(NLU)タスクの語順変化に敏感に見える。 本稿では,この現象を言語的冗長性によって説明し,単語順やケースマーカーなどの言語的手がかりが重複し,冗長な情報が得られることを示す。 我々の仮説では、順序が冗長な情報を提供する場合、モデルは単語順に不感度を示し、その不感度の程度はタスクによって異なる。 我々は,非スクランブル文とスクランブル文の相互情報(MI)を用いて,情報的単語順序の定量化を行う。 結果より, 単語の順序が低くなるほど, モデルの予測の一貫性が増すと, 文のスクランブルがなくなることが示唆された。 SST-2のようなタスクでは、PMI(Pointwise-MI)が変更されても、LMの予測は元のタスクとほぼ常に一致しているのに対し、RTEのような他のタスクでは、PMIが低くなると、一貫性はほぼランダムである。

Language models (LMs) may appear insensitive to word order changes in natural language understanding (NLU) tasks. In this paper, we propose that linguistic redundancy can explain this phenomenon, whereby word order and other linguistic cues such as case markers provide overlapping and thus redundant information. Our hypothesis is that models exhibit insensitivity to word order when the order provides redundant information, and the degree of insensitivity varies across tasks. We quantify how informative word order is using mutual information (MI) between unscrambled and scrambled sentences. Our results show the effect that the less informative word order is, the more consistent the model's predictions are between unscrambled and scrambled sentences. We also find that the effect varies across tasks: for some tasks, like SST-2, LMs' prediction is almost always consistent with the original one even if the Pointwise-MI (PMI) changes, while for others, like RTE, the consistency is near random when the PMI gets lower, i.e., word order is really important.
翻訳日:2024-03-01 16:13:34 公開日:2024-02-29
# エキスパート観察を活用した強化学習効率向上のためのモデルベースアプローチ

A Model-Based Approach for Improving Reinforcement Learning Efficiency Leveraging Expert Observations ( http://arxiv.org/abs/2402.18836v1 )

ライセンス: Link先を確認
Erhan Can Ozcan, Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis(参考訳) 本稿では,専門家の観察を(専門家の行動に関する明確な情報なしで)深層強化学習環境に組み込んで,サンプル効率を向上させる方法について検討する。 まず, 最大エントロピー強化学習目標と, フォワードダイナミクスモデルを活用した行動クローニング損失を組み合わせた拡張ポリシー損失を定式化する。 そこで我々は,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。 様々な連続制御タスクにおける実験により,提案手法が利用可能な専門家観測を効果的に活用することにより,様々なベンチマークを上回ることを示す。

This paper investigates how to incorporate expert observations (without explicit information on expert actions) into a deep reinforcement learning setting to improve sample efficiency. First, we formulate an augmented policy loss combining a maximum entropy reinforcement learning objective with a behavioral cloning loss that leverages a forward dynamics model. Then, we propose an algorithm that automatically adjusts the weights of each component in the augmented loss function. Experiments on a variety of continuous control tasks demonstrate that the proposed algorithm outperforms various benchmarks by effectively utilizing available expert observations.
翻訳日:2024-03-01 16:13:13 公開日:2024-02-29
# ニュースメディアにおける生成AIの応用と意義

Envisioning the Applications and Implications of Generative AI for News Media ( http://arxiv.org/abs/2402.18835v1 )

ライセンス: Link先を確認
Sachita Nishal and Nicholas Diakopoulos(参考訳) 本稿では,ニュースルームにおけるアルゴリズムによる意思決定支援システムと合成メディアの利用の増加について考察し,ニュース記事のコンセプトから配信に至るまで,レポーターや編集者が様々なタスクをこなすための生成モデルについて考察する。 具体的には, ニュース制作に関連する課題の分類から抽出し, 生成モデルが記者を適切に支援できるか, それらの相互作用の中で保存されなければならない報道的, 倫理的価値, そして, 将来この領域におけるデザイン貢献の帰結について論じる。 我々のエッセイは、異なるタスクやワークフローをサポートするために生成AIシステムを使うことを検討する実践者や研究者に関係している。

This article considers the increasing use of algorithmic decision-support systems and synthetic media in the newsroom, and explores how generative models can help reporters and editors across a range of tasks from the conception of a news story to its distribution. Specifically, we draw from a taxonomy of tasks associated with news production, and discuss where generative models could appropriately support reporters, the journalistic and ethical values that must be preserved within these interactions, and the resulting implications for design contributions in this area in the future. Our essay is relevant to practitioners and researchers as they consider using generative AI systems to support different tasks and workflows.
翻訳日:2024-03-01 16:13:04 公開日:2024-02-29
# 分光データ復調のためのトレーニングセットなし2段階深層学習

Training-set-free two-stage deep learning for Spectroscopic data de-noising ( http://arxiv.org/abs/2402.18830v1 )

ライセンス: Link先を確認
Dongchen Huang. Junde Liu, Tian Qian, and Hongming Weng(参考訳) ノイズ除去は、スペクトル後処理手順における顕著なステップである。 従来の機械学習ベースの手法は高速だが、主に教師付き学習に基づいており、実際の実験的な測定で一般的に高価なトレーニングセットを必要とする。 教師なし学習に基づくアルゴリズムは、収束を達成するために多くのイテレーションを必要とする。 ここでは、このギャップをトレーニングセットのない2段階深層学習手法によって埋める。 従来手法のファジィ固定入力は適応前処理を導入することで改善可能であることを示す。 より高度な最適化手法と組み合わせることで,従来の5倍の高速化を実現することができる。 理論的には, 対応する非凸線形問題の展望を考察し, この問題には一階アルゴリズムが収束するための良性幾何が存在することを示す。

De-noising is a prominent step in the spectra post-processing procedure. Previous machine learning-based methods are fast but mostly based on supervised learning and require a training set that may be typically expensive in real experimental measurements. Unsupervised learning-based algorithms are slow and require many iterations to achieve convergence. Here, we bridge this gap by proposing a training-set-free two-stage deep learning method. We show that the fuzzy fixed input in previous methods can be improved by introducing an adaptive prior. Combined with more advanced optimization techniques, our approach can achieve five times acceleration compared to previous work. Theoretically, we study the landscape of a corresponding non-convex linear problem, and our results indicates that this problem has benign geometry for first-order algorithms to converge.
翻訳日:2024-03-01 16:12:51 公開日:2024-02-29
# 仮想蒸留による誤差緩和影推定

Error mitigated shadow estimation based on virtual distillation ( http://arxiv.org/abs/2402.18829v1 )

ライセンス: Link先を確認
Ruyu Yang, Xiaoming Sun, and Hongyi Zhou(参考訳) シャドウ推定(shadow estimation)は、未知の量子状態の多くの特性を限られた一連の測定値を通して推定する手法である。 本稿では,短期量子デバイスへの応用に適した仮想蒸留に基づく誤差緩和影推定手法を提案する。 提案手法は、キュービットリセット手法を利用して、関連するキュービットオーバーヘッドを低減する。 重要なこととして,本手法は,要求されるキュービット資源が所望の精度とは無関係であることを保証するとともに,指数的測定オーバーヘッドを回避し,実用化の大幅な進歩を図っている。 さらに,本手法はクリフォードとパウリ型の混合影に対応し,様々なシナリオにおいて必要な測定回数を減らすことができる。 また,回路深度と計測オーバーヘッドのトレードオフを定量的に検討した。 数値シミュレーションにより,誤差緩和法の有効性を検証し,近距離量子デバイスにおける影推定のロバスト性向上に有用性を示す。

Shadow estimation is a method for deducing numerous properties of an unknown quantum state through a limited set of measurements, which suffers from noises in quantum devices. In this paper, we introduce an error-mitigated shadow estimation approach based on virtual distillation, tailored for applications in near-term quantum devices. Our methodology leverages the qubit reset technique, thereby reducing the associated qubit overhead. Crucially, our approach ensures that the required qubit resources remain independent of the desired accuracy and avoid an exponential measurement overhead, marking a substantial advancement in practical applications. Furthermore, our technique accommodates a mixed Clifford and Pauli-type shadow, which can result in a reduction in the number of required measurements across various scenarios. We also study the trade-off between circuit depth and measurement overhead quantitatively. Through numerical simulations, we substantiate the efficacy of our error mitigation method, establishing its utility in enhancing the robustness of shadow estimations on near-term quantum devices.
翻訳日:2024-03-01 16:12:40 公開日:2024-02-29
# 機械は人間の心臓を交換できない

The Machine Can't Replace the Human Heart ( http://arxiv.org/abs/2402.18826v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) イノベーションや人間性という、メンタルヘルスケアの真の心臓は何でしょうか? 仮想療法は、癒しが起こる深い人間の結合を再現できるだろうか? 人工知能と没入型技術がアクセスを拡大することを約束する一方で、安全対策は、提供者の知恵によって導かれる補助的なツールを維持する必要がある。 実装にはニュアンスバランスの効率と共感が必要です。 もし倫理的リスクを意識すれば、AIはタスクの自動化によって人類を回復し、提供者に聴く時間を与えるかもしれない。 しかし、厳格な座席を複製するアルゴリズムは存在しない。 私たちは自問しなくてはならない: その核となる未来は何か? AIが協調的に果たす役割は何か? あるいは、進歩の追求が脆弱性をどこに残すのか? この注釈書は、この深く人間的な職業の核心に、医療の代替不可能な人間の本質を維持しながら、テクノロジーを慎重に統合するバランスのとれたアプローチを論じている。 究極的には、イノベーションと人類を一緒に育てることで、これまで想像もできなかった新しい共感の高みに到達できるかもしれない。

What is the true heart of mental healthcare -- innovation or humanity? Can virtual therapy ever replicate the profound human bonds where healing arises? As artificial intelligence and immersive technologies promise expanded access, safeguards must ensure technologies remain supplementary tools guided by providers' wisdom. Implementation requires nuance balancing efficiency and empathy. If conscious of ethical risks, perhaps AI could restore humanity by automating tasks, giving providers more time to listen. Yet no algorithm can replicate the seat of dignity within. We must ask ourselves: What future has people at its core? One where AI thoughtfully plays a collaborative role? Or where pursuit of progress leaves vulnerability behind? This commentary argues for a balanced approach thoughtfully integrating technology while retaining care's irreplaceable human essence, at the heart of this profoundly human profession. Ultimately, by nurturing innovation and humanity together, perhaps we reach new heights of empathy previously unimaginable.
翻訳日:2024-03-01 16:12:23 公開日:2024-02-29
# 階層型テキスト分類のための逆学習による局所階層の利用

Utilizing Local Hierarchy with Adversarial Training for Hierarchical Text Classification ( http://arxiv.org/abs/2402.18825v1 )

ライセンス: Link先を確認
Zihan Wang, Peiyi Wang, Houfeng Wang(参考訳) 階層的テキスト分類(htc)は、複雑な分類構造のため、マルチラベル分類の難しいサブタスクである。 最近のhtcのほとんどすべての製品は、ラベルの構造化に重点を置いているが、実りあるラベル共起情報を含む各入力テキストに従って、接地ラベルのサブ構造を無視している。 本稿では,この局所的な階層構造を逆の枠組みで紹介する。 我々は,ほぼすべてのHTCモデルに適合するHiAdvフレームワークを提案し,それを補助情報としてローカル階層で最適化する。 我々は2つの典型的なHTCモデルをテストし、HiAdvがすべてのシナリオで有効であり、複雑な分類学的階層を扱うのに十分であることを確認した。 さらなる実験により,学習データ不足のレアクラスに対して,局所階層と局所階層によるフレームワークの促進が有効であることが示された。

Hierarchical text classification (HTC) is a challenging subtask of multi-label classification due to its complex taxonomic structure. Nearly all recent HTC works focus on how the labels are structured but ignore the sub-structure of ground-truth labels according to each input text which contains fruitful label co-occurrence information. In this work, we introduce this local hierarchy with an adversarial framework. We propose a HiAdv framework that can fit in nearly all HTC models and optimize them with the local hierarchy as auxiliary information. We test on two typical HTC models and find that HiAdv is effective in all scenarios and is adept at dealing with complex taxonomic hierarchies. Further experiments demonstrate that the promotion of our framework indeed comes from the local hierarchy and the local hierarchy is beneficial for rare classes which have insufficient training data.
翻訳日:2024-03-01 16:12:10 公開日:2024-02-29
# バッチサイズ不変量Adam

Batch size invariant Adam ( http://arxiv.org/abs/2402.18824v1 )

ライセンス: Link先を確認
Xi Wang, Laurence Aitchison(参考訳) 本稿では,ミニバッチをワーカノード間で分散するマイクロバッチに分割した大規模分散環境で使用されるadamのバッチサイズ不変バージョンを提案する。 v 項について、標準アダムはまずマイクロバッチ勾配平均を計算し、次に正方形を計算し、一方、Adam はここで提案したバッチサイズ不変量において、まずマイクロバッチ勾配平均を計算した。 以前の研究(例えば、Malladi et al. 2022)では、学習率の2乗根スケーリングを含む別のアプローチが用いられたが、この手法には強い仮定が必要であり、特に勾配分散が期待される勾配の2乗を支配している。 対照的に、ここで提案するアプローチは、この仮定なしでバッチサイズ不変性を与える。 実際に、我々のスキームは以前の手法よりもはるかに広い範囲のシナリオでバッチサイズ不変性を与えていることを確認します。

We propose a batch size invariant version of Adam, for use in large-scale, distributed settings, in which the mini-batch is divided into micro-batches which are distributed among worker nodes. For the v term, standard Adam first computes the average over micro-batch gradients, then squares, while in the batch size invariant Adam proposed here, we first square the micro-batch gradients, then average. Previous work (e.g. Malladi et al. 2022) used an alternative approach that involved a square-root scaling of the learning rate, but this approach requires strong assumptions to work; in particular that the gradient variance dominates the square of the expected gradient. In contrast, the approach proposed here gives batch size invariance without this assumption. We confirm that in practice our scheme gives batch size invariance in a much larger range of scenarios than the previous approach.
翻訳日:2024-03-01 16:11:56 公開日:2024-02-29
# 異常な新しいカテゴリー発見と局在

Debiased Novel Category Discovering and Localization ( http://arxiv.org/abs/2402.18821v1 )

ライセンス: Link先を確認
Juexiao Feng, Yuhong Yang, Yanchun Xie, Yaqian Li, Yandong Guo, Yuchen Guo, Yuwei He, Liuyu Xiang, Guiguang Ding(参考訳) 近年,ディープラーニングにおける物体検出は急速な発展を遂げている。 しかし、既存のオブジェクト検出モデルは、トレーニングセットで定義されていない多くの潜在的なオブジェクトを無視し、クローズドセットデータセットでのみうまく機能する。 これらの物体は、しばしば背景または誤って検出器によって事前に定義されたカテゴリに分類される。 本稿では,学習データに含まれるカテゴリを検出しつつ,新たなカテゴリを積極的に発見,ローカライズし,クラスタ化することを目的とした,新しいクラス発見・ローカライゼーション(NCDL)の課題に焦点を当てる。 我々は、既存のNCDL法を分析し、中核的な問題を識別する: 物体検出器は、目に見えない対象に偏りがちである。 この問題に対処するために、我々はまず、クラス非依存領域提案ネットワーク(RPN)とクラス対応RPNを相補的に組み合わせたデバイアスドリージョンマイニング(DRM)アプローチを提案する。 さらに,教師なしデータを活用した半教師付きコントラスト学習による表現ネットワークの改善を提案する。 最後に,新しいクラス発見のために,単純で効率的なK平均クラスタリング手法を採用する。 NCDLベンチマークで広範な実験を行い,提案手法が従来の手法よりも優れていることを示すとともに,新たな最先端技術を確立した。

In recent years, object detection in deep learning has experienced rapid development. However, most existing object detection models perform well only on closed-set datasets, ignoring a large number of potential objects whose categories are not defined in the training set. These objects are often identified as background or incorrectly classified as pre-defined categories by the detectors. In this paper, we focus on the challenging problem of Novel Class Discovery and Localization (NCDL), aiming to train detectors that can detect the categories present in the training data, while also actively discover, localize, and cluster new categories. We analyze existing NCDL methods and identify the core issue: object detectors tend to be biased towards seen objects, and this leads to the neglect of unseen targets. To address this issue, we first propose an Debiased Region Mining (DRM) approach that combines class-agnostic Region Proposal Network (RPN) and class-aware RPN in a complementary manner. Additionally, we suggest to improve the representation network through semi-supervised contrastive learning by leveraging unlabeled data. Finally, we adopt a simple and efficient mini-batch K-means clustering method for novel class discovery. We conduct extensive experiments on the NCDL benchmark, and the results demonstrate that the proposed DRM approach significantly outperforms previous methods, establishing a new state-of-the-art.
翻訳日:2024-03-01 16:11:40 公開日:2024-02-29
# コンテキスト内学習のデュアルオペレーションモード

Dual Operating Modes of In-Context Learning ( http://arxiv.org/abs/2402.18819v1 )

ライセンス: Link先を確認
Ziqian Lin, Kangwook Lee(参考訳) インコンテキスト学習(icl)は、タスク学習、すなわち、インコンテキストサンプルからの新たなスキルの獲得、タスク検索、すなわち、関連する事前学習スキルのロケーションとアクティベーションという、2つの操作モードを示す。 最近の理論的研究は、ICLを分析するための様々な数学的モデルを研究するが、既存のモデルは一度に1つの動作モードしか説明していない。 本稿では, iclの2重動作モードを同時に説明できる確率モデルを提案する。 線形関数の文脈内学習に着目し,複数のタスク群とタスク依存入力分布を導入することで,事前学習のための既存のモデルを拡張する。 次に,2乗損失下での最適事前学習モデルの挙動,すなわちラベルのMMSE推定器の分析を行った。 先行および文脈内におけるタスク分布の事前学習を観察として,タスク後方分布の閉形式表現を導出する。 クローズドフォーム表現では、ICLの2つの動作モードの定量的理解が得られる。 さらに,実際に観察された説明できない現象についても考察した。特定の状況下では,iclのリスクは最初は増大し,さらにコンテキスト内例によって低下する。 我々のモデルは、この「初期段階」現象について、妥当な説明を提供する: 限られた数のインコンテキストサンプルが不正なスキルの検索につながる可能性があり、それによってリスクが増大し、より多くのインコンテキストサンプルでタスク学習が効果を発揮すると、最終的には減少する。 In-context例がランダムラベルに割り当てられるゼロショットICLなど、バイアスラベルによるICLの分析も理論的に行う。 最後に,トランスフォーマーと大規模言語モデルを用いた実験により,発見と予測を検証する。

In-context learning (ICL) exhibits dual operating modes: task learning, i.e., acquiring a new skill from in-context samples, and task retrieval, i.e., locating and activating a relevant pretrained skill. Recent theoretical work investigates various mathematical models to analyze ICL, but existing models explain only one operating mode at a time. We introduce a probabilistic model, with which one can explain the dual operating modes of ICL simultaneously. Focusing on in-context learning of linear functions, we extend existing models for pretraining data by introducing multiple task groups and task-dependent input distributions. We then analyze the behavior of the optimally pretrained model under the squared loss, i.e., the MMSE estimator of the label given in-context examples. Regarding pretraining task distribution as prior and in-context examples as the observation, we derive the closed-form expression of the task posterior distribution. With the closed-form expression, we obtain a quantitative understanding of the two operating modes of ICL. Furthermore, we shed light on an unexplained phenomenon observed in practice: under certain settings, the ICL risk initially increases and then decreases with more in-context examples. Our model offers a plausible explanation for this "early ascent" phenomenon: a limited number of in-context samples may lead to the retrieval of an incorrect skill, thereby increasing the risk, which will eventually diminish as task learning takes effect with more in-context samples. We also theoretically analyze ICL with biased labels, e.g., zero-shot ICL, where in-context examples are assigned random labels. Lastly, we validate our findings and predictions via experiments involving Transformers and large language models.
翻訳日:2024-03-01 16:11:17 公開日:2024-02-29
# CEBin: 大規模バイナリコード類似性検出のためのコスト効果フレームワーク

CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity Detection ( http://arxiv.org/abs/2402.18818v1 )

ライセンス: Link先を確認
Hao Wang, Zeyu Gao, Chao Zhang, Mingyang Sun, Yuchen Zhou, Han Qiu, Xi Xiao(参考訳) バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。 多くのBCSDソリューションが最近提案されているが、これは主に埋め込みベースであるが、特に探索対象バイナリの体積が大きい場合、精度と効率が制限されている。 この問題に対処するため,我々は,組込みベースおよび比較ベースアプローチを融合させ,オーバーヘッドを最小化しながら精度を大幅に向上させる,費用対効果の高いBCSDフレームワークであるCEBinを提案する。 具体的には、CEBinは洗練された埋め込みベースのアプローチを使用して、ターゲットコードの特徴を抽出し、候補となる類似コードの範囲を効率的に縮小し、パフォーマンスを向上する。 さらに, 類似度検出の精度を大幅に向上させるために, よりニュアンス的かつ複雑な関係を捉えるために, 候補を対的に比較する比較ベースアプローチを用いる。 埋め込みベースのアプローチと比較ベースのアプローチのギャップを埋めることで、CEBinは、大規模なソフトウェアエコシステムにおいて、類似のコード(脆弱性を含む)を検出するための効率的かつ効率的なソリューションを提供することができる。 3つのよく知られたデータセットの実験結果は、既存の最先端(SOTA)ベースラインよりもCEBinの方が優れていることを示している。 実世界におけるBCSDの有用性をさらに評価するために,大規模な脆弱性ベンチマークを構築し,BCSD法を1日間の脆弱性検出タスクで評価するための,最初の正確な評価手法を提供する。 CEBinは、数百万の候補関数からの類似した関数をわずか数秒で識別し、より実用的で困難なタスクに対して、85.46\%の印象的なリコール率を達成できる。 私たちのコードはhttps://github.com/hustcw/cebinで利用可能です。

Binary code similarity detection (BCSD) is a fundamental technique for various application. Many BCSD solutions have been proposed recently, which mostly are embedding-based, but have shown limited accuracy and efficiency especially when the volume of target binaries to search is large. To address this issue, we propose a cost-effective BCSD framework, CEBin, which fuses embedding-based and comparison-based approaches to significantly improve accuracy while minimizing overheads. Specifically, CEBin utilizes a refined embedding-based approach to extract features of target code, which efficiently narrows down the scope of candidate similar code and boosts performance. Then, it utilizes a comparison-based approach that performs a pairwise comparison on the candidates to capture more nuanced and complex relationships, which greatly improves the accuracy of similarity detection. By bridging the gap between embedding-based and comparison-based approaches, CEBin is able to provide an effective and efficient solution for detecting similar code (including vulnerable ones) in large-scale software ecosystems. Experimental results on three well-known datasets demonstrate the superiority of CEBin over existing state-of-the-art (SOTA) baselines. To further evaluate the usefulness of BCSD in real world, we construct a large-scale benchmark of vulnerability, offering the first precise evaluation scheme to assess BCSD methods for the 1-day vulnerability detection task. CEBin could identify the similar function from millions of candidate functions in just a few seconds and achieves an impressive recall rate of $85.46\%$ on this more practical but challenging task, which are several order of magnitudes faster and $4.07\times$ better than the best SOTA baseline. Our code is available at https://github.com/Hustcw/CEBin.
翻訳日:2024-03-01 16:10:47 公開日:2024-02-29
# 対面アンチスプーフィングのためのグラディエントアライメント

Gradient Alignment for Cross-Domain Face Anti-Spoofing ( http://arxiv.org/abs/2402.18817v1 )

ライセンス: Link先を確認
Binh M. Le, Simon S. Woo(参考訳) フェース・アンチ・スプーフィング(FAS)に対する領域一般化(DG)の進歩は注目されている。 従来の手法では、学習目標の設計や、ドメイン固有の特徴を分離するためのモジュールの追加に重点を置いてきた。 しかし、そのようなアプローチはドメイン不変機能の一貫性のあるメンテナンスやドメイン固有機能の完全削除の保証を欠いていることが多い。 さらに、FAS に対する DG の以前のほとんどの研究は、DG に有利であることが示されている局所平坦極小への収束を保証していない。 本稿では,新たな学習目的であるGAC-FASを紹介する。 従来のシャープネス対応最小化器とは異なり、GAC-FASは各領域の上昇点を特定し、これらの点における一般化勾配の更新を規制し、経験的リスク最小化(ERM)勾配の更新と整合する。 このユニークなアプローチは、特にドメインシフトに対して堅牢であるようにモデルを導く。 本稿では,NASデータセットに対する厳密なテストを通じてGAC-FASの有効性を示す。 コードはhttps://github.com/leminhbinh0209/CVPR24-FASで公開されている。

Recent advancements in domain generalization (DG) for face anti-spoofing (FAS) have garnered considerable attention. Traditional methods have focused on designing learning objectives and additional modules to isolate domain-specific features while retaining domain-invariant characteristics in their representations. However, such approaches often lack guarantees of consistent maintenance of domain-invariant features or the complete removal of domain-specific features. Furthermore, most prior works of DG for FAS do not ensure convergence to a local flat minimum, which has been shown to be advantageous for DG. In this paper, we introduce GAC-FAS, a novel learning objective that encourages the model to converge towards an optimal flat minimum without necessitating additional learning modules. Unlike conventional sharpness-aware minimizers, GAC-FAS identifies ascending points for each domain and regulates the generalization gradient updates at these points to align coherently with empirical risk minimization (ERM) gradient updates. This unique approach specifically guides the model to be robust against domain shifts. We demonstrate the efficacy of GAC-FAS through rigorous testing on challenging cross-domain FAS datasets, where it establishes state-of-the-art performance. The code is available at https://github.com/leminhbinh0209/CVPR24-FAS.
翻訳日:2024-03-01 16:10:19 公開日:2024-02-29
# Factsテンプレート分解によるエンティティ抽象要約における幻覚の低減

Reducing Hallucinations in Entity Abstract Summarization with Facts-Template Decomposition ( http://arxiv.org/abs/2402.18873v1 )

ライセンス: Link先を確認
Fangwei Zhu, Peiyi Wang, Zhifang Sui(参考訳) エンティティ抽象要約は、関連するインターネット文書の集合に基づいて、与えられたエンティティのコヒーレントな記述を生成することを目的としている。 事前訓練された言語モデル(PLM)は、このタスクで大きな成功を収めたが、幻覚、すなわちエンティティに関する非現実的な情報の生成に悩まされる可能性がある。 この問題に対処するために,我々は,plmが作成し易い与えられたエンティティに関する事実情報を表す事実と,plmが有能に生成できる事実のスロットが指定された汎用コンテンツを含むテンプレートの2つの構成要素に要約を分解する。 事実とテンプレートの分解に基づいて,エンティティ抽象要約のための説明可能なフレームワークであるslotsumを提案する。 SlotSumはまずテンプレートを作成し、入力されたドキュメントに基づいて各テンプレートスロットの事実を予測する。 SlotSumは、事実のテンポレート分解に相応しいので、容易にエラーを見つけ出し、外部知識で幻覚予測を修正できます。 SlotSumの性能を評価するために,新しいデータセットWikiFactSumを構築した。 実験の結果、SlotSumは信頼性のある外部知識でより現実的な要約を生成することができた。

Entity abstract summarization aims to generate a coherent description of a given entity based on a set of relevant Internet documents. Pretrained language models (PLMs) have achieved significant success in this task, but they may suffer from hallucinations, i.e. generating non-factual information about the entity. To address this issue, we decompose the summary into two components: Facts that represent the factual information about the given entity, which PLMs are prone to fabricate; and Template that comprises generic content with designated slots for facts, which PLMs can generate competently. Based on the facts-template decomposition, we propose SlotSum, an explainable framework for entity abstract summarization. SlotSum first creates the template and then predicts the fact for each template slot based on the input documents. Benefiting from our facts-template decomposition, SlotSum can easily locate errors and further rectify hallucinated predictions with external knowledge. We construct a new dataset WikiFactSum to evaluate the performance of SlotSum. Experimental results demonstrate that SlotSum could generate summaries that are significantly more factual with credible external knowledge.
翻訳日:2024-03-01 16:05:25 公開日:2024-02-29
# LoLiSRFlow: クロススケール変圧器を用いた条件流による単一画像低照度化と超高分解能化

LoLiSRFlow: Joint Single Image Low-light Enhancement and Super-resolution via Cross-scale Transformer-based Conditional Flow ( http://arxiv.org/abs/2402.18871v1 )

ライセンス: Link先を確認
Ziyu Yue, Jiaxin Gao, Sihan Xie, Yang Liu, Zhixun Su(参考訳) 実世界の画像の可視性は低光度と低解像度の両方で制限されることが多いが、これらの問題は低光度強調 (lle) と超解像度 (sr) 法によってのみ文献で取り扱われる。 もちろん、これらのアプローチの単純なカスケードは、可視性と解決性を同時に高めるために、非常に不適切な問題にうまく対処できない。 本稿では,LLEとSRに固有の劣化機構を特に考慮した,LoLiSRFLowと呼ばれる正規化フローネットワークを提案する。 低照度高解像度画像に対する1対1の低解像度画像の結合を破るために、LoLiSRFLowは高解像度高解像度画像に対する様々な実現可能な解に対する条件付き確率分布を直接学習する。 具体的には、マルチレゾリューション並列変換器が条件エンコーダとして機能し、レチネックス誘起分解・照明不変写像を前者として抽出する。 可逆ネットワークは、通常露光される高解像度画像の分布を潜在分布にマッピングする。 後方推定は、通常の訓練経路に付加的な制約付き損失を導入することと同値であり、高分解能画像の自然な露出の多様体を無限に描写することができる。 また、7100個の低解像度の暗光/高分解能の平凡なペアを含むdfsr-lleという,現実的な低光度低解像度劣化をモデル化する合成データセットを提案する。 定量的および定性的な実験結果は,提案した合成データセットと実データの両方において,本手法の有効性を示す。

The visibility of real-world images is often limited by both low-light and low-resolution, however, these issues are only addressed in the literature through Low-Light Enhancement (LLE) and Super- Resolution (SR) methods. Admittedly, a simple cascade of these approaches cannot work harmoniously to cope well with the highly ill-posed problem for simultaneously enhancing visibility and resolution. In this paper, we propose a normalizing flow network, dubbed LoLiSRFLow, specifically designed to consider the degradation mechanism inherent in joint LLE and SR. To break the bonds of the one-to-many mapping for low-light low-resolution images to normal-light high-resolution images, LoLiSRFLow directly learns the conditional probability distribution over a variety of feasible solutions for high-resolution well-exposed images. Specifically, a multi-resolution parallel transformer acts as a conditional encoder that extracts the Retinex-induced resolution-and-illumination invariant map as the previous one. And the invertible network maps the distribution of usually exposed high-resolution images to a latent distribution. The backward inference is equivalent to introducing an additional constrained loss for the normal training route, thus enabling the manifold of the natural exposure of the high-resolution image to be immaculately depicted. We also propose a synthetic dataset modeling the realistic low-light low-resolution degradation, named DFSR-LLE, containing 7100 low-resolution dark-light/high-resolution normal sharp pairs. Quantitative and qualitative experimental results demonstrate the effectiveness of our method on both the proposed synthetic and real datasets.
翻訳日:2024-03-01 16:05:04 公開日:2024-02-29
# $^{171} \mathrm{Yb}^+$ Qubit via $^2D_{3/2}$ Shelving 上の高忠実度検出

High-Fidelity Detection on $^{171} \mathrm{Yb}^+$ Qubit via $^2D_{3/2}$ Shelving ( http://arxiv.org/abs/2402.18868v1 )

ライセンス: Link先を確認
Xueying Mai, Liyun Zhang, Yao Lu(参考訳) 量子状態の高精度な検出は、フォールトトレラント量子計算の前提条件である量子誤差補正を実装する上で不可欠である。 しかし、有望なイオン量子ビットの場合、検出忠実度は本質的に状態リークによって制限される。 本稿では,$^2d_{3/2}$状態シェルビング手法を用いて,$^{171} \mathrm{yb}^+$ qubitsの検出精度を向上させる効率的な手法を提案する。 選択的シェルビングと状態依存蛍光を利用して、状態漏洩の影響を緩和し、99.88(2)%の忠実度を実験的に実現し、99.99%以上の忠実度を最先端ハードウェアを用いて予測する。 一方,超微細量子ビットを準安定レベルにマッピングすることで,近年の量子誤り訂正における重要なステップである中間回路計測の実現可能性を示す。 本研究は、近い将来、トラップイオンシステムによるフォールトトレラント量子情報処理を実現する上で不可欠なコンポーネントを提供する。

High-fidelity detection of quantum states is indispensable for implementing quantum error correction, a prerequisite for fault-tolerant quantum computation. For promising trapped ion qubits, however, the detection fidelity is inherently limited by state leakage. Here, we propose an efficient approach to enhance the fidelity of detecting $^{171} \mathrm{Yb}^+$ qubits through $^2D_{3/2}$ state shelving techniques. Leveraging selective shelving and state-dependent fluorescence, we mitigate the impact of state leakage and experimentally realize a fidelity of 99.88(2)%, while over 99.99% fidelity is predicted by utilizing state-of-the-art hardwares. Meanwhile, we demonstrate the feasibility of mid-circuit measurements, a crucial step for recent implementations of quantum error correction, by mapping the hyperfine qubit to metastable levels. Our research provides an essential component for realizing fault-tolerant quantum information processing with trapped-ion systems in the near future.
翻訳日:2024-03-01 16:04:33 公開日:2024-02-29
# Dr.戦略:ストラテジックドリームを持つモデルベースジェネリストエージェント

Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming ( http://arxiv.org/abs/2402.18866v1 )

ライセンス: Link先を確認
Hany Hamed, Subin Kim, Dongyeong Kim, Jaesik Yoon, Sungjin Ahn(参考訳) モデルベース強化学習(MBRL)は、サンプル効率問題を改善し、ジェネラリストエージェントを作るための主要なアプローチである。 しかし、夢の戦略の強化にはあまり努力が払われていない。 したがって、エージェントがより構造化され戦略的な方法で「より良くする」ことができるかどうかという問題である。 本稿では,人間が空間分割・分割戦略を計画に用いていることを示唆する認知科学の観察から着想を得た,新しい夢の戦略を備えた新しいmbrlエージェントであるdr. strategyを提案する。 提案するエージェントは,ドリームにおける配当型戦略のバージョンを実現する。 これは、潜在するランドマークの集合を学習し、それを利用してランドマーク条件のハイウェイポリシーを学ぶことで達成される。 ハイウェイポリシーでは、エージェントは夢の中でランドマークに移動することを学習し、そこからより焦点を絞った方法で探索と達成のタスクに取り組むことができる。 実験により,提案手法は様々な視覚的かつ部分的に観察可能なナビゲーションタスクにおいて,画素ベースのMBRL法よりも優れていた。 ソースコードはhttps://github.com/ahn-ml/drstrategyで入手できる。

Model-based reinforcement learning (MBRL) has been a primary approach to ameliorating the sample efficiency issue as well as to make a generalist agent. However, there has not been much effort toward enhancing the strategy of dreaming itself. Therefore, it is a question whether and how an agent can "dream better" in a more structured and strategic way. In this paper, inspired by the observation from cognitive science suggesting that humans use a spatial divide-and-conquer strategy in planning, we propose a new MBRL agent, called Dr. Strategy, which is equipped with a novel Dreaming Strategy. The proposed agent realizes a version of divide-and-conquer-like strategy in dreaming. This is achieved by learning a set of latent landmarks and then utilizing these to learn a landmark-conditioned highway policy. With the highway policy, the agent can first learn in the dream to move to a landmark, and from there it tackles the exploration and achievement task in a more focused way. In experiments, we show that the proposed model outperforms prior pixel-based MBRL methods in various visually complex and partially observable navigation tasks. The source code will be available at https://github.com/ahn-ml/drstrategy
翻訳日:2024-03-01 16:04:11 公開日:2024-02-29
# パラメーター効率の良いチューニングにおけるカタストロフィックフォーミングの解析と低減

Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient Tuning ( http://arxiv.org/abs/2402.18865v1 )

ライセンス: Link先を確認
Weijieying Ren, Xinlong Li, Lei Wang, Tianxiang Zhao, Wei Qin(参考訳) 既存の研究では、言語理解と生成において大きな言語モデル(LLM)が顕著な性能を示した。 しかし、LLMが複雑で多様なドメイン固有の下流タスクに対して連続的に微調整されている場合、過去のタスクに対する推論性能は劇的に低下し、破滅的な忘れ問題として知られる。 可塑性学習とメモリ安定性のトレードオフを維持する必要がある。 メモリリプレイ、正規化、パラメータ分離といった既存の研究は数多く行われているが、連続的なLLMの微調整シナリオにおいて、隣接する様々なミニマの幾何学的接続についてはほとんど知られていない。 本研究では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。 広範な実験を通じて,llms連続学習シナリオにおけるモード接続現象を明らかにし,可塑性と安定性のバランスをとれることを示す。 これらの知見に基づいて,LoRAパラメータの補間に基づくデュアルメモリ体験再生フレームワークを構築する,I-LoRA (Interpolation-based LoRA) というシンプルな手法を提案する。 8つのドメイン固有のCLベンチマークに関する大規模な実験と分析により、I-LoRAは、最大で11.%のパフォーマンス向上で、最先端のアプローチよりも一貫して大幅に改善されていることが示される。 私たちのコードは \url{https://github.com/which47/LLMCL} で利用可能です。

Existing research has shown that large language models (LLMs) exhibit remarkable performance in language understanding and generation. However, when LLMs are continuously fine-tuned on complex and diverse domain-specific downstream tasks, the inference performance on historical tasks decreases dramatically, which is known as a catastrophic forgetting problem. A trade-off needs to be kept between learning plasticity and memory stability. Plenty of existing works have explored strategies like memory replay, regularization and parameter isolation, but little is known about the geometric connection of various adjacent minima in the continual LLMs fine-tuning scenarios. In this work, we investigate the geometric connections of different minima through the lens of mode connectivity, which means different minima can be connected by a low-loss valley. Through extensive experiments, we uncover the mode connectivity phenomenon in the LLMs continual learning scenario and find that it can strike a balance between plasticity and stability. Building upon these findings, we propose a simple yet effective method called Interpolation-based LoRA (I-LoRA), which constructs a dual-memory experience replay framework based on LoRA parameter interpolations. Extensive experiments and analysis on eight domain-specific CL benchmarks demonstrate that I-LoRA consistently show significant improvement over the previous state-of-the-art approaches with up to $11\%$ performance gains, providing a strong baseline and insights for future research on the large language model continual learning problem. Our code is available at \url{https://github.com/which47/LLMCL}.
翻訳日:2024-03-01 16:03:49 公開日:2024-02-29
# 説明モデルの比較のための確率的リプシッツネスと安定ランク

Probabilistic Lipschitzness and the Stable Rank for Comparing Explanation Models ( http://arxiv.org/abs/2402.18863v1 )

ライセンス: Link先を確認
Lachlan Simpson, Kyle Millar, Adriel Cheng, Cheng-Chew Lim, Hong Gunn Chew(参考訳) ニューラルネットワークのブラックボックスの性質に対処するために、機械学習内で説明可能性モデルが普及した。 問題は、どの説明可能性モデルが最も効果的かである。 確率的リプシッツ性は、ニューラルネットワークの滑らかさが、ホック後の説明の品質と根本的に関連していることを示した。 本研究では,積分勾配, LIME, SmoothGradの確率的リプシッツ性に関する理論的下界を証明した。 確率的リプシッツネス(英語版)を用いた新しい計量法を提案し、説明可能性モデルのロバスト性を比較する。 さらに,ニューラルネットワークの局所リプシッツ定数とその安定階数との関係を証明した。 次に,ニューラルネットワークの安定ランクが説明可能性モデルのロバスト性に対するヒューリスティックとなることを示す。

Explainability models are now prevalent within machine learning to address the black-box nature of neural networks. The question now is which explainability model is most effective. Probabilistic Lipschitzness has demonstrated that the smoothness of a neural network is fundamentally linked to the quality of post hoc explanations. In this work, we prove theoretical lower bounds on the probabilistic Lipschitzness of Integrated Gradients, LIME and SmoothGrad. We propose a novel metric using probabilistic Lipschitzness, normalised astuteness, to compare the robustness of explainability models. Further, we prove a link between the local Lipschitz constant of a neural network and its stable rank. We then demonstrate that the stable rank of a neural network provides a heuristic for the robustness of explainability models.
翻訳日:2024-03-01 16:03:21 公開日:2024-02-29
# 実験・データ分析・健康評価を用いた第2世代電池の排気から有効利用

Taking Second-life Batteries from Exhausted to Empowered using Experiments, Data Analysis, and Health Estimation ( http://arxiv.org/abs/2402.18859v1 )

ライセンス: Link先を確認
Xiaofan Cui, Muhammad Aadil Khan, Gabriele Pozzato, Surinder Singh, Ratnesh Sharma, Simona Onori(参考訳) 電力網蓄電における電気自動車(EV)電池の再利用は、環境問題に対処し経済価値を高めるための有望な戦略として現れている。 本研究は、グリッドストレージアプリケーションに配備されたリタイア電池(BMS$_2$)の健康モニタリングアルゴリズムの開発に集中する。 15ヶ月にわたるテストで、我々は第2世代(SL)電池のデータセットをコンパイル、解析、公開し、3V-4V電圧ウィンドウ内のグリッドエネルギー貯蔵負荷プロファイルをシミュレートするサイクリングプロトコルを実装した。 bms$_2$機能と初期容量に依存する4つの機械学習ベースの健康推定モデルを開発し、比較し、選択したモデルがテストデータで平均絶対パーセンテージエラー(mape)を2.3%未満にする。 さらに,オンライン配置中の推定誤差を制限するクラスタリング手法を統合することで,適応型オンラインヘルス推定アルゴリズムを提案する。 これらの結果は最初の概念実証であり、二次寿命用電池の再購入の可能性を示している。 得られたデータと代表的電力需要に基づいて、これらのSL電池は、特定の条件下での10年以上のグリッドエネルギーストレージ使用の可能性を示す。

The reuse of retired electric vehicle (EV) batteries in electric grid energy storage emerges as a promising strategy to address environmental concerns and boost economic value. This study concentrates on devising health monitoring algorithms for retired batteries (BMS$_2$) deployed in grid storage applications. Over 15 months of testing, we compile, analyze, and publicly share a dataset of second-life (SL) batteries, implementing a cycling protocol simulating grid energy storage load profiles within a 3 V-4 V voltage window. Four machine learning-based health estimation models, relying on BMS$_2$ features and initial capacity, are developed and compared, with the selected model achieving a Mean Absolute Percentage Error (MAPE) below 2.3% on test data. Additionally, an adaptive online health estimation algorithm is proposed by integrating a clustering-based method, limiting estimation errors during online deployment. These results constitute an initial proof of concept, showcasing the feasibility of repurposing retired batteries for second-life applications. Based on obtained data and representative power demand, these SL batteries exhibit the potential, under specific conditions, for over a decade of grid energy storage use.
翻訳日:2024-03-01 16:03:07 公開日:2024-02-29
# 脳神経トラクトグラフィーにおける解剖誘導線維軌跡分布推定

Anatomy-guided fiber trajectory distribution estimation for cranial nerves tractography ( http://arxiv.org/abs/2402.18856v1 )

ライセンス: Link先を確認
Lei Xie, Qingrun Zeng, Huajun Zhou, Guoqiang Xie, Mingchu Li, Jiahao Huang, Jianan Cui, Hao Chen, Yuanjing Feng(参考訳) 拡散mriは頭蓋神経(cns)の頭蓋内経路を同定し解析するための重要なツールである。 しかし, 頭蓋骨の複雑な環境は, 拡散方向と繊維形状のあいまいな空間的対応につながり, 既存のCNの拡散トラクトグラフィー法は誤軌跡を生じやすく, 真の正のつながりが欠如している。 以上の課題を克服するため, 拡散テンソルベクトル場を構築するために, CNの追跡過程において, 解剖学的形状の事前知識を取り入れた, 解剖学的誘導繊維軌道分布を持つ新しいCN同定フレームワークを提案する。 連続流場表現のための高次流線型微分方程式を導入し, トラクションベースレベルからCNの繊維軌道分布を直接特徴づける。 生体内hcpデータセットおよび臨床mdmデータセットを用いた実験結果から,本手法は競合する方法に比べて偽陽性線維産生を減少させ,既知の解剖学によく対応していると判断された再構成されたcns(cnii,cniii,cnv,cnvii/viii)を産生することが示された。

Diffusion MRI tractography is an important tool for identifying and analyzing the intracranial course of cranial nerves (CNs). However, the complex environment of the skull base leads to ambiguous spatial correspondence between diffusion directions and fiber geometry, and existing diffusion tractography methods of CNs identification are prone to producing erroneous trajectories and missing true positive connections. To overcome the above challenge, we propose a novel CNs identification framework with anatomy-guided fiber trajectory distribution, which incorporates anatomical shape prior knowledge during the process of CNs tracing to build diffusion tensor vector fields. We introduce higher-order streamline differential equations for continuous flow field representations to directly characterize the fiber trajectory distribution of CNs from the tract-based level. The experimental results on the vivo HCP dataset and the clinical MDM dataset demonstrate that the proposed method reduces false-positive fiber production compared to competing methods and produces reconstructed CNs (i.e. CN II, CN III, CN V, and CN VII/VIII) that are judged to better correspond to the known anatomy.
翻訳日:2024-03-01 16:02:45 公開日:2024-02-29
# オープン量子システムにおけるワークサム則

Work Sum Rule for Open Quantum Systems ( http://arxiv.org/abs/2402.18855v1 )

ライセンス: Link先を確認
Parth Kumar, Caleb M. Webb, Charles A. Stafford(参考訳) オープン量子システムの熱力学における重要な疑問は、エントロピー、ワーク、内部エネルギーなどの熱力学量をシステムと環境の間でどのように分割するかである。 エントロピーが非特異である唯一のパーティションはヒルベルト空間のパーティションに基づいており、システムと環境の結合を半分に、環境を半分に割り当てている。 しかし、量子ワーク分割はヒルベルト空間分割の下では非自明であり、遠くでの量子ワークを説明するワーク和則を導出する。 システムの全ての状態関数は、この非局所量子ワークが適切に説明され次第、経路独立であることが示される。 準静的に駆動される2種類のオープン量子系の熱力学を解析する: グランドカノニカルアンサンブルに有限環境を持つ系と、非有界環境を持つ系である。 本稿では,時間依存型2レベルシステムと駆動共振器レベルモデルの適用例を示す。

A key question in the thermodynamics of open quantum systems is how to partition thermodynamic quantities such as entropy, work, and internal energy between the system and its environment. We show that the only partition under which entropy is non-singular is based on a partition of Hilbert-space, which assigns half the system-environment coupling to the system and half to the environment. However, quantum work partitions non-trivially under Hilbert-space partition, and we derive a Work Sum Rule that accounts for quantum work at a distance. All state functions of the system are shown to be path independent once this nonlocal quantum work is properly accounted for. The thermodynamics of two classes of quasi-statically driven open quantum systems is analyzed: systems with a finite environment in the grand canonical ensemble, and systems with an unbounded environment. Our results are illustrated with applications to a time-dependent two-level system and the driven resonant-level model.
翻訳日:2024-03-01 16:02:22 公開日:2024-02-29
# 一般学習目標による多領域一般化の再考

Rethinking Multi-domain Generalization with A General Learning Objective ( http://arxiv.org/abs/2402.18853v1 )

ライセンス: Link先を確認
Zhaorui Tan, Xi Yang, Kaizhu Huang(参考訳) マルチドメイン一般化(mDG)は、トレーニングとテストの分散の相違を最小限に抑え、限界-ラベル間分布マッピングを強化することを目的としている。 しかし、既存のmDG文献には一般的な学習目標パラダイムが欠如しており、しばしば静的なターゲット境界分布に制約を課している。 本稿では,制約を緩和するために$y$-mappingを活用することを提案する。 我々はmDGの学習目標を再考し、既存のmDGの知恵を解釈し分析するための新しい「textbf{ general learning objective」を設計する。 この一般的な目的は、ドメイン非依存の条件特徴を学習し、後部を最大化する2つの相乗的アミに分岐する。 探索はまた、事前情報を取り入れ、不正な因果関係を抑える2つの効果的な正規化用語にまで拡張し、緩和された制約によって生じる問題を緩和する。 理論的には、ドメインに依存しない条件付き特徴のドメインアライメントに対して上界を寄与し、多くの以前のmDGの取り組みが実際には目的を部分的に最適化する。 そこで本研究では,複雑な領域シフトを扱う汎用的,堅牢,柔軟なメカニズムを提供する4つの実践的コンポーネントに一般学習目標を割く。 広範な実験結果から,y$-mappingによる提案手法は,レグレッションやセグメンテーション,分類など,下流タスクのmdg性能が大幅に向上することが示唆された。

Multi-domain generalization (mDG) is universally aimed to minimize the discrepancy between training and testing distributions to enhance marginal-to-label distribution mapping. However, existing mDG literature lacks a general learning objective paradigm and often imposes constraints on static target marginal distributions. In this paper, we propose to leverage a $Y$-mapping to relax the constraint. We rethink the learning objective for mDG and design a new \textbf{general learning objective} to interpret and analyze most existing mDG wisdom. This general objective is bifurcated into two synergistic amis: learning domain-independent conditional features and maximizing a posterior. Explorations also extend to two effective regularization terms that incorporate prior information and suppress invalid causality, alleviating the issues that come with relaxed constraints. We theoretically contribute an upper bound for the domain alignment of domain-independent conditional features, disclosing that many previous mDG endeavors actually \textbf{optimize partially the objective} and thus lead to limited performance. As such, our study distills a general learning objective into four practical components, providing a general, robust, and flexible mechanism to handle complex domain shifts. Extensive empirical results indicate that the proposed objective with $Y$-mapping leads to substantially better mDG performance in various downstream tasks, including regression, segmentation, and classification.
翻訳日:2024-03-01 16:02:04 公開日:2024-02-29
# ケラー非線形性に基づく光学場の振幅と位相二次における同時振動共鳴

Simultaneous vibrational resonance in the amplitude and phase quadratures of an optical field based on Kerr nonlinearity ( http://arxiv.org/abs/2402.18852v1 )

ライセンス: Link先を確認
Yinuo Wang, Shan Wu, Cuicui Li, Zhenglu Duan, Min Xie, and Bixuan Fan(参考訳) 振動共鳴 (VR) は、適切な振幅で高周波変調信号を適用することにより、弱い信号に対するシステム応答を共鳴的に増強できる非線形現象である。 vr研究の大部分は弱信号に対するシステム応答の振幅や強度の増幅に重点を置いているが、vrにおけるシステム応答の位相情報の研究は限られている。 本稿では,近共振弱信号と遠波長変調信号により駆動されるkerr非線形空洞内の光場の振幅と位相の2倍のvr現象について検討する。 解析および数値解析の結果,変調信号の振幅が変化すると,弱信号に対するシステム応答の振幅と位相二次の共振が同時に発生することがわかった。 最適なVR効果を達成するための変調信号の振幅と周波数の間には線形関係がある。 さらに,本研究では任意の位相における二次数を一般化し,vrエンハンスメントの位相依存性を判定した。 我々の研究は、位相情報を取り入れることでVR研究の範囲を広げるだけでなく、別の光学場を操作することで光学界を増幅するアプローチも導入している。

Vibrational resonance (VR) is a nonlinear phenomenon in which the system response to a weak signal can be resonantly enhanced by applying a high-frequency modulation signal with an appropriate amplitude. The majority of VR research has focused on amplifying the amplitude or intensity of the system response to a weak signal, whereas the study of the phase information of system responses in VR remains limited. Here, we investigate the VR phenomena in both amplitude and phase quadratures of an optical field in a Kerr nonlinear cavity driven by a near-resonant weak signal and a far-detuned modulation signal. Analytical and numerical results demonstrated that the resonant enhancement in the amplitude and phase quadratures of the system response to a weak signal simultaneously occurs as the amplitude of the modulation signal is varied. There is a linear relation between the amplitude and frequency of the modulation signal for achieving an optimal VR effect. Furthermore, we generalized our study to investigate the quadrature at an arbitrary phase and determined that the VR enhancement sensitively depends on the phase. Our findings not only broaden the scope of VR research by incorporating phase information but also introduces an approach for amplifying an optical field by manipulating another optical field.
翻訳日:2024-03-01 16:01:35 公開日:2024-02-29
# 0-1ニューラルネットワークの処方と予測への応用

Applications of 0-1 Neural Networks in Prescription and Prediction ( http://arxiv.org/abs/2402.18851v1 )

ライセンス: Link先を確認
Vrishabh Patil, Kara Hoppe, Yonatan Mintz(参考訳) 医療意思決定における重要な課題は、限られた観察データを持つ患者に対する治療方針の学習である。 この課題はパーソナライズされた医療の意思決定において特に顕著であり、患者の特徴、治療オプション、健康結果の複雑な関係をモデルが考慮する必要がある。 これを解決するために、我々は、中間データ設定におけるポリシーの最適化に反実推定で使用できる混合整数プログラミングで訓練された浅い0-1ニューラルネットワークである規範的ネットワーク(PNN)を導入する。 これらのモデルはディープニューラルネットワークよりも解釈性が高く、決定木のような一般的なモデルよりも複雑なポリシーをエンコードできる。 pnnは, 合成データ実験および産後高血圧症に対する治療の割り当てにおいて, 既存の手法を上回ることができることを示した。 特に、PNNは、既存の臨床実践において、ピーク血圧を5.47 mm Hg (p=0.02) 、次の最高の規範的モデリング技術では2 mm Hg (p=0.01) に減少させるポリシーを作成することが示されている。 さらに、PNNは他のどのモデルよりも臨床的に重要な特徴を正しく識別する可能性が高かったが、既存のモデルは患者の保険情報や治療のバイアスにつながる可能性のある人種のような潜在的に危険な特徴に依存していた。

A key challenge in medical decision making is learning treatment policies for patients with limited observational data. This challenge is particularly evident in personalized healthcare decision-making, where models need to take into account the intricate relationships between patient characteristics, treatment options, and health outcomes. To address this, we introduce prescriptive networks (PNNs), shallow 0-1 neural networks trained with mixed integer programming that can be used with counterfactual estimation to optimize policies in medium data settings. These models offer greater interpretability than deep neural networks and can encode more complex policies than common models such as decision trees. We show that PNNs can outperform existing methods in both synthetic data experiments and in a case study of assigning treatments for postpartum hypertension. In particular, PNNs are shown to produce policies that could reduce peak blood pressure by 5.47 mm Hg (p=0.02) over existing clinical practice, and by 2 mm Hg (p=0.01) over the next best prescriptive modeling technique. Moreover PNNs were more likely than all other models to correctly identify clinically significant features while existing models relied on potentially dangerous features such as patient insurance information and race that could lead to bias in treatment.
翻訳日:2024-03-01 16:01:16 公開日:2024-02-29
# ステガノグラフィーテキスト抽出の強化:nlpモデルが正確性と意味的コヒーレンスに与える影響の評価

Enhancing Steganographic Text Extraction: Evaluating the Impact of NLP Models on Accuracy and Semantic Coherence ( http://arxiv.org/abs/2402.18849v1 )

ライセンス: Link先を確認
Mingyang Li, Maoqin Yuan, Luyao Li, Han Pengsihua(参考訳) 本研究では,画像ステガノグラフィ技術と自然言語処理(NLP)大モデルを組み合わせた新しい手法を提案する。 従来の最下位ビット(lsb)ステガノグラフィ技術は、漢字などの複雑な文字エンコーディングを扱う際に、情報抽出の正確性と堅牢性が問題となる。 そこで本研究では,革新的なLSB-NLPハイブリッドフレームワークを提案する。 本フレームワークは, 誤り検出, 訂正, 意味的整合性解析などのNLP大規模モデルの高度な機能と情報再構成技術を統合し, ステガノグラフテキスト抽出の堅牢性を大幅に向上させる。 実験の結果,LSB-NLPハイブリッドフレームワークは,特に漢字処理において,ステガノグラフテキストの抽出精度の向上に優れていた。 本研究は画像ステガノグラフィー技術とNLP大モデルの組み合わせの有効性を実証するだけでなく,情報隠蔽分野における研究と応用の新たなアイデアを提案する。 この学際的アプローチが成功したことは、複雑な情報処理問題を解決するために画像ステガノグラフィー技術と自然言語処理技術を統合する大きな可能性を示している。

This study discusses a new method combining image steganography technology with Natural Language Processing (NLP) large models, aimed at improving the accuracy and robustness of extracting steganographic text. Traditional Least Significant Bit (LSB) steganography techniques face challenges in accuracy and robustness of information extraction when dealing with complex character encoding, such as Chinese characters. To address this issue, this study proposes an innovative LSB-NLP hybrid framework. This framework integrates the advanced capabilities of NLP large models, such as error detection, correction, and semantic consistency analysis, as well as information reconstruction techniques, thereby significantly enhancing the robustness of steganographic text extraction. Experimental results show that the LSB-NLP hybrid framework excels in improving the extraction accuracy of steganographic text, especially in handling Chinese characters. The findings of this study not only confirm the effectiveness of combining image steganography technology and NLP large models but also propose new ideas for research and application in the field of information hiding. The successful implementation of this interdisciplinary approach demonstrates the great potential of integrating image steganography technology with natural language processing technology in solving complex information processing problems.
翻訳日:2024-03-01 16:00:54 公開日:2024-02-29
# SwitchLight: 物理駆動型アーキテクチャの共設計と人体ポートレートリライトのための事前学習フレームワーク

SwitchLight: Co-design of Physics-driven Architecture and Pre-training Framework for Human Portrait Relighting ( http://arxiv.org/abs/2402.18848v1 )

ライセンス: Link先を確認
Hoon Kim, Minje Jang, Wonjun Yoon, Jisoo Lee, Donghyun Na, Sanghyun Woo(参考訳) 物理誘導型アーキテクチャと事前学習フレームワークを組み合わせた人間の肖像画リライティングのための共同設計手法を提案する。 我々はCook-Torrance反射率モデルに基づいて,光-表面相互作用を正確にシミュレートするアーキテクチャ設計を精巧に構成した。 さらに,低品質光ステージデータの制限を克服するため,自己指導型事前学習戦略を開発した。 正確な物理モデリングと拡張トレーニングデータセットを組み合わせたこの新しい組み合わせは、リライトリアリズムの新しいベンチマークを確立する。

We introduce a co-designed approach for human portrait relighting that combines a physics-guided architecture with a pre-training framework. Drawing on the Cook-Torrance reflectance model, we have meticulously configured the architecture design to precisely simulate light-surface interactions. Furthermore, to overcome the limitation of scarce high-quality lightstage data, we have developed a self-supervised pre-training strategy. This novel combination of accurate physical modeling and expanded training dataset establishes a new benchmark in relighting realism.
翻訳日:2024-03-01 16:00:30 公開日:2024-02-29
# スケーラブルサロゲートモデリングのための多面的残留ニューラルネットワークプロセス

Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling ( http://arxiv.org/abs/2402.18846v1 )

ライセンス: Link先を確認
Ruijia Niu, Dongxia Wu, Kai Kim, Yi-An Ma, Duncan Watson-Parris, Rose Yu(参考訳) マルチフィデリティ・サロゲートモデリングは,複数の情報源からのデータを組み合わせて,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。 ガウス過程に依存する伝統的な手法は、高次元データにはほとんどスケールできない。 ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。 これらのアプローチは、対応するデコーダパラメータを含まずに、fidelityにまたがるエンコード表現を共有する。 高い忠実度では、表現は異なるパラメータでデコードされ、共有された情報が本質的に不正確になる。 これにより、特に最も高い忠実度データがドメインカバレッジに制限がある場合、予測性能が阻害される。 これらの制約に対処するために,我々は,新しいマルチフィデリティサーロゲートモデリングフレームワークであるmulti-fidelity residual neural processes (mfrnp)を提案する。 MFRNPは、低忠実度サロゲート出力を集約することで正確な情報共有のための低忠実度デコーダを最適化し、最も高い忠実度におけるアグリゲーションと基底真理の間の残差をモデル化する。 MFRNPは、偏微分方程式の学習や実世界の気候モデリングタスクにおいて、現在の最先端技術よりも著しく優れていることを示す。

Multi-fidelity surrogate modeling aims to learn an accurate surrogate at the highest fidelity level by combining data from multiple sources. Traditional methods relying on Gaussian processes can hardly scale to high-dimensional data. Deep learning approaches utilize neural network based encoders and decoders to improve scalability. These approaches share encoded representations across fidelities without including corresponding decoder parameters. At the highest fidelity, the representations are decoded with different parameters, making the shared information inherently inaccurate. This hinders inference performance, especially in out-of-distribution scenarios when the highest fidelity data has limited domain coverage. To address these limitations, we propose Multi-fidelity Residual Neural Processes (MFRNP), a novel multi-fidelity surrogate modeling framework. MFRNP optimizes lower fidelity decoders for accurate information sharing by aggregating lower fidelity surrogate outputs and models residual between the aggregation and ground truth on the highest fidelity. We show that MFRNP significantly outperforms current state-of-the-art in learning partial differential equations and a real-world climate modeling task.
翻訳日:2024-03-01 16:00:21 公開日:2024-02-29
# DIGIC:因果発見によるドメイン一般化可能な模倣学習

DIGIC: Domain Generalizable Imitation Learning by Causal Discovery ( http://arxiv.org/abs/2402.18910v1 )

ライセンス: Link先を確認
Yang Chen, Yitao Liang, Zhouchen Lin(参考訳) 因果性は機械学習と組み合わされ、ドメインの一般化のための堅牢な表現を生み出す。 このタイプの既存の方法の多くは、クロスドメインのバリエーションによって因果的特徴を特定するために、複数のドメインからの膨大なデータを必要とする。 本研究では,実演データ分布を利用して,ドメイン一般化ポリシーの因果的特徴を発見することで,異なる試みを行う。 DIGICと呼ばれる新しいフレームワークを設計し、因果発見による実演データ分布から専門家行動の直接的な原因を見つけることによって因果的特徴を特定する。 本フレームワークは、単一ドメインデータのみを用いてドメイン一般化可能な模倣学習を実現し、基礎となる因果モデルに対する非構造的仮定の下で、ドメイン間変動に基づく手法の補完となる。 各種制御タスクにおける実証研究により,提案フレームワークは明らかにドメインの一般化性能を向上し,同時に元のドメインの専門家に匹敵する性能を示した。

Causality has been combined with machine learning to produce robust representations for domain generalization. Most existing methods of this type require massive data from multiple domains to identify causal features by cross-domain variations, which can be expensive or even infeasible and may lead to misidentification in some cases. In this work, we make a different attempt by leveraging the demonstration data distribution to discover the causal features for a domain generalizable policy. We design a novel framework, called DIGIC, to identify the causal features by finding the direct cause of the expert action from the demonstration data distribution via causal discovery. Our framework can achieve domain generalizable imitation learning with only single-domain data and serve as a complement for cross-domain variation-based methods under non-structural assumptions on the underlying causal models. Our empirical study in various control tasks shows that the proposed framework evidently improves the domain generalization performance and has comparable performance to the expert in the original domain simultaneously.
翻訳日:2024-03-01 15:56:28 公開日:2024-02-29
# 言語モデルの非構造化による更新: 実践的知識編集を目指して

Updating Language Models with Unstructured Facts: Towards Practical Knowledge Editing ( http://arxiv.org/abs/2402.18909v1 )

ライセンス: Link先を確認
Xiaobao Wu, Liangming Pan, William Yang Wang, Anh Tuan Luu(参考訳) 知識編集は、言語モデルに知識の更新を注入し、それらを正確かつ最新に保つことを目的としている。 しかし、現在の評価戦略は特に非現実的であり、厳密な構造化された事実(主題、関係、対象のトリップレット)のみを更新するのに対して、現実世界の知識更新はニュース記事のような非構造化テキストに現れる。 本稿では,Unstructured Knowledge Editing (UKE) という新しいベンチマークを提案する。 非構造化テキストを知識更新として直接使用し、非構造化事実と呼ばれる編集性能を評価する。 したがって、UKEは構造化事実の面倒な構築を避け、効率的で応答性の高い知識編集を可能にし、より実用的なベンチマークとなる。 我々は,新たに構築したデータセットを広範囲に実験し,ukeが最先端の知識編集手法に重大な課題をもたらすことを実証した。 さらに,三重項を構造的事実として抽出しても,この課題は継続することを示す。 我々の分析は、より実践的な知識編集のために、イギリスにおける将来の研究を動機付ける重要な洞察を開示する。

Knowledge editing aims to inject knowledge updates into language models to keep them correct and up-to-date. However, its current evaluation strategies are notably impractical: they solely update with well-curated structured facts (triplets with subjects, relations, and objects), whereas real-world knowledge updates commonly emerge in unstructured texts like news articles. In this paper, we propose a new benchmark, Unstructured Knowledge Editing (UKE). It evaluates editing performance directly using unstructured texts as knowledge updates, termed unstructured facts. Hence UKE avoids the laborious construction of structured facts and enables efficient and responsive knowledge editing, becoming a more practical benchmark. We conduct extensive experiments on newly built datasets and demonstrate that UKE poses a significant challenge to state-of-the-art knowledge editing methods, resulting in their critical performance declines. We further show that this challenge persists even if we extract triplets as structured facts. Our analysis discloses key insights to motivate future research in UKE for more practical knowledge editing.
翻訳日:2024-03-01 15:56:11 公開日:2024-02-29
# スケーリング効果を考慮した施設位置ゲーム

Facility Location Games with Scaling Effects ( http://arxiv.org/abs/2402.18908v1 )

ライセンス: Link先を確認
Yu He, Alexander Lam and Minming Li(参考訳) 本稿では,古典的な施設配置問題を考慮し,各エージェントの個々のコスト関数が,施設配置によって決定されるスケーリング係数によって乗算された施設からの距離と等しい変動を考慮した。 連続スケーリング関数の一般的なクラスに加えて、多くの実世界のシナリオのスケーリングを効果的に近似またはモデル化できる分割線形スケーリング関数の結果も提供する。 我々は,最適解の計算を記述し,総コストと最大コストの目標に焦点をあてる。 次に、エージェントの嗜好がもはやシングルピーク化されないことを観察して、近似メカニズムの設計設定に移行する。 その結果、エージェントが単一話者の嗜好を持つことを保証するスケーリング関数の条件を特徴付ける。 これらの条件下では、戦略と匿名のメカニズムによって達成できる総コストと最大コストの近似比について結果を得る。

We take the classic facility location problem and consider a variation, in which each agent's individual cost function is equal to their distance from the facility multiplied by a scaling factor which is determined by the facility placement. In addition to the general class of continuous scaling functions, we also provide results for piecewise linear scaling functions which can effectively approximate or model the scaling of many real world scenarios. We focus on the objectives of total and maximum cost, describing the computation of the optimal solution. We then move to the approximate mechanism design setting, observing that the agents' preferences may no longer be single-peaked. Consequently, we characterize the conditions on scaling functions which ensure that agents have single-peaked preferences. Under these conditions, we find results on the total and maximum cost approximation ratios achievable by strategyproof and anonymous mechanisms.
翻訳日:2024-03-01 15:55:52 公開日:2024-02-29
# 微分プライベート微調整の収束について:線形プローブか完全微調整か?

On the Convergence of Differentially-Private Fine-tuning: To Linearly Probe or to Fully Fine-tune? ( http://arxiv.org/abs/2402.18905v1 )

ライセンス: Link先を確認
Shuqi Ke, Charlie Hou, Giulia Fanti, Sewoong Oh(参考訳) 差分プライベート(DP)マシンラーニングパイプラインは通常、パブリックデータセット上でのプライベート事前トレーニングと、DP最適化技術を使用したプライベートデータの微調整という、2フェーズプロセスを含む。 dp設定では, 分布内データにおいても, 完全な微調整が必ずしも最良のテスト精度をもたらすとは限らない。 本稿では, (1) DP線形探傷(LP) とフル微調整(FT) の訓練力学を解析し, (2) 線形探傷からフル微調整(LP-FT)への移行に至るまでの逐次微調整現象とそのテスト損失への影響について検討する。 我々は,過パラメータニューラルネットワーク内のdp微調整の収束に関する理論的知見を提供し,線形プローブと完全微調整の間のプライバシ予算の配分を決定するユーティリティ曲線を確立する。 理論結果は、様々なベンチマークやモデルに関する経験的評価によって支持される。 その結果,DPファインチューニング法の複雑な性質が明らかになった。 これらの結果はDP機械学習の理解を深め、微調整プロセスにおけるプライバシー予算の配分を検討することの重要性を強調している。

Differentially private (DP) machine learning pipelines typically involve a two-phase process: non-private pre-training on a public dataset, followed by fine-tuning on private data using DP optimization techniques. In the DP setting, it has been observed that full fine-tuning may not always yield the best test accuracy, even for in-distribution data. This paper (1) analyzes the training dynamics of DP linear probing (LP) and full fine-tuning (FT), and (2) explores the phenomenon of sequential fine-tuning, starting with linear probing and transitioning to full fine-tuning (LP-FT), and its impact on test loss. We provide theoretical insights into the convergence of DP fine-tuning within an overparameterized neural network and establish a utility curve that determines the allocation of privacy budget between linear probing and full fine-tuning. The theoretical results are supported by empirical evaluations on various benchmarks and models. The findings reveal the complex nature of DP fine-tuning methods. These results contribute to a deeper understanding of DP machine learning and highlight the importance of considering the allocation of privacy budget in the fine-tuning process.
翻訳日:2024-03-01 15:55:40 公開日:2024-02-29
# ランダム化制御試験におけるロジスティック回帰の確率的共変量調整

Prognostic Covariate Adjustment for Logistic Regression in Randomized Controlled Trials ( http://arxiv.org/abs/2402.18900v1 )

ライセンス: Link先を確認
Yunfan Li and Arman Sabbaghi and Jonathan R. Walsh and Charles K. Fisher(参考訳) 2次一次終端を持つランダム化制御試験(RCT)は、治療の因果効果を推測する新しい課題をもたらす。 最も重要な課題は非可分解性であり、共変量調整下での条件オッズ比推定は、RDTデータのロジスティック回帰解析における非条件オッズ比推定と異なる。 この問題は、共変量調整モデルから条件付きオッズ比への推定器の分散が不調整モデルからの推定器の分散よりも大きいような明らかなパラドックスを生じさせる。 我々は,予測スコアと呼ばれる生成型人工知能(ai)アルゴリズムによる制御結果の予測に基づいて,調整という文脈でこの問題に対処する。 我々は,ロジスティック回帰における確率的スコア調整が,条件付オッズ比のウォルド試験のパワーを固定標本サイズ以下に向上させるか,あるいは不調整解析と比較して,所望のパワーを達成するために必要なサンプルサイズを減少させることを示した。 我々は,予測値の調整から得られるパワーゲインとサンプルサイズ削減の予測計算式を導出する。 さらに, g-computation を用いて, 確率的スコア調整の範囲を限界リスク差, 相対リスク, 確率比推定値に基づいて拡張する。 本稿では,ロジスティック回帰モデル仕様を包含する広範囲なシミュレーション研究を通じて,式の有効性を示す。 また, 漸近的不偏性やI型誤差率制御などの頻繁な特性を維持しつつ, 限界推定値に対するg計算推定値の分散をいかに軽減するかをシミュレーションした。 本手法により,2次一次終端を持つRCTのより決定的かつ決定的な解析が可能となる。

Randomized controlled trials (RCTs) with binary primary endpoints introduce novel challenges for inferring the causal effects of treatments. The most significant challenge is non-collapsibility, in which the conditional odds ratio estimand under covariate adjustment differs from the unconditional estimand in the logistic regression analysis of RCT data. This issue gives rise to apparent paradoxes, such as the variance of the estimator for the conditional odds ratio from a covariate-adjusted model being greater than the variance of the estimator from the unadjusted model. We address this challenge in the context of adjustment based on predictions of control outcomes from generative artificial intelligence (AI) algorithms, which are referred to as prognostic scores. We demonstrate that prognostic score adjustment in logistic regression increases the power of the Wald test for the conditional odds ratio under a fixed sample size, or alternatively reduces the necessary sample size to achieve a desired power, compared to the unadjusted analysis. We derive formulae for prospective calculations of the power gain and sample size reduction that can result from adjustment for the prognostic score. Furthermore, we utilize g-computation to expand the scope of prognostic score adjustment to inferences on the marginal risk difference, relative risk, and odds ratio estimands. We demonstrate the validity of our formulae via extensive simulation studies that encompass different types of logistic regression model specifications. Our simulation studies also indicate how prognostic score adjustment can reduce the variance of g-computation estimators for the marginal estimands while maintaining frequentist properties such as asymptotic unbiasedness and Type I error rate control. Our methodology can ultimately enable more definitive and conclusive analyses for RCTs with binary primary endpoints.
翻訳日:2024-03-01 15:55:18 公開日:2024-02-29
# オープン量子システムにおける期待値の進化について

On the evolution of expected values in open quantum systems ( http://arxiv.org/abs/2402.18895v1 )

ライセンス: Link先を確認
Andr\'es Vallejo, Alejandro Romanelli, and Ra\'ul Donangelo(参考訳) 開量子系に有効なエレンフェスト定理の一般化を導出する。 この結果から,観測可能な時間依存性,熱相互作用,量子コヒーレンスという,期待値の進化に寄与する3つの因子を同定した。 局所ハミルトニアンを観測可能なものとして考えると、熱力学の最初の法則の代替版が得られる。 場合によっては、変化のエネルギー率に対する非熱的寄与をエルミート作用素の期待値として表すことができるので、系によって実行される電力は量子観測可能と考えることができる。 アプリケーションとして、純粋なdephasingプロセスはこの観点から再解釈される。

We derive a generalization of the Ehrenfest theorem valid for open quantum systems. From this result, we identify three factors contributing to the evolution of expected values: explicit time dependence of the observable, thermal interaction, and quantum coherence. When considering the local Hamiltonian as the observable, we obtain an alternative version of the first law of thermodynamics. In some cases, the non-thermal contributions to the energy rate of change can be expressed as the expected value of a Hermitian operator, so the power performed by the system can be considered a quantum observable. As an application, the pure dephasing process is reinterpreted from this perspective.
翻訳日:2024-03-01 15:54:50 公開日:2024-02-29
# 物体移動ナビゲーションのための知識グラフと視覚知覚の整合

Aligning Knowledge Graph with Visual Perception for Object-goal Navigation ( http://arxiv.org/abs/2402.18892v1 )

ライセンス: Link先を確認
Nuo Xu, Wen Wang, Rong Yang, Mengjie Qin, Zheyuan Lin, Wei Song, Chunlong Zhang, Jason Gu, Chao Li(参考訳) オブジェクトゴールナビゲーションは、一対一の視覚的観察に基づいてエージェントを特定のオブジェクトに誘導する必要がある難しいタスクである。 エージェントが周囲を理解する能力は、オブジェクト発見を成功させる上で重要な役割を果たす。 しかし、既存のナレッジグラフベースのナビゲータは、しばしば個別のカテゴリの1ホットベクトルと投票カウント戦略に頼り、シーンのグラフ表現を構築する。 より正確でコヒーレントなシーン記述を提供し,このミスアライメント問題に対処するために,オブジェクト指向ナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。 技術的には、このアプローチは階層的シーンアーキテクチャの継続的なモデリングを導入し、自然言語記述と視覚知覚を整合させるためにビジュアル言語事前学習を利用する。 継続的ナレッジグラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション機能を持つようになる。 本手法をai2thorシミュレータを用いて広範囲に評価し,ナビゲータの有効性と効率を実証する実験を行った。 コード提供: https://github.com/nuoxu/akgvp。

Object-goal navigation is a challenging task that requires guiding an agent to specific objects based on first-person visual observations. The ability of agent to comprehend its surroundings plays a crucial role in achieving successful object finding. However, existing knowledge-graph-based navigators often rely on discrete categorical one-hot vectors and vote counting strategy to construct graph representation of the scenes, which results in misalignment with visual images. To provide more accurate and coherent scene descriptions and address this misalignment issue, we propose the Aligning Knowledge Graph with Visual Perception (AKGVP) method for object-goal navigation. Technically, our approach introduces continuous modeling of the hierarchical scene architecture and leverages visual-language pre-training to align natural language description with visual perception. The integration of a continuous knowledge graph architecture and multimodal feature alignment empowers the navigator with a remarkable zero-shot navigation capability. We extensively evaluate our method using the AI2-THOR simulator and conduct a series of experiments to demonstrate the effectiveness and efficiency of our navigator. Code available: https://github.com/nuoxu/AKGVP.
翻訳日:2024-03-01 15:54:39 公開日:2024-02-29
# 異種データサイロにおける離散的フェデレート学習のための不確実性に基づく拡張可能コードブック

Uncertainty-Based Extensible Codebook for Discrete Federated Learning in Heterogeneous Data Silos ( http://arxiv.org/abs/2402.18888v1 )

ライセンス: Link先を確認
Tianyi Zhang, Yu Cao, Dianbo Liu(参考訳) 巨大な分散データセットを活用することを目的としたフェデレーション学習(FL)は、さまざまなサイロにまたがるデータの均一性という重要な課題に直面している。 従来の研究では、小さな分布シフトにまたがるモデル一般化を強化するために離散表現を探索してきたが、これらのアプローチは、大きな分散分布を持つ新しいデータサイロへの適応に苦慮することが多い。 その結果,不慣れな分布を持つデータサイロに適用した場合,FL由来のモデルが著しく不確実性を示した。 その結果,不確実性に基づく拡張可能コードブックフェデレートラーニング(UEFL)と呼ばれる,革新的で簡単な反復型フレームワークを提案する。 このフレームワークは潜在機能を学習可能な離散ベクトルに動的にマッピングし、不確実性を評価し、特に不確実性を示すサイロの離散化辞書やコードブックを拡張する。 本手法は,異種データサイロを特徴とする環境での計算オーバーヘッドを最小限に抑えつつ,データ分散の多様性を明示的に解決することで,精度の向上と不確実性低減を両立することを目的とする。 5つのデータセットで行った実験により, 精度(3%-22.1%)と不確実性(38.83%-96.24%)が向上し, 現代の最先端手法よりも優れていた。 ソースコードはhttps://github.com/destiny301/ueflで入手できる。

Federated learning (FL), aimed at leveraging vast distributed datasets, confronts a crucial challenge: the heterogeneity of data across different silos. While previous studies have explored discrete representations to enhance model generalization across minor distributional shifts, these approaches often struggle to adapt to new data silos with significantly divergent distributions. In response, we have identified that models derived from FL exhibit markedly increased uncertainty when applied to data silos with unfamiliar distributions. Consequently, we propose an innovative yet straightforward iterative framework, termed Uncertainty-Based Extensible-Codebook Federated Learning (UEFL). This framework dynamically maps latent features to trainable discrete vectors, assesses the uncertainty, and specifically extends the discretization dictionary or codebook for silos exhibiting high uncertainty. Our approach aims to simultaneously enhance accuracy and reduce uncertainty by explicitly addressing the diversity of data distributions, all while maintaining minimal computational overhead in environments characterized by heterogeneous data silos. Through experiments conducted on five datasets, our method has demonstrated its superiority, achieving significant improvements in accuracy (by 3%--22.1%) and uncertainty reduction (by 38.83%--96.24%), thereby outperforming contemporary state-of-the-art methods. The source code is available at https://github.com/destiny301/uefl.
翻訳日:2024-03-01 15:54:21 公開日:2024-02-29
# bp-deeponet : physcis-informed deeponetを用いた無重力血圧推定法

BP-DeepONet: A new method for cuffless blood pressure estimation using the physcis-informed DeepONet ( http://arxiv.org/abs/2402.18886v1 )

ライセンス: Link先を確認
Lingfeng Li and Xue-Cheng Tai and Raymond Chan(参考訳) 心臓血管疾患(CVD)は、世界中の死因の主要な原因であり、血圧が重要な指標である。 動脈血圧(ABP)波形は、心臓周期を通して連続的な血圧測定を提供し、貴重な診断指標を提供する。 その結果、ABP波形を連続的に測定する非侵襲的かつカフレスな手法にはかなりの需要がある。 ABP波形の正確な予測はまた、心臓血管の健康特性である平均血圧の推定を改善することができる。 本研究では, ABP波形を予測するための物理情報を用いたDeepONetアプローチに基づく新しいフレームワークを提案する。 従来の手法とは異なり,本手法ではナヴィエ・ストークス方程式を時周期条件とウィンドケッセル境界条件で満たすために予測されたABP波形を必要とする。 特に我々のフレームワークは、シミュレーションされている動脈の一部内で、位置と時間の両方でapp波形を連続的に予測する最初のフレームワークです。 さらに,本手法では,アウトレット境界での基底真理データのみを要求でき,周期的に異なる条件を処理できる。 この解にウィンドケッセル境界条件を組み込むことで,実世界の観測値によく似た自然反射波を生成することができる。 さらに,navier-stokes方程式におけるハイパーパラメータを正確に推定することは大きな課題である。 この障害を克服するために、ニューラルネットワークがトレーニングプロセス中にこれらのパラメータを学習できるように、メタラーニングの概念を導入する。

Cardiovascular diseases (CVDs) are the leading cause of death worldwide, with blood pressure serving as a crucial indicator. Arterial blood pressure (ABP) waveforms provide continuous pressure measurements throughout the cardiac cycle and offer valuable diagnostic insights. Consequently, there is a significant demand for non-invasive and cuff-less methods to measure ABP waveforms continuously. Accurate prediction of ABP waveforms can also improve the estimation of mean blood pressure, an essential cardiovascular health characteristic. This study proposes a novel framework based on the physics-informed DeepONet approach to predict ABP waveforms. Unlike previous methods, our approach requires the predicted ABP waveforms to satisfy the Navier-Stokes equation with a time-periodic condition and a Windkessel boundary condition. Notably, our framework is the first to predict ABP waveforms continuously, both with location and time, within the part of the artery that is being simulated. Furthermore, our method only requires ground truth data at the outlet boundary and can handle periodic conditions with varying periods. Incorporating the Windkessel boundary condition in our solution allows for generating natural physical reflection waves, which closely resemble measurements observed in real-world cases. Moreover, accurately estimating the hyper-parameters in the Navier-Stokes equation for our simulations poses a significant challenge. To overcome this obstacle, we introduce the concept of meta-learning, enabling the neural networks to learn these parameters during the training process.
翻訳日:2024-03-01 15:53:55 公開日:2024-02-29
# 教師付きコントラスト表現学習:制約のない特徴を用いた景観分析

Supervised Contrastive Representation Learning: Landscape Analysis with Unconstrained Features ( http://arxiv.org/abs/2402.18884v1 )

ライセンス: Link先を確認
Tina Behnia, Christos Thrampoulidis(参考訳) 近年の知見では、トレーニングエラーゼロを超えて訓練された過剰パラメータのディープニューラルネットワークは、ニューラルネットワーク(nc)と呼ばれる最終層に特徴的な構造パターンを示すことが示されている。 これらの結果から,これらのネットワークにおける最後の隠れ層出力は,トレーニングセットに対して最小限のクラス内変動を示すことがわかった。 既存の研究はクロスエントロピー損失の下でこの現象を広範囲に研究しているが、対照的なコントラスト損失(supervised contrastive (sc) loss)に焦点を当てた研究は少ない。 NCのレンズを用いて,SC損失の最適化から得られた解を解析的に研究する。 我々は、十分に過パラメータ化された深層ネットワークにおいてNC関連現象を明らかにするための代表的プロキシとして、制約のない特徴モデル(UFM)を採用する。 SC損失最小化の非凸性にもかかわらず、局所最小化はすべて大域最小化であることを示す。 さらに、最小化器は一意(回転まで)である。 我々は ufm の密接な凸緩和を定式化することで結果を証明する。 最後に、この凸定式化を通じて、ラベル不均衡なトレーニングデータの下でのグローバルソリューションの特性をより深く把握する。

Recent findings reveal that over-parameterized deep neural networks, trained beyond zero training-error, exhibit a distinctive structural pattern at the final layer, termed as Neural-collapse (NC). These results indicate that the final hidden-layer outputs in such networks display minimal within-class variations over the training set. While existing research extensively investigates this phenomenon under cross-entropy loss, there are fewer studies focusing on its contrastive counterpart, supervised contrastive (SC) loss. Through the lens of NC, this paper employs an analytical approach to study the solutions derived from optimizing the SC loss. We adopt the unconstrained features model (UFM) as a representative proxy for unveiling NC-related phenomena in sufficiently over-parameterized deep networks. We show that, despite the non-convexity of SC loss minimization, all local minima are global minima. Furthermore, the minimizer is unique (up to a rotation). We prove our results by formalizing a tight convex relaxation of the UFM. Finally, through this convex formulation, we delve deeper into characterizing the properties of global solutions under label-imbalanced training data.
翻訳日:2024-03-01 15:53:30 公開日:2024-02-29
# 連続変数量子鍵分布を用いた将来のネットワーク暗号化技術(および重要なインフラストラクチャデータの確保)

Future proofing network encryption technology (and securing critical infrastructure data) with continuous-variable quantum key distribution ( http://arxiv.org/abs/2402.18881v1 )

ライセンス: Link先を確認
Nitin Jain, Hou-Man Chin, Dev Null, Adnan A.E. Hajomer, Henrik Larfort, Naja Lautrup Nysom, Erik Bidstrup, Ulrik L. Andersen, Tobias Gehring(参考訳) デンマークの2つの場所で量子セキュアなデータ転送リンクの確立を実証する。lyngbyにあるデンマーク工科大学(dtu)のキャンパスと、energinet が odense で所有・運用している2つの電力グリッドノードの間である。 4つの異なるチャネルが調査され、1つは純粋に地下繊維であり、もう1つは地下繊維と光学接地ワイヤ(OPGW)の組み合わせである。 半自律型連続可変量子鍵分布(cvqkd)プロトタイプを用いて1550 nmのコヒーレント量子量子状態を作成し測定し、約1300 nmで動作する2つの商用層2ネットワーク暗号化装置からの'classical' 100g暗号化データトラフィックと波長多重した。 dtuでは、平均秘密鍵レートは1.12$ mbps(チャネル損失が1550 nmで5.5 db)、energinetでは3つのチャネル(損失が4.1, 6.7, 8.9 db)に対応する数字はそれぞれ2.05$,$0.90$,$0.23$ mbpsである。 デモでは、QKDが、セキュアでないチャネル上に伝播する機密性の高いネットワークトラフィックを保護するための追加レイヤとして機能できることが示されている。

We demonstrate the establishment of quantum-secure data transfer links at two locations in Denmark: on the campus of Technical University of Denmark (DTU) in Lyngby and between two power grid nodes owned and operated by Energinet in Odense. Four different channels were investigated, one being a purely underground fiber and the other three being combinations of underground fibers and optical ground wires (OPGWs). Coherent `quantum' states at 1550 nm, prepared and measured using a semi-autonomous continuous-variable quantum key distribution (CVQKD) prototype, were multiplexed in wavelength with `classical' 100G encrypted data traffic from a pair of commercial layer-2 network encryption devices operating at around 1300 nm. At DTU, we estimate average secret key rates in the asymptotic limit of $1.12$ Mbps (channel loss of 5.5 dB at 1550 nm) while at Energinet, the figures corresponding to the three channels (with losses of 4.1, 6.7, and 8.9 dB) are $2.05$, $0.90$, and $0.23$ Mbps, respectively. The demonstration showcases that QKD can serve as an additional layer to protect sensitive network traffic propagating on insecure channels.
翻訳日:2024-03-01 15:52:56 公開日:2024-02-29
# 線量予測による放射線治療パラメータの回帰

Dose Prediction Driven Radiotherapy Paramters Regression via Intra- and Inter-Relation Modeling ( http://arxiv.org/abs/2402.18879v1 )

ライセンス: Link先を確認
Jiaqi Cui, Yuanyuan Xu, Jianghong Xiao, Yuchen Fei, Jiliu Zhou, Xingcheng Peng, Yan Wang(参考訳) 深層学習は正確な線量分布の予測によって放射線治療の自動化を促進する。 しかし、既存の方法は、治療計画システム(tps)に直接入力できる望ましい放射線治療パラメータを導出できず、放射線治療の完全な自動化を妨げる。 本稿では,線量マップ予測段階と放射線治療パラメータ回帰段階を含む放射線治療パラメータを直接回帰する新たな2段階フレームワークを提案する。 ステージ1では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)を組み合わせて、リアルな線量マップをリッチなグローバルおよびローカルな情報で予測し、その後のパラメータ回帰の正確なドシメトリック知識を提供する。 ステージ2では、2つの精巧なモジュール、すなわちintra-rm(intra-rm)モジュールとinter-rm(inter-relation modeling)モジュールが、正確なパラメータ回帰のために臓器特異的および臓器共有の特徴を利用するように設計されている。 直腸癌データセットの実験結果から,本手法の有効性が示された。

Deep learning has facilitated the automation of radiotherapy by predicting accurate dose distribution maps. However, existing methods fail to derive the desirable radiotherapy parameters that can be directly input into the treatment planning system (TPS), impeding the full automation of radiotherapy. To enable more thorough automatic radiotherapy, in this paper, we propose a novel two-stage framework to directly regress the radiotherapy parameters, including a dose map prediction stage and a radiotherapy parameters regression stage. In stage one, we combine transformer and convolutional neural network (CNN) to predict realistic dose maps with rich global and local information, providing accurate dosimetric knowledge for the subsequent parameters regression. In stage two, two elaborate modules, i.e., an intra-relation modeling (Intra-RM) module and an inter-relation modeling (Inter-RM) module, are designed to exploit the organ-specific and organ-shared features for precise parameters regression. Experimental results on a rectal cancer dataset demonstrate the effectiveness of our method.
翻訳日:2024-03-01 15:52:10 公開日:2024-02-29
# ベイジアン・フィロリスティック・リコンストラクションの正当性チェックとしての主成分分析

Principal Component Analysis as a Sanity Check for Bayesian Phylolinguistic Reconstruction ( http://arxiv.org/abs/2402.18877v1 )

ライセンス: Link先を確認
Yugo Murawaki(参考訳) 言語の進化史を再構築するベイズ的アプローチは、これらの言語が共通の祖先から派生し、時間をかけて修正されたと仮定するツリーモデルに依存している。 しかし、この仮定は接触やその他の要因によって異なる範囲で破ることができる。 この仮定に違反する程度を理解することは、系統言語的推論の正確性を検証するために重要である。 本稿では, 主成分分析により生成された空間に再構成木を投影する, 簡易な正当性チェックを提案する。 本手法は,合成データと実データの両方を用いて,特にジョギング形式の異常を効果的に可視化する。

Bayesian approaches to reconstructing the evolutionary history of languages rely on the tree model, which assumes that these languages descended from a common ancestor and underwent modifications over time. However, this assumption can be violated to different extents due to contact and other factors. Understanding the degree to which this assumption is violated is crucial for validating the accuracy of phylolinguistic inference. In this paper, we propose a simple sanity check: projecting a reconstructed tree onto a space generated by principal component analysis. By using both synthetic and real data, we demonstrate that our method effectively visualizes anomalies, particularly in the form of jogging.
翻訳日:2024-03-01 15:51:39 公開日:2024-02-29
# 不均一グラフニューラルネットワークのためのロスアウェアカリキュラム学習

Loss-aware Curriculum Learning for Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2402.18875v1 )

ライセンス: Link先を確認
Zhen Hao Wong, Hansi Yang, Xiaoyi Fu, Quanming Yao(参考訳) ヘテロジニアスグラフニューラルネットワーク(ヘテロジニアスグラフニューラルネットワーク、hgnn)は、異なる種類のノードとエッジを含むグラフであるヘテロジニアスグラフ用に設計されたディープラーニングモデルである。 本稿では,不均一グラフニューラルネットワーク(GNN)の性能と堅牢性向上のためのカリキュラム学習手法の適用について検討する。 データの品質をよりよく分類するために、データの各ノードの品質を測定し、トレーニングデータセットを段階的にモデルに組み込むことで、ステップごとに困難を増すような、損失認識型トレーニングスケジュールであるLTSを設計する。 ltsは様々なフレームワークにシームレスに統合でき、バイアスと分散を効果的に低減し、ノイズデータの影響を緩和し、全体的な精度を向上させることができる。 本研究は,複雑なグラフ構造データ解析のためのHGNNの能力向上のためのカリキュラム学習の有効性を示す。 コードはhttps: //github.com/LARS-research/CLGNN/で公開されている。

Heterogeneous Graph Neural Networks (HGNNs) are a class of deep learning models designed specifically for heterogeneous graphs, which are graphs that contain different types of nodes and edges. This paper investigates the application of curriculum learning techniques to improve the performance and robustness of Heterogeneous Graph Neural Networks (GNNs). To better classify the quality of the data, we design a loss-aware training schedule, named LTS that measures the quality of every nodes of the data and incorporate the training dataset into the model in a progressive manner that increases difficulty step by step. LTS can be seamlessly integrated into various frameworks, effectively reducing bias and variance, mitigating the impact of noisy data, and enhancing overall accuracy. Our findings demonstrate the efficacy of curriculum learning in enhancing HGNNs capabilities for analyzing complex graph-structured data. The code is public at https: //github.com/LARS-research/CLGNN/.
翻訳日:2024-03-01 15:51:19 公開日:2024-02-29
# 決定論的回路分解による量子回路の低深度仮想蒸留

Low Depth Virtual Distillation of Quantum Circuits by Deterministic Circuit Decomposition ( http://arxiv.org/abs/2402.18874v1 )

ライセンス: Link先を確認
Akib Karim, Shaobo Zhang, Muhammad Usman(参考訳) 量子回路の多重コピー測定を用いた仮想蒸留(vd)は,最近,期待値のノイズ低減の一手法として提案されている。 bゲートと呼ばれる回路分解は単一の量子ビット期待値に対してのみ見出されたが、実用的な計算にはbゲートでは修正できないマルチ量子ビット期待値が必要である。 我々は、複数の投影を組み合わせて正確な測定統計値や期待値を復元することで、マルチキュービット予測値に対する低深さ回路分解を発見する。 提案手法は, 量子ビット数を持つ線形エンタングルゲートを付加するが, 余分な測定を必要とする。 さらに、変分量子固有ソルバ(vqe)アルゴリズムのような基底状態を見つけるアプリケーションでは、エネルギーが基底状態エネルギーを下回ることのできない状態の変分原理が必要となる。 ノイズがVQEを不要にするマルチキュービットよりも1つの期待値に高い場合、変動原理は違反する。 これはbゲートを使用する場合に起こり、すべての期待値の低深さ分解を使用すると保存される。 実デバイス上で実演を行い,その分解により,2キュービットのテーパマップを持つH$2$分子,3キュービットを持つH$_3$,4キュービットを持つH$2$分子に対する実実験ノイズを緩和できることを示す。 この分解は,実デバイス上で,より低い深さと任意の可観測性で重複回路を仮想蒸留する方法を提供する。

Virtual distillation (VD) using measurements of multiple copies of a quantum circuit have recently been proposed as a method of noise mitigation of expectation values. Circuit decompositions known as B gates were found only for single qubit expectation values however practical calculations require multi-qubit expectation values which cannot be corrected with B gates. We discover low depth circuit decompositions for multi-qubit expectation values by combining multiple projections to recover the correct measurement statistics or expectation values. Our method adds linear entangling gates with number of qubits, but requires extra measurements. Furthermore, in applications to find ground states such as the variational quantum eigensolver (VQE) algorithm, the variational principle is required which states the energy cannot go below the ground state energy. We discover that the variational principle is violated if noise is higher on single expectation values than multi-qubit which renders VQE useless. We show this occurs when using B gates and is preserved if using our low depth decomposition on all expectation values. We perform demonstration on real devices and demonstrate our decomposition can mitigate real experimental noise in VQE for the H$_2$ molecule with a two qubit tapered mapping, H$_3$ with three qubits, and H$_2$ with four qubits. Our decomposition provides a way to perform duplicate circuit virtual distillation on real devices at significantly lower depth and for arbitrary observables.
翻訳日:2024-03-01 15:50:49 公開日:2024-02-29
# エンド・ツー・エンドの量子ビジョントランスフォーマー:大規模モデルにおける実用的な量子スピードアップに向けて

End-to-End Quantum Vision Transformer: Towards Practical Quantum Speedup in Large-Scale Models ( http://arxiv.org/abs/2402.18940v1 )

ライセンス: Link先を確認
Cheng Xue, Zhao-Yun Chen, Xi-Ning Zhuang, Yun-Jie Wang, Tai-Ping Sun, Jun-Chao Wang, Huan-Yu Liu, Yu-Chun Wu, Zi-Lei Wang, Guo-Ping Guo(参考訳) 量子深層学習の分野は、計算能力の進歩に大きな機会をもたらすが、量子深層ニューラルネットワークのスケーリングに必要な量子トモグラフィーの固有の制限のために、‘情報損失問題’という形で大きな障害に直面している。 本稿では、革新的な量子残差接続技術を備えたエンドツーエンド量子ビジョン変換器(QViT)を導入し、これらの課題を克服し、深層学習における量子コンピューティングプロセスを最適化する。 我々のQViTの徹底的な複雑性解析は、理論上指数関数的で経験的に多項式のスピードアップを示し、量子コンピューティングアプリケーションにおけるモデルの効率性とポテンシャルを示している。 最近の大規模変圧器やデータセットに関する広範な数値実験を行い、qvitを量子深層ニューラルネットワークを実用シナリオに適用する先駆的な進歩として確立した。 我々の研究は、現在の量子線形代数アルゴリズムの汎用性を実証するだけでなく、量子深層学習における将来の研究と開発を強化することを約束する包括的な量子深層学習パラダイムを提供する。

The field of quantum deep learning presents significant opportunities for advancing computational capabilities, yet it faces a major obstacle in the form of the ``information loss problem'' due to the inherent limitations of the necessary quantum tomography in scaling quantum deep neural networks. This paper introduces an end-to-end Quantum Vision Transformer (QViT), which incorporates an innovative quantum residual connection technique, to overcome these challenges and therefore optimize quantum computing processes in deep learning. Our thorough complexity analysis of the QViT reveals a theoretically exponential and empirically polynomial speedup, showcasing the model's efficiency and potential in quantum computing applications. We conducted extensive numerical tests on modern, large-scale transformers and datasets, establishing the QViT as a pioneering advancement in applying quantum deep neural networks in practical scenarios. Our work provides a comprehensive quantum deep learning paradigm, which not only demonstrates the versatility of current quantum linear algebra algorithms but also promises to enhance future research and development in quantum deep learning.
翻訳日:2024-03-01 15:45:41 公開日:2024-02-29
# 変形可能なマルチモーダル医用画像登録のためのモダリティ非依存構造画像表現学習

Modality-Agnostic Structural Image Representation Learning for Deformable Multi-Modality Medical Image Registration ( http://arxiv.org/abs/2402.18933v1 )

ライセンス: Link先を確認
Tony C. W. Mok, Zi Li, Yunhao Bai, Jianpeng Zhang, Wei Liu, Yan-Jie Zhou, Ke Yan, Dakai Jin, Yu Shi, Xiaoli Yin, Le Lu, Ling Zhang(参考訳) 異なる画像モダリティにまたがる密度の解剖学的対応を確立することは、多くの医学的画像分析研究と画像誘導放射線治療の基礎的かつ困難な手順である。 既存のマルチモダリティ画像登録アルゴリズムは、統計に基づく類似度尺度や局所構造画像表現に依存する。 しかし、前者は局所的に変化する雑音に敏感であるが、後者はマルチモーダルスキャンの複雑な解剖学的構造に対処できるほど差別的ではなく、異なるモーダルのスキャンで解剖学的対応を決定する際の曖昧さを引き起こす。 本稿では, 近親相似性(DNS)と解剖学的相似性(anatomy-aware contrastive learning)を活用して, 解剖的記述や事前整列した訓練画像を必要としない識別的・コントラスト的深部構造画像表現(DSIR)を学習する。 我々は多相CT,腹部MRI-CT,脳MRT1w-T2wの登録について検討した。 総合的な結果から,本手法は従来の局所的構造表現や統計的類似度尺度よりも識別性と精度の点で優れていることが示された。

Establishing dense anatomical correspondence across distinct imaging modalities is a foundational yet challenging procedure for numerous medical image analysis studies and image-guided radiotherapy. Existing multi-modality image registration algorithms rely on statistical-based similarity measures or local structural image representations. However, the former is sensitive to locally varying noise, while the latter is not discriminative enough to cope with complex anatomical structures in multimodal scans, causing ambiguity in determining the anatomical correspondence across scans with different modalities. In this paper, we propose a modality-agnostic structural representation learning method, which leverages Deep Neighbourhood Self-similarity (DNS) and anatomy-aware contrastive learning to learn discriminative and contrast-invariance deep structural image representations (DSIR) without the need for anatomical delineations or pre-aligned training images. We evaluate our method on multiphase CT, abdomen MR-CT, and brain MR T1w-T2w registration. Comprehensive results demonstrate that our method is superior to the conventional local structural representation and statistical-based similarity measures in terms of discriminability and accuracy.
翻訳日:2024-03-01 15:45:21 公開日:2024-02-29
# 多目的最適化と量子化再構成オフセットを用いた可変レート学習画像圧縮

Variable-Rate Learned Image Compression with Multi-Objective Optimization and Quantization-Reconstruction Offsets ( http://arxiv.org/abs/2402.18930v1 )

ライセンス: Link先を確認
Fatih Kamisli, Fabien Racape, Hyomin Choi(参考訳) 単一のエンドツーエンドの学習画像やビデオ圧縮モデルから計算学的に単純なアルゴリズムで可変ビットレート圧縮を成功させることは依然として困難である。 条件付きオートエンコーダ、潜時テンソルのチャネル適応ゲイン、潜時テンソルの全ての要素を均一に定量化するなど、多くのアプローチが提案されている。 本論文は,すべての潜伏テンソル要素の均一量子化を行うために,単一量子化ステップサイズを変化させる従来のアプローチに従う。 しかし,可変レート圧縮性能を改善するため,3つの修正が提案されている。 第一に、多目的最適化は(ポスト)トレーニングに使用される。 次に、量子化演算に量子化再構成オフセットを導入する。 第3に、可変レート量子化はハイパー潜時においても用いられる。 これらの修正はすべて、ポストトレーニングを実行することで、事前訓練されたシングルレート圧縮モデルで行うことができる。 アルゴリズムは3つのよく知られた画像圧縮モデルに実装され、得られた可変レート圧縮結果は、複数のモデルのトレーニングと比較して、無視または最小の圧縮性能損失を示す。 (コード共有はhttps://github.com/InterDigitalInc/CompressAI)

Achieving successful variable bitrate compression with computationally simple algorithms from a single end-to-end learned image or video compression model remains a challenge. Many approaches have been proposed, including conditional auto-encoders, channel-adaptive gains for the latent tensor or uniformly quantizing all elements of the latent tensor. This paper follows the traditional approach to vary a single quantization step size to perform uniform quantization of all latent tensor elements. However, three modifications are proposed to improve the variable rate compression performance. First, multi objective optimization is used for (post) training. Second, a quantization-reconstruction offset is introduced into the quantization operation. Third, variable rate quantization is used also for the hyper latent. All these modifications can be made on a pre-trained single-rate compression model by performing post training. The algorithms are implemented into three well-known image compression models and the achieved variable rate compression results indicate negligible or minimal compression performance loss compared to training multiple models. (Codes will be shared at https://github.com/InterDigitalInc/CompressAI)
翻訳日:2024-03-01 15:44:55 公開日:2024-02-29
# ドロップアウトを超えてナビゲートする:画像の高解像度化を目指す興味深いソリューション

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution ( http://arxiv.org/abs/2402.18929v1 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Yinqiang Zheng, Tieyong Zeng(参考訳) 近年、ディープラーニングはSingle Image Super-Resolution (SISR)のパフォーマンスに劇的な飛躍をもたらした。 % 実質的な進歩率にもかかわらず、既存のほとんどの研究は単純で固定的な劣化モデル(例えば、バイコビックダウンサンプリング)を前提としているが、ブラインドSRの研究は、未知の劣化を伴うモデル一般化能力の向上を目指している。 kongらは最近、ドロップアウトを用いたブラインドsrのより適切なトレーニング戦略の先駆者となった。 このような手法は、過剰フィッティングを緩和することで実質的な一般化をもたらすが、ドロップアウトが同時に望ましくない副作用をもたらし、モデルの細部を忠実に再構築する能力が損なわれると主張している。 本論文では, 理論的および実験的両方の分析結果を示し, さらに, 1次および2次の特徴統計を単純に調整することで, モデルの一般化能力を向上する, 容易かつ効果的なトレーニング戦略を提案する。 実験結果から,本手法はモデルに依存しない正規化として機能し,合成シナリオと実世界のシナリオの両方を含む7つのベンチマークデータセットのドロップアウトを上回った。

Deep learning has led to a dramatic leap on Single Image Super-Resolution (SISR) performances in recent years. %Despite the substantial advancement% While most existing work assumes a simple and fixed degradation model (e.g., bicubic downsampling), the research of Blind SR seeks to improve model generalization ability with unknown degradation. Recently, Kong et al pioneer the investigation of a more suitable training strategy for Blind SR using Dropout. Although such method indeed brings substantial generalization improvements via mitigating overfitting, we argue that Dropout simultaneously introduces undesirable side-effect that compromises model's capacity to faithfully reconstruct fine details. We show both the theoretical and experimental analyses in our paper, and furthermore, we present another easy yet effective training strategy that enhances the generalization ability of the model by simply modulating its first and second-order features statistics. Experimental results have shown that our method could serve as a model-agnostic regularization and outperforms Dropout on seven benchmark datasets including both synthetic and real-world scenarios.
翻訳日:2024-03-01 15:44:37 公開日:2024-02-29
# 適応的空間-時間意味フィルタリングによるエッジコンピューティングによるリアルタイム映像解析

Edge Computing Enabled Real-Time Video Analysis via Adaptive Spatial-Temporal Semantic Filtering ( http://arxiv.org/abs/2402.18927v1 )

ライセンス: Link先を確認
Xiang Chen, Wenjie Zhu, Jiayuan Chen, Tong Zhang, Changyan Yi, Jun Cai(参考訳) 本稿では,インテリジェントなビジュアルデバイスのための,新しいエッジコンピューティング可能なリアルタイム映像解析システムを提案する。 提案システムは,追跡支援対象検出モジュール(TAODM)と興味深いモジュールの領域(ROIM)から構成される。 TAODMは、トラッキングアルゴリズムで各ビデオフレームを局所的に処理するか、オブジェクト検出モデルにより推論されたエッジサーバにオフロードするか、オフロード決定を適応的に決定する。 ROIMは各オフロードフレームの解像度と検出モデルの設定を決定し、分析結果が時間内に返されるようにします。 TAODMとROIMは共同で対話し、繰り返しの時空間意味情報をフィルタリングし、高いビデオ解析精度を確保しながら処理速度を最大化する。 既存のほとんどの作品とは異なり、知的視覚装置が無線ネットワークを介してエッジサーバと接続し、ネットワーク状態が変動するリアルタイムビデオ分析システムについて検討する。 我々は,リアルタイムビデオ解析問題をオフロード決定と構成選択サブ問題に分解する。 これら2つのサブプロブレムを解決するために,Double Deep Q Network(DDQN)ベースのオフロード手法と,CMABベースの適応的構成選択手法を導入する。 DDQN-CMAB強化学習(DCRL)トレーニングフレームワークをさらに発展させ、これらの2つのアプローチを統合し、全体的なビデオ解析性能を改善する。 提案手法の性能評価と,その優位性を示すため,広範囲なシミュレーションを行った。

This paper proposes a novel edge computing enabled real-time video analysis system for intelligent visual devices. The proposed system consists of a tracking-assisted object detection module (TAODM) and a region of interesting module (ROIM). TAODM adaptively determines the offloading decision to process each video frame locally with a tracking algorithm or to offload it to the edge server inferred by an object detection model. ROIM determines each offloading frame's resolution and detection model configuration to ensure that the analysis results can return in time. TAODM and ROIM interact jointly to filter the repetitive spatial-temporal semantic information to maximize the processing rate while ensuring high video analysis accuracy. Unlike most existing works, this paper investigates the real-time video analysis systems where the intelligent visual device connects to the edge server through a wireless network with fluctuating network conditions. We decompose the real-time video analysis problem into the offloading decision and configurations selection sub-problems. To solve these two sub-problems, we introduce a double deep Q network (DDQN) based offloading approach and a contextual multi-armed bandit (CMAB) based adaptive configurations selection approach, respectively. A DDQN-CMAB reinforcement learning (DCRL) training framework is further developed to integrate these two approaches to improve the overall video analyzing performance. Extensive simulations are conducted to evaluate the performance of the proposed solution, and demonstrate its superiority over counterparts.
翻訳日:2024-03-01 15:44:16 公開日:2024-02-29
# ダブルトランスモンカプラによる高忠実度czゲートの実現

Realization of High-Fidelity CZ Gate based on a Double-Transmon Coupler ( http://arxiv.org/abs/2402.18926v1 )

ライセンス: Link先を確認
Rui Li, Kentaro Kubo, Yinghao Ho, Zhiguang Yan, Yasunobu Nakamura and Hayato Goto(参考訳) ゲート忠実度の向上は、既存のノイズの多い中間スケール量子(NISQ)デバイスの拡張だけでなく、量子エラー補正によるフォールトトレラント量子計算の可能性の開放にも不可欠である。 最近提案されたDouble-transmon coupler (DTC) は、特に高度に変形した量子ビットに対して、抑制された残差相互作用と高速な高忠実度2ビットゲートの両方を同時に達成することを目的としている。 最先端の製作技術と強化学習に基づくモデルフリーのパルス最適化プロセスを用いて,理論dtcスキームを現実に翻訳し,czゲートの99.92%,シングルキュービットゲートの99.98%を達成した。 DTC方式の性能は超伝導量子プロセッサの競争力のあるビルディングブロックとしての可能性を示している。

Striving for higher gate fidelity is crucial not only for enhancing existing noisy intermediate-scale quantum (NISQ) devices but also for unleashing the potential of fault-tolerant quantum computation through quantum error correction. A recently proposed theoretical scheme, the double-transmon coupler (DTC), aims to achieve both suppressed residual interaction and a fast high-fidelity two-qubit gate simultaneously, particularly for highly detuned qubits. Harnessing the state-of-the-art fabrication techniques and a model-free pulse-optimization process based on reinforcement learning, we translate the theoretical DTC scheme into reality, attaining fidelities of 99.92% for a CZ gate and 99.98% for single-qubit gates. The performance of the DTC scheme demonstrates its potential as a competitive building block for superconducting quantum processors.
翻訳日:2024-03-01 15:43:51 公開日:2024-02-29
# PCDepth: 両者の長所による単眼深度推定のためのパターンベース補完学習

PCDepth: Pattern-based Complementary Learning for Monocular Depth Estimation by Best of Both Worlds ( http://arxiv.org/abs/2402.18925v1 )

ライセンス: Link先を確認
Haotian Liu, Sanqing Qu, Fan Lu, Zongtao Bu, Florian Roehrbein, Alois Knoll, Guang Chen(参考訳) イベントカメラは、高時間分解能でシーンダイナミクスを記録でき、低レベルの照明でも単眼深度推定(MDE)のためのリッチなシーン詳細を提供する。 したがって、mde fuse intensity information from images and scene details from event data for better scene understanding のための既存の補足学習手法が提案されている。 しかし、ほとんどの方法は2つのモダリティをピクセルレベルで直接融合させ、魅力的な相補性は数ピクセルしか占めないハイレベルなパターンに主に影響することを無視する。 例えば、イベントデータはシーンオブジェクトの輪郭を補完する可能性が高い。 本稿では,このシーンを高レベルのパターンに分類して相補性を探索し,単眼深度推定(PCDepth)のためのパターンベース補完学習アーキテクチャを提案する。 具体的には、PCDepthは、シーンを高レベルのパターンに識別し、モダリティにまたがる補完パターンを統合する補完視覚表現学習モジュールと、効率・精度バランスを維持しつつ、シーンの再構築と深度予測を目的とした洗練された深度推定器の2つの主要コンポーネントから構成される。 パターンベースの補完学習を通じて、PCDepthは2つのモードを完全に活用し、特に夜間シナリオにおいて、既存の手法よりも正確な予測を行う。 MVSECおよびDSECデータセットの大規模な実験は、PCDepthの有効性と優位性を検証する。 注目すべきは、最先端のPCDepthと比較して、MVSECの夜間シナリオでは37.9%の精度向上が達成されていることである。

Event cameras can record scene dynamics with high temporal resolution, providing rich scene details for monocular depth estimation (MDE) even at low-level illumination. Therefore, existing complementary learning approaches for MDE fuse intensity information from images and scene details from event data for better scene understanding. However, most methods directly fuse two modalities at pixel level, ignoring that the attractive complementarity mainly impacts high-level patterns that only occupy a few pixels. For example, event data is likely to complement contours of scene objects. In this paper, we discretize the scene into a set of high-level patterns to explore the complementarity and propose a Pattern-based Complementary learning architecture for monocular Depth estimation (PCDepth). Concretely, PCDepth comprises two primary components: a complementary visual representation learning module for discretizing the scene into high-level patterns and integrating complementary patterns across modalities and a refined depth estimator aimed at scene reconstruction and depth prediction while maintaining an efficiency-accuracy balance. Through pattern-based complementary learning, PCDepth fully exploits two modalities and achieves more accurate predictions than existing methods, especially in challenging nighttime scenarios. Extensive experiments on MVSEC and DSEC datasets verify the effectiveness and superiority of our PCDepth. Remarkably, compared with state-of-the-art, PCDepth achieves a 37.9% improvement in accuracy in MVSEC nighttime scenarios.
翻訳日:2024-03-01 15:43:35 公開日:2024-02-29
# 大規模音声認識による不適切なポーズ検出

Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition ( http://arxiv.org/abs/2402.18923v1 )

ライセンス: Link先を確認
Jeehyun Lee, Yerin Choi, Tae-Jin Song, Myoung-Wan Koo(参考訳) 脳卒中患者の共通の問題であるDysarthriaは、音声の明瞭さに深刻な影響を及ぼす。 不適切な停止は重度評価や言語療法において重要な指標である。 本稿では,不適切なポーズ検出のための大規模音声認識モデルの拡張を提案する。 そこで本研究では,不適切な停止予測層を有するタスク設計,ラベル付け戦略,音声認識モデルを提案する。 まず,自動音声認識(asr)モデルを用いてポーズ検出を音声認識として扱い,ポーズタグ付きテキストに変換する。 新たに設計されたタスクによると、テキストレベルにおける停止位置とその適切さをラベル付けする。 言語病理学者と協働してラベル付け基準を定め,高品質な注釈データを確保する。 最後に、終端不適切な停止検出のための不適切な停止予測層を用いて、ASRモデルを拡張する。 さらに,asr性能によらず不適切な停止検出を評価するためのタスク調整指標を提案する。 提案手法は,ベースラインよりも不適切なポーズを検出できることを示す。 (不適切なポーズエラー率:14.47%)

Dysarthria, a common issue among stroke patients, severely impacts speech intelligibility. Inappropriate pauses are crucial indicators in severity assessment and speech-language therapy. We propose to extend a large-scale speech recognition model for inappropriate pause detection in dysarthric speech. To this end, we propose task design, labeling strategy, and a speech recognition model with an inappropriate pause prediction layer. First, we treat pause detection as speech recognition, using an automatic speech recognition (ASR) model to convert speech into text with pause tags. According to the newly designed task, we label pause locations at the text level and their appropriateness. We collaborate with speech-language pathologists to establish labeling criteria, ensuring high-quality annotated data. Finally, we extend the ASR model with an inappropriate pause prediction layer for end-to-end inappropriate pause detection. Moreover, we propose a task-tailored metric for evaluating inappropriate pause detection independent of ASR performance. Our experiments show that the proposed method better detects inappropriate pauses in dysarthric speech than baselines. (Inappropriate Pause Error Rate: 14.47%)
翻訳日:2024-03-01 15:43:09 公開日:2024-02-29
# カモフラージュ対象物検出のための視覚変換器を用いた簡易かつ効果的なネットワーク

A Simple yet Effective Network based on Vision Transformer for Camouflaged Object and Salient Object Detection ( http://arxiv.org/abs/2402.18922v1 )

ライセンス: Link先を確認
Chao Hao, Zitong Yu, Xin Liu, Jun Xu, Huanjing Yue, Jingyu Yang(参考訳) camouflaged object detection (cod) と salient object detection (sod) は、過去数十年間で広く研究されたコンピュータビジョンのタスクである。 イメージをバイナリフォアグラウンドとバックグラウンド領域に分割するという同じ目的を共有するが、その区別は、codがイメージに隠されたオブジェクトに焦点を当てているのに対して、sodはイメージ内の最も目立つオブジェクトに集中している点にある。 以前の作品は、様々な手作りのモジュールとマルチスケールの機能を積み重ねることで、優れた性能を達成した。 しかし、これら慎重に設計された複雑なネットワークは、1つのタスクでよく機能するが、別のタスクでは機能しない。 本研究では、視覚変換器(ViT)をベースとした簡易かつ効果的なネットワーク(SENet)を提案し、非対称なViTエンコーダデコーダ構造を簡単な設計で設計し、両タスクで競合する結果を得る。 さらに,ピクセルレベルのバイナリセグメンテーションタスクにおいて重要な局所情報をモデル化するトランスフォーマティブの能力を向上させるために,ローカル情報キャプチャモジュール(licm)を提案する。 また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。 さらに, SOD と COD の合同訓練の課題について検討し, 共同訓練における紛争に対する予備的解決法を提案し, SOD の性能をさらに向上させる。 複数のベンチマークデータセットに対する大規模な実験により,本手法の有効性が示された。 コードはhttps://github.com/linuxsino/SENetで公開されている。

Camouflaged object detection (COD) and salient object detection (SOD) are two distinct yet closely-related computer vision tasks widely studied during the past decades. Though sharing the same purpose of segmenting an image into binary foreground and background regions, their distinction lies in the fact that COD focuses on concealed objects hidden in the image, while SOD concentrates on the most prominent objects in the image. Previous works achieved good performance by stacking various hand-designed modules and multi-scale features. However, these carefully-designed complex networks often performed well on one task but not on another. In this work, we propose a simple yet effective network (SENet) based on vision Transformer (ViT), by employing a simple design of an asymmetric ViT-based encoder-decoder structure, we yield competitive results on both tasks, exhibiting greater versatility than meticulously crafted ones. Furthermore, to enhance the Transformer's ability to model local information, which is important for pixel-level binary segmentation tasks, we propose a local information capture module (LICM). We also propose a dynamic weighted loss (DW loss) based on Binary Cross-Entropy (BCE) and Intersection over Union (IoU) loss, which guides the network to pay more attention to those smaller and more difficult-to-find target objects according to their size. Moreover, we explore the issue of joint training of SOD and COD, and propose a preliminary solution to the conflict in joint training, further improving the performance of SOD. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness of our method. The code is available at https://github.com/linuxsino/SENet.
翻訳日:2024-03-01 15:42:54 公開日:2024-02-29
# 半スーパービジョンU統計

Semi-Supervised U-statistics ( http://arxiv.org/abs/2402.18921v1 )

ライセンス: Link先を確認
Ilmun Kim, Larry Wasserman, Sivaraman Balakrishnan, Matey Neykov(参考訳) 半教師付きデータセットは、完全なラベル付きデータを取得するのにコストや時間を要するさまざまなドメインにまたがっている。 このようなデータセットの普及は、ラベルのないデータの可能性を利用する新しいツールやメソッドの需要を一貫して押し付けている。 この要求に応じて、ラベルなしデータの豊富さによって強化された半教師付きU統計を導入し、その統計特性について検討する。 提案手法は漸近的に正規であり,様々な強力な予測ツールを効果的にフレームワークに統合することにより,古典的U統計よりも顕著な効率向上を示す。 この問題の根本的な難しさを理解するため, 半教師付き設定における最小限の上限を導出し, 規則性条件下での手順が半パラメトリックに効率的であることを示す。 さらに,二変量カーネルに適応し,すべての退化系において古典的u-統計量を上回る洗練されたアプローチを提案し,その最適性を示す。 シミュレーション研究は,我々の知見を裏付けるとともに,その枠組みをさらに実証するために行われる。

Semi-supervised datasets are ubiquitous across diverse domains where obtaining fully labeled data is costly or time-consuming. The prevalence of such datasets has consistently driven the demand for new tools and methods that exploit the potential of unlabeled data. Responding to this demand, we introduce semi-supervised U-statistics enhanced by the abundance of unlabeled data, and investigate their statistical properties. We show that the proposed approach is asymptotically Normal and exhibits notable efficiency gains over classical U-statistics by effectively integrating various powerful prediction tools into the framework. To understand the fundamental difficulty of the problem, we derive minimax lower bounds in semi-supervised settings and showcase that our procedure is semi-parametrically efficient under regularity conditions. Moreover, tailored to bivariate kernels, we propose a refined approach that outperforms the classical U-statistic across all degeneracy regimes, and demonstrate its optimality properties. Simulation studies are conducted to corroborate our findings and to further demonstrate our framework.
翻訳日:2024-03-01 15:42:22 公開日:2024-02-29
# Spectral Meets Space: Harmonising 3D Shape Matching and Interpolation

Spectral Meets Spatial: Harmonising 3D Shape Matching and Interpolation ( http://arxiv.org/abs/2402.18920v1 )

ライセンス: Link先を確認
Dongliang Cao, Marvin Eisenberger, Nafie El Amrani, Daniel Cremers, Florian Bernard(参考訳) 3次元形状マッチングと補間は非常に関連性が高いが、異なる3次元形状を連続的に研究し、その結果、準最適性能が得られる。 本研究では3次元形状間の点対応と形状補間の両方を予測する統一的な枠組みを提案する。 この目的のために、深層機能マップフレームワークと古典的表面変形モデルを組み合わせて、スペクトル領域と空間領域の両方の形状をマッピングする。 一方, 空間地図を組み込むことにより, 従来の機能地図法と比較して, より正確でスムーズな対応性が得られる。 一方,スペクトルマップを導入することで,近似形状の変形にのみ有効な,一般的に使用されるが計算コストの高い測地線距離制約を解消する。 さらに、ポーズ優位と形状優位の両変形を捉える新しいテスト時間適応方式を提案する。 異なる難易度データセットを用いて,教師付きアプローチと比較しても,従来のシェープマッチング法と補間法を上回っていることを示す。

Although 3D shape matching and interpolation are highly interrelated, they are often studied separately and applied sequentially to relate different 3D shapes, thus resulting in sub-optimal performance. In this work we present a unified framework to predict both point-wise correspondences and shape interpolation between 3D shapes. To this end, we combine the deep functional map framework with classical surface deformation models to map shapes in both spectral and spatial domains. On the one hand, by incorporating spatial maps, our method obtains more accurate and smooth point-wise correspondences compared to previous functional map methods for shape matching. On the other hand, by introducing spectral maps, our method gets rid of commonly used but computationally expensive geodesic distance constraints that are only valid for near-isometric shape deformations. Furthermore, we propose a novel test-time adaptation scheme to capture both pose-dominant and shape-dominant deformations. Using different challenging datasets, we demonstrate that our method outperforms previous state-of-the-art methods for both shape matching and interpolation, even compared to supervised approaches.
翻訳日:2024-03-01 15:42:05 公開日:2024-02-29
# Decompose-and-Compose:Spurious相関の緩和のための構成的アプローチ

Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation ( http://arxiv.org/abs/2402.18919v1 )

ライセンス: Link先を確認
Fahimeh Hosseini Noohdani, Parsa Hosseini, Arian Yazdan Parast, Hamidreza Yaghoubi Araghi, Mahdieh Soleymani Baghshah(参考訳) 標準的な経験的リスク最小化(ERM)トレーニングは、分布内データのイメージ分類に有効であるが、分布外サンプルではうまく機能しない。 画像分類における分布シフトの主な原因の1つは、画像の構成的性質である。 具体的には、ラベルを決定するメインオブジェクトやコンポーネントに加えて、他のイメージコンポーネントも存在するため、列車とテスト環境間の入力分布のシフトにつながる可能性がある。 さらに重要なのは、これらのコンポーネントがラベルと相関する可能性があることだ。 この問題に対処するために,画像の要素の組み合わせに基づく構成的アプローチにより相関シフトに対する頑健性を向上させるDEC(Decompose-and-Compose)を提案する。 私たちの観測に基づいて、ermでトレーニングされたモデルは、通常、因果成分またはラベル(特にモデルが高い信頼度を持つデータポイント)に高い相関関係を持つコンポーネントのいずれかに非常によく参加します。 実際、素早い相関の量と因果成分や非因果成分に基づく分類の容易さにより、モデルは通常、より(高い信頼度を持つサンプルにおいて)これらの1つに付随する。 次に、まず、ERMで訓練されたモデルのクラスアクティベーションマップを用いて、画像の因果成分を同定する。 その後、画像に介入し、それらを組み合わせて、偽データを含む拡張データ上でモデルを再トレーニングする。 本研究は,高い解釈可能性とともに,グループラベルや訓練中の刺激的特徴に関する情報を必要とせず,画像に介入するグループバランス手法を提案する。 本手法は, 相関シフトにおけるグループラベルの監督量と同じである従来の手法と比較して, 全体として最悪のグループ精度を有する。

While standard Empirical Risk Minimization (ERM) training is proven effective for image classification on in-distribution data, it fails to perform well on out-of-distribution samples. One of the main sources of distribution shift for image classification is the compositional nature of images. Specifically, in addition to the main object or component(s) determining the label, some other image components usually exist, which may lead to the shift of input distribution between train and test environments. More importantly, these components may have spurious correlations with the label. To address this issue, we propose Decompose-and-Compose (DaC), which improves robustness to correlation shift by a compositional approach based on combining elements of images. Based on our observations, models trained with ERM usually highly attend to either the causal components or the components having a high spurious correlation with the label (especially in datapoints on which models have a high confidence). In fact, according to the amount of spurious correlation and the easiness of classification based on the causal or non-causal components, the model usually attends to one of these more (on samples with high confidence). Following this, we first try to identify the causal components of images using class activation maps of models trained with ERM. Afterward, we intervene on images by combining them and retraining the model on the augmented data, including the counterfactual ones. Along with its high interpretability, this work proposes a group-balancing method by intervening on images without requiring group labels or information regarding the spurious features during training. The method has an overall better worst group accuracy compared to previous methods with the same amount of supervision on the group labels in correlation shift.
翻訳日:2024-03-01 15:41:45 公開日:2024-02-29
# SNE-RoadSegV2:自由空間検出のための不均一な特徴融合と誤り認識の促進

SNE-RoadSegV2: Advancing Heterogeneous Feature Fusion and Fallibility Awareness for Freespace Detection ( http://arxiv.org/abs/2402.18918v1 )

ライセンス: Link先を確認
Yi Feng, Yu Ma, Qijun Chen, Ioannis Pitas, Rui Fan(参考訳) 二重エンコーダを持つフィーチャーフュージョンネットワークは、自由空間検出問題を解決する効果的な手法であることが証明されている。 しかし, 従来の研究成果にも拘わらず, 適切な不均一な特徴融合の探索や, 誤認性を考慮した損失関数の開発は比較的少ない。 This paper makes several significant contributions to address these limitations: (1) It presents a novel heterogeneous feature fusion block, comprising a holistic attention module, a heterogeneous feature contrast descriptor, and an affinity-weighted feature recalibrator, enabling a more in-depth exploitation of the inherent characteristics of the extracted features, (2) it incorporates both inter-scale and intra-scale skip connections into the decoder architecture while eliminating redundant ones, leading to both improved accuracy and computational efficiency, and (3) it introduces two fallibility-aware loss functions that separately focus on semantic-transition and depth-inconsistent regions, collectively contributing to greater supervision during model training. これらすべての革新的なコンポーネントを組み込んだ異種機能融合ネットワーク(SNE-RoadSegV2)は,複数の公開データセットにまたがる他のすべての自由空間検出アルゴリズムと比較して,優れた性能を示す。 特に、公式のKITTI Roadベンチマークでは第1位である。

Feature-fusion networks with duplex encoders have proven to be an effective technique to solve the freespace detection problem. However, despite the compelling results achieved by previous research efforts, the exploration of adequate and discriminative heterogeneous feature fusion, as well as the development of fallibility-aware loss functions remains relatively scarce. This paper makes several significant contributions to address these limitations: (1) It presents a novel heterogeneous feature fusion block, comprising a holistic attention module, a heterogeneous feature contrast descriptor, and an affinity-weighted feature recalibrator, enabling a more in-depth exploitation of the inherent characteristics of the extracted features, (2) it incorporates both inter-scale and intra-scale skip connections into the decoder architecture while eliminating redundant ones, leading to both improved accuracy and computational efficiency, and (3) it introduces two fallibility-aware loss functions that separately focus on semantic-transition and depth-inconsistent regions, collectively contributing to greater supervision during model training. Our proposed heterogeneous feature fusion network (SNE-RoadSegV2), which incorporates all these innovative components, demonstrates superior performance in comparison to all other freespace detection algorithms across multiple public datasets. Notably, it ranks the 1st on the official KITTI Road benchmark.
翻訳日:2024-03-01 15:41:16 公開日:2024-02-29
# No-Choice のリライティングをやめて移動を繰り返す: 最適化のための最適、効率的、実用的なアルゴリズム

Stop Relying on No-Choice and Do not Repeat the Moves: Optimal, Efficient and Practical Algorithms for Assortment Optimization ( http://arxiv.org/abs/2402.18917v1 )

ライセンス: Link先を確認
Aadirupa Saha, Pierre Gaillard(参考訳) 本稿では,ユーザの選択をモデル化するフレームワークであるprimity feedbackを用いて,アクティブオンラインソートメント最適化の問題に対処する。 このフレームワークは、広告掲載、オンライン小売、レコメンダシステム、微調整言語モデルなど、様々な現実世界のアプリケーションで有用である。 この問題はこれまで研究されてきたが、効率的なアルゴリズムと最適な後悔の保証を同時に行う直感的で実用的な解決方法が欠けている。 例えば、一般的に使用されるアソート選択アルゴリズムは、常に選択セットに含まれる「強い参照」の存在を必要とすることが多いが、参照項目が選択されるまで同じアソートを繰り返すように設計されている。 本稿では,<emph{Plackett Luce} (PL) を用いた配置選択における後悔の最小化問題に対する効率的なアルゴリズムを設計した。 提案アルゴリズムの基盤となる'\emph{Pairwise Rank-Breaking}' を用いてPLモデルのスコアパラメータを推定するための新しい濃度保証を設計した。 さらに,本手法は,既存の手法の限界を無視し,実用的で,確実に最適である。 経験的評価は我々の発見と既存のベースラインを上回っています。

We address the problem of active online assortment optimization problem with preference feedback, which is a framework for modeling user choices and subsetwise utility maximization. The framework is useful in various real-world applications including ad placement, online retail, recommender systems, fine-tuning language models, amongst many. The problem, although has been studied in the past, lacks an intuitive and practical solution approach with simultaneously efficient algorithm and optimal regret guarantee. E.g., popularly used assortment selection algorithms often require the presence of a `strong reference' which is always included in the choice sets, further they are also designed to offer the same assortments repeatedly until the reference item gets selected -- all such requirements are quite unrealistic for practical applications. In this paper, we designed efficient algorithms for the problem of regret minimization in assortment selection with \emph{Plackett Luce} (PL) based user choices. We designed a novel concentration guarantee for estimating the score parameters of the PL model using `\emph{Pairwise Rank-Breaking}', which builds the foundation of our proposed algorithms. Moreover, our methods are practical, provably optimal, and devoid of the aforementioned limitations of the existing methods. Empirical evaluations corroborate our findings and outperform the existing baselines.
翻訳日:2024-03-01 15:40:55 公開日:2024-02-29
# AdaMergeX:Adaptive Adapter Mergingによる大規模言語モデルによる言語間変換

AdaMergeX: Cross-Lingual Transfer with Large Language Models via Adaptive Adapter Merging ( http://arxiv.org/abs/2402.18913v1 )

ライセンス: Link先を確認
Yiran Zhao, Wenxuan Zhang, Huiming Wang, Kenji Kawaguchi, Lidong Bing(参考訳) 特定の言語における目標タスクの直接微調整の代替として、言語間移動は、対象タスクをソース言語で微調整し、ターゲット言語で選択したタスクをターゲット言語でそれぞれ「タスク能力」と「言語能力」を分離することで、限られたトレーニングデータの課題に対処する。 しかし、彼らは、タスク能力とソース言語、あるいは選択したタスクから言語能力を完全に分離することができない。 本稿では,タスク能力と言語能力の相互依存を認識し,タスクにおける対象言語とソース言語とのギャップに注意を向ける。 ギャップがタスクの影響をなくすため、タスク間で一貫性が保たれていると仮定する。 この仮定に基づき,適応型アダプタマージを利用する$\texttt{adamergex}$と呼ばれる新しい言語間転送手法を提案する。 参照タスクを導入することで、両方の言語で参照タスクに微調整されたアダプタの発散は、両方の言語でターゲットタスクに微調整されたアダプタの発散と同じ分布に従うと判断できる。 したがって、他の3つのアダプタを組み合わせることで、ターゲットアダプタを得ることができる。 さらに,構造適応型アダプタマージ手法を提案する。 実験の結果,提案手法は,すべての設定において既存の手法よりも優れ,新しい,効果的な言語間移動をもたらすことが示された。

As an effective alternative to the direct fine-tuning on target tasks in specific languages, cross-lingual transfer addresses the challenges of limited training data by decoupling ''task ability'' and ''language ability'' by fine-tuning on the target task in the source language and another selected task in the target language, respectively. However, they fail to fully separate the task ability from the source language or the language ability from the chosen task. In this paper, we acknowledge the mutual reliance between task ability and language ability and direct our attention toward the gap between the target language and the source language on tasks. As the gap removes the impact of tasks, we assume that it remains consistent across tasks. Based on this assumption, we propose a new cross-lingual transfer method called $\texttt{AdaMergeX}$ that utilizes adaptive adapter merging. By introducing a reference task, we can determine that the divergence of adapters fine-tuned on the reference task in both languages follows the same distribution as the divergence of adapters fine-tuned on the target task in both languages. Hence, we can obtain target adapters by combining the other three adapters. Furthermore, we propose a structure-adaptive adapter merging method. Our empirical results demonstrate that our approach yields new and effective cross-lingual transfer, outperforming existing methods across all settings.
翻訳日:2024-03-01 15:40:34 公開日:2024-02-29
# スペクトル拡散によるグラフ生成

Graph Generation via Spectral Diffusion ( http://arxiv.org/abs/2402.18974v1 )

ライセンス: Link先を確認
Giorgia Minello, Alessandro Bicciato, Luca Rossi, Andrea Torsello, Luca Cosmo(参考訳) 本稿では,新しいグラフ生成モデルであるgrabを提案する。 1)グラフラプラシアン行列のスペクトル分解とスペクトル分解 2)拡散過程 具体的には,グラフラプラシアン行列と隣接行列を再構成できる固有ベクトルと固有値のサンプルに,分母モデルを用いることを提案する。 我々の置換不変モデルは各ノードの固有ベクトルに連結することでノードの特徴を扱える。 ラプラシアンスペクトルを用いることで、グラフの構造的特徴を自然に捉え、ノード空間内で直接動作し、他の方法の適用性を制限する二次複雑性ボトルネックを回避することができる。 これは、我々の実験で示されたように、より高速で正確な生成過程をもたらすスペクトルを切断することで達成される。 合成および実世界のグラフに関する広範な実験は、我々のモデルが最先端の代替品に対して強みを示す。

In this paper, we present GRASP, a novel graph generative model based on 1) the spectral decomposition of the graph Laplacian matrix and 2) a diffusion process. Specifically, we propose to use a denoising model to sample eigenvectors and eigenvalues from which we can reconstruct the graph Laplacian and adjacency matrix. Our permutation invariant model can also handle node features by concatenating them to the eigenvectors of each node. Using the Laplacian spectrum allows us to naturally capture the structural characteristics of the graph and work directly in the node space while avoiding the quadratic complexity bottleneck that limits the applicability of other methods. This is achieved by truncating the spectrum, which as we show in our experiments results in a faster yet accurate generative process. An extensive set of experiments on both synthetic and real world graphs demonstrates the strengths of our model against state-of-the-art alternatives.
翻訳日:2024-03-01 15:35:41 公開日:2024-02-29
# スマートホームにおけるプライバシー管理とインタフェース設計

Privacy Management and Interface Design for a Smart House ( http://arxiv.org/abs/2402.18973v1 )

ライセンス: Link先を確認
Ana-Maria Comeaga, Iuliana Marin(参考訳) 今日の生活では、より多くの人がスマートハウスを選ぶ傾向があります。 このようにして、テクノロジーを含めるというアイデアは世界中で人気を集めている。 この概念の多くの利点にもかかわらず、共有活動のため、セキュリティの管理は依然として重要な問題である。 スマートハウスの裏にあるモノのインターネットシステムは、温度、湿度、空気の質、動きを測定するセンサーをベースとしている。 センサーを通じて毎日監視され、シンプルなクリックで家をコントロールするため、多くの人はプライバシーの観点からこの新しいアプローチを恐れることができ、この事実は彼らの習慣に従うことを妨げている。 データの機密性を維持し、人々が自分の家で安全を感じられるように、セキュリティの側面を常に分析する必要がある。 この文脈において,本稿では,住宅所有者の安全が第一の目的であるプラットフォームを代替設計し,スマートデバイスが生成するデータを完全に制御する手法について概説する。 現在の研究では、スマートハウスの制御におけるセキュリティとインターフェース設計の役割を強調している。 この研究は、継続的な技術開発が支配する現代住宅におけるデータと生活活動を管理するために、誰でも容易に利用できるインターフェースを提供することの重要性を強調している。

In today's life, more and more people tend to opt for a smart house. In this way, the idea of including technology has become popular worldwide. Despite this concept's many benefits, managing security remains an essential problem due to the shared activities. The Internet of Things system behind a smart house is based on several sensors to measure temperature, humidity, air quality, and movement. Because of being supervised every day through sensors and controlling their house only with a simple click, many people can be afraid of this new approach in terms of their privacy, and this fact can constrain them from following their habits. The security aspects should be constantly analyzed to keep the data's confidentiality and make people feel safe in their own houses. In this context, the current paper puts light on an alternative design of a platform in which the safety of homeowners is the primary purpose, and they maintain complete control over the data generated by smart devices. The current research highlights the role of security and interface design in controlling a smart house. The study underscores the importance of providing an interface that can be used easily by any person to manage data and live activities in a modern residence in an era dominated by continuously developing technology.
翻訳日:2024-03-01 15:35:29 公開日:2024-02-29
# PrivatEyes:Federated Secure Multi-Party Computation を用いた外観に基づく視線推定

PrivatEyes: Appearance-based Gaze Estimation Using Federated Secure Multi-Party Computation ( http://arxiv.org/abs/2402.18970v1 )

ライセンス: Link先を確認
Mayar Elfares, Pascal Reisert, Zhiming Hu, Wenwu Tang, Ralf K\"usters, Andreas Bulling(参考訳) 最新の視線推定手法は大規模なトレーニングデータを必要とするが、収集と交換は重大なプライバシーリスクをもたらす。 フェデレートラーニング(FL)とセキュアマルチパーティ計算(MPC)に基づく外見に基づく視線推定のための最初のプライバシ向上トレーニング手法であるPrivatEyesを提案する。 PrivatEyesは、異なるユーザにわたる複数のローカルデータセット上での視線推定器のトレーニングと、個々の推定器のアップデートをサーバベースのセキュアアグリゲーションを可能にする。 privateyesは、集約サーバの大多数が悪意があるとしても、個々の視線データがプライベートであることを保証する。 また,新たなデータ漏洩攻撃デュアルビューを導入し,privateyesが従来よりもプライベートトレーニングデータの漏洩を効果的に制限していることを示す。 mpiigaze, mpiifacegaze, gazecapture, nvgazeデータセットの評価では、プライバシーが改善されたことにより、視線推定精度が低下したり、計算コストが大幅に高くなったりすることはないことが示されている。

Latest gaze estimation methods require large-scale training data but their collection and exchange pose significant privacy risks. We propose PrivatEyes - the first privacy-enhancing training approach for appearance-based gaze estimation based on federated learning (FL) and secure multi-party computation (MPC). PrivatEyes enables training gaze estimators on multiple local datasets across different users and server-based secure aggregation of the individual estimators' updates. PrivatEyes guarantees that individual gaze data remains private even if a majority of the aggregating servers is malicious. We also introduce a new data leakage attack DualView that shows that PrivatEyes limits the leakage of private training data more effectively than previous approaches. Evaluations on the MPIIGaze, MPIIFaceGaze, GazeCapture, and NVGaze datasets further show that the improved privacy does not lead to a lower gaze estimation accuracy or substantially higher computational costs - both of which are on par with its non-secure counterparts.
翻訳日:2024-03-01 15:35:12 公開日:2024-02-29
# OHTA:データ駆動型インシシットプリミティブによるワンショットハンドアバター

OHTA: One-shot Hand Avatar via Data-driven Implicit Priors ( http://arxiv.org/abs/2402.18969v1 )

ライセンス: Link先を確認
Xiaozheng Zheng, Chao Wen, Zhuo Su, Zeran Xu, Zhaohu Li, Yang Zhao, Zhou Xue(参考訳) 本稿では,ワンショット・ハンド・アバターの作成を考察し,1つの画像から高速に高忠実度かつドリブルなハンド表現を実現する。 デジタル人間の急成長する領域によって、手軽でパーソナライズされたアバター作成の必要性はますます重要になっている。 既存の技術は一般的に広範な入力データを必要としており、特定のシナリオでは不適切あるいは非現実的であることを証明している。 アクセシビリティを高めるために,1つの画像から詳細な手用アバターを作成することができる新しい方法OHTA(One-shot Hand avaTAr)を提案する。 OHTAは、データ駆動の手先を学習し活用することで、このデータ制限問題の本質的な困難に対処する。 具体的には、最初に採用された手先モデルを設計する。 1)利用可能なデータを用いて様々な手先を学習し、その後 2) 対象のアイデンティティと事前知識の反転と適合性。 OHTAは、単一の画像にのみ依存して、一貫したアニマタブルな品質の高忠実ハンドアバターを作成する能力を示す。 さらに、テキストからアバターへの変換、手書き編集、識別潜在空間操作を含む多様な応用を通して、OHTAの汎用性を説明する。

In this paper, we delve into the creation of one-shot hand avatars, attaining high-fidelity and drivable hand representations swiftly from a single image. With the burgeoning domains of the digital human, the need for quick and personalized hand avatar creation has become increasingly critical. Existing techniques typically require extensive input data and may prove cumbersome or even impractical in certain scenarios. To enhance accessibility, we present a novel method OHTA (One-shot Hand avaTAr) that enables the creation of detailed hand avatars from merely one image. OHTA tackles the inherent difficulties of this data-limited problem by learning and utilizing data-driven hand priors. Specifically, we design a hand prior model initially employed for 1) learning various hand priors with available data and subsequently for 2) the inversion and fitting of the target identity with prior knowledge. OHTA demonstrates the capability to create high-fidelity hand avatars with consistent animatable quality, solely relying on a single image. Furthermore, we illustrate the versatility of OHTA through diverse applications, encompassing text-to-avatar conversion, hand editing, and identity latent space manipulation.
翻訳日:2024-03-01 15:34:51 公開日:2024-02-29
# Point-of-Care Ultrasound Imaging における乳がん分類のアウト・オブ・ディストリビューション検出に向けて

Towards Out-of-Distribution Detection for breast cancer classification in Point-of-Care Ultrasound Imaging ( http://arxiv.org/abs/2402.18960v1 )

ライセンス: Link先を確認
Jennie Karlsson, Marisa Wodrich, Niels Christian Overgaard, Freja Sahlin, Kristina L{\aa}ng, Anders Heyden, Ida Arvidsson(参考訳) 深層学習は医学的応用に大きな可能性を秘めている。 このような重要な領域において、信頼できる評価が保証できないかを判断できる信頼できるアルゴリズムを持つことは高い関心事である。 out-of-distribution (ood) サンプルの検出は、安全な分類器を構築するための重要なステップである。 乳がんの画像から乳がんを分類できることを示す先行研究に続いて, ソフトマックス, エネルギースコア, 深層アンサンブルの3つの方法を用いて, 乳がんの検出について検討した。 すべてのメソッドは3つの異なるOODデータセットでテストされる。 その結果, エネルギースコア法がsoftmax法よりも優れており, 2つのデータセットで良好に動作することがわかった。 アンサンブル法は最も堅牢で、3つのOODデータセットすべてに対してOODサンプルを検出するのに最適である。

Deep learning has shown to have great potential in medical applications. In critical domains as such, it is of high interest to have trustworthy algorithms which are able to tell when reliable assessments cannot be guaranteed. Detecting out-of-distribution (OOD) samples is a crucial step towards building a safe classifier. Following a previous study, showing that it is possible to classify breast cancer in point-of-care ultrasound images, this study investigates OOD detection using three different methods: softmax, energy score and deep ensembles. All methods are tested on three different OOD data sets. The results show that the energy score method outperforms the softmax method, performing well on two of the data sets. The ensemble method is the most robust, performing the best at detecting OOD samples for all three OOD data sets.
翻訳日:2024-03-01 15:34:33 公開日:2024-02-29
# 能動教示によるリモートセンシング画像における半教師付き物体検出の促進

Boosting Semi-Supervised Object Detection in Remote Sensing Images With Active Teaching ( http://arxiv.org/abs/2402.18958v1 )

ライセンス: Link先を確認
Boxuan Zhang, Zengmao Wang and Bo Du(参考訳) オブジェクトレベルのアノテーションの欠如は、リモートセンシング画像(RSI)におけるオブジェクト検出に重大な課題をもたらす。 この問題に対処するため,アノテーションの品質と量を高めるために,アクティブラーニング(AL)と半教師付きラーニング(SSL)技術が提案されている。 ALはアノテーションの最も情報に富んだサンプルの選択に重点を置いており、SSLはラベルのないサンプルからの知識を活用している。 本稿では,教師学生ネットワークを用いたリモートセンシング画像の半教師対象検出(SSOD)を高速化する新しいAL手法,SSOD-ATを提案する。 提案手法では,RoI 比較モジュール (RoICM) を組み込んで,関心領域 (RoI) に対して高信頼な擬似ラベルを生成する。 一方、RoICMはトップK不確実画像を識別するために使用される。 ラベル付き画像と擬似ラベル付き画像の両方を用いて、異なるカテゴリのオブジェクトレベルプロトタイプに基づいて、人間のラベル付けのためのトップK不確定画像の冗長性を低減する。 2つの一般的なデータセットであるDOTAとDIORの大規模な実験により、提案手法はRSIにおけるオブジェクト検出の最先端手法よりも優れていることを示した。 提案手法は,SOTA法における最高の性能と比較して,AL全体のほとんどの場合において1%改善する。

The lack of object-level annotations poses a significant challenge for object detection in remote sensing images (RSIs). To address this issue, active learning (AL) and semi-supervised learning (SSL) techniques have been proposed to enhance the quality and quantity of annotations. AL focuses on selecting the most informative samples for annotation, while SSL leverages the knowledge from unlabeled samples. In this letter, we propose a novel AL method to boost semi-supervised object detection (SSOD) for remote sensing images with a teacher student network, called SSOD-AT. The proposed method incorporates an RoI comparison module (RoICM) to generate high-confidence pseudo-labels for regions of interest (RoIs). Meanwhile, the RoICM is utilized to identify the top-K uncertain images. To reduce redundancy in the top-K uncertain images for human labeling, a diversity criterion is introduced based on object-level prototypes of different categories using both labeled and pseudo-labeled images. Extensive experiments on DOTA and DIOR, two popular datasets, demonstrate that our proposed method outperforms state-of-the-art methods for object detection in RSIs. Compared with the best performance in the SOTA methods, the proposed method achieves 1 percent improvement in most cases in the whole AL.
翻訳日:2024-03-01 15:34:17 公開日:2024-02-29
# WWW:ニューロン概念の解釈によるニューラルネットワークのどの、どこで、なぜかを説明する統一フレームワーク

WWW: A Unified Framework for Explaining What, Where and Why of Neural Networks by Interpretation of Neuron Concepts ( http://arxiv.org/abs/2402.18956v1 )

ライセンス: Link先を確認
Yong Hyun Ahn, Hyeon Bae Kim, Seong Tae Kim(参考訳) ニューラルネットワークの最近の進歩は、様々な領域でその顕著な能力を示している。 これらの成功にもかかわらず、「ブラックボックス」問題はまだ残っている。 そこで本研究では,ニューラルネットワーク決定の'what','where','why'を人間の理解可能な用語で提供する,新たなフレームワークwwwを提案する。 特にWWWは、適応的コサイン類似性としきい値を用いた概念発見のための適応的選択を利用して「何」を効果的に説明する。 そこで我々は,ニューロン活性化マップ(NAM)とShapley値の組み合わせを新たに提案し,各入力に対して局所化された概念マップとヒートマップを生成する。 さらに, wwwは, 不確実性を予測する手法を導入し, ヒートマップの類似性を活用し, 予測の信頼度を推定する。 WWWの実験的評価は、定量化と定性化の両方において優れた性能を示し、解釈可能性において既存の手法よりも優れていた。 WWWは、グローバルな解釈からローカライズされた説明法を導入し、様々なアーキテクチャに対応可能なプラグアンドプレイソリューションを提供するため、"What"、"where"、"why"を説明する統一的なソリューションを提供する。

Recent advancements in neural networks have showcased their remarkable capabilities across various domains. Despite these successes, the "black box" problem still remains. Addressing this, we propose a novel framework, WWW, that offers the 'what', 'where', and 'why' of the neural network decisions in human-understandable terms. Specifically, WWW utilizes adaptive selection for concept discovery, employing adaptive cosine similarity and thresholding techniques to effectively explain 'what'. To address the 'where' and 'why', we proposed a novel combination of neuron activation maps (NAMs) with Shapley values, generating localized concept maps and heatmaps for individual inputs. Furthermore, WWW introduces a method for predicting uncertainty, leveraging heatmap similarities to estimate 'how' reliable the prediction is. Experimental evaluations of WWW demonstrate superior performance in both quantitative and qualitative metrics, outperforming existing methods in interpretability. WWW provides a unified solution for explaining 'what', 'where', and 'why', introducing a method for localized explanations from global interpretations and offering a plug-and-play solution adaptable to various architectures.
翻訳日:2024-03-01 15:33:59 公開日:2024-02-29
# 変分量子固有解法における位相遷移のロバストな実験的シグネチャ

Robust Experimental Signatures of Phase Transitions in the Variational Quantum Eigensolver ( http://arxiv.org/abs/2402.18953v1 )

ライセンス: Link先を確認
Kevin Lively, Tim Bode, Jochen Szangolies, Jian-Xin Zhu, Benedikt Fauseweh(参考訳) 変分量子固有ソルバ(vqe)は、短期的な量子優位を達成する量子古典アルゴリズムの有望な候補であると考えられている。 しかし、ハードウェアノイズの現在のレベルは、信頼性の高い計算を実現するためにエラー軽減手法を広範囲に適用する必要がある。 本研究では、複数のIBMデバイスを用いて、異なる基底状態構成を特徴とする複数の「位相様」領域を持つ有限サイズのスピンモデルを探索する。 事前最適化されたvqe解を用いて, 定性的に正確かつ信頼できない結果を得るためにゼロノイズ外挿が必要となるエネルギー計算とは対照的に, エネルギー導関数, 2点スピン相関関数, 忠実性感受性の計算は, 誤差緩和法を最小あるいは全く適用しない場合でも, 複数領域にわたって正確な挙動をもたらすことを実証する。 まとめると、これらの観測可能な集合は、電子構造計算における量子相転移、回避された交差、非断熱円錐交叉を識別するために、VQE溶液の準交叉を単純でノイズロバストな方法で同定することができる。

The Variational Quantum Eigensolver (VQE) is widely considered to be a promising candidate for a quantum-classical algorithm which could achieve near-term quantum advantage. However, current levels of hardware noise can require extensive application of error-mitigation techniques to achieve reliable computations. In this work, we use several IBM devices to explore a finite-size spin model with multiple `phase-like' regions characterized by distinct ground-state configurations. Using pre-optimized VQE solutions, we demonstrate that in contrast to calculating the energy, where zero-noise extrapolation is required in order to obtain qualitatively accurate yet still unreliable results, calculations of the energy derivative, two-site spin correlation functions, and the fidelity susceptibility yield accurate behavior across multiple regions, even with minimal or no application of error-mitigation approaches. Taken together, these sets of observables could be used to identify level crossings in VQE solutions in a simple and noise-robust manner, with potential near-term application to identifying quantum phase transitions, avoided crossings and non-adiabatic conical intersections in electronic structure calculations.
翻訳日:2024-03-01 15:33:36 公開日:2024-02-29
# 認識, チャット, そして適応: オープンワールドビデオ認識のための基礎モデルのマルチモーダルな知識伝達

Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition ( http://arxiv.org/abs/2402.18951v1 )

ライセンス: Link先を確認
Boyu Chen, Siran Chen, Kunchang Li, Qinglin Xu, Yu Qiao, Yali Wang(参考訳) 従来のネットワークは複雑な環境のバリエーションでよく一般化されていないため、オープンワールドビデオ認識は困難である。 あるいは、知識の豊富な基礎モデルは、最近一般化力を示している。 しかし,このような知識をどのように活用するかは,オープンワールドビデオ認識では十分に検討されていない。 そこで本研究では,基盤モデルから外部のマルチモーダル知識を段階的に活用し,統合し,オープンワールドビデオ認識を促進する汎用知識伝達パイプラインを提案する。 私たちはPCAと命名し、Percept、Chat、Adaptの3つのステージに基づいています。 まず,映像領域のギャップを低減し,外部の視覚知識を得るための知覚処理を行う。 第2に,チャット段階において,外部のテキスト知識として豊かな言語意味論を生成する。 最後に,ネットワークにマルチモーダル知識適応モジュールを挿入することにより,外部のマルチモーダル知識を適応段階にブレンドする。 我々は、TinyVIRAT、ARID、QV-Pipeという3つの挑戦的なオープンワールドビデオベンチマークについて広範な実験を行った。 提案手法は3つのデータセットすべてに対して最先端のパフォーマンスを実現する。

Open-world video recognition is challenging since traditional networks are not generalized well on complex environment variations. Alternatively, foundation models with rich knowledge have recently shown their generalization power. However, how to apply such knowledge has not been fully explored for open-world video recognition. To this end, we propose a generic knowledge transfer pipeline, which progressively exploits and integrates external multimodal knowledge from foundation models to boost open-world video recognition. We name it PCA, based on three stages of Percept, Chat, and Adapt. First, we perform Percept process to reduce the video domain gap and obtain external visual knowledge. Second, we generate rich linguistic semantics as external textual knowledge in Chat stage. Finally, we blend external multimodal knowledge in Adapt stage, by inserting multimodal knowledge adaptation modules into networks. We conduct extensive experiments on three challenging open-world video benchmarks, i.e., TinyVIRAT, ARID, and QV-Pipe. Our approach achieves state-of-the-art performance on all three datasets.
翻訳日:2024-03-01 15:33:14 公開日:2024-02-29
# PopALM:ソーシャルメディアトレンド対応予測のための人気言語モデル

PopALM: Popularity-Aligned Language Models for Social Media Trendy Response Prediction ( http://arxiv.org/abs/2402.18950v1 )

ライセンス: Link先を確認
Erxin Yu, Jing Li, Chunpu Xu(参考訳) ソーシャルメディアプラットフォームは毎日何百万ものイベントを展示している。 これらのイベントに対する一般の反応を事前に予測するために,トレンド応答予測を研究し,ソーシャルメディアイベントに対するトップライクな応答を自動的に生成する。 従来の研究は人気を左右しない応答生成に重点を置いていたが,我々は,強化学習を通じて大観衆が好む応答を識別するために,人気言語モデル(PopALM)を提案する。 ユーザの"likes"からノイズの多いラベルを認識することで,PPO(Phyximal Policy Optimization)のカリキュラムをカスタマイズして,モデルが必要不可欠なサンプルを抽出し,学習しやすくする。 実験では,トレンド応答予測のための大規模Weiboデータセットを構築し,PopALMが高度な言語モデルの性能向上に役立つことを示す。

Social media platforms are daily exhibiting millions of events. To preliminarily predict the mainstream public reaction to these events, we study trendy response prediction to automatically generate top-liked user replies to social media events. While previous works focus on generating responses without factoring in popularity, we propose Popularity-Aligned Language Models (PopALM) to distinguish responses liked by a larger audience through reinforcement learning. Recognizing the noisy labels from user "likes", we tailor-make curriculum learning in proximal policy optimization (PPO) to help models capture the essential samples for easy-to-hard training. In experiments, we build a large-scale Weibo dataset for trendy response prediction, and its results show that PopALM can help boost the performance of advanced language models.
翻訳日:2024-03-01 15:32:58 公開日:2024-02-29
# 深層学習の一般化のためのグループ接続性の向上

Improving Group Connectivity for Generalization of Federated Deep Learning ( http://arxiv.org/abs/2402.18949v1 )

ライセンス: Link先を確認
Zexi Li, Jie Lin, Zhiqi Li, Didi Zhu, Chao Wu(参考訳) フェデレーション学習(fl)は、反復的なローカル更新とモデル融合を通じてグローバルモデルを協調的にトレーニングする複数の異種クライアントを伴う。 flのグローバルモデルの一般化は、より広範なアプリケーションにおけるボトルネックである集中型トレーニングに比べて大きなギャップがある。 本稿では,局所モデルがパラメータ領域でどのように接続され,一般化された大域モデルに融合されるかという観点から,flの一般化を考察し,改善する。 接続性」という用語は、ニューラルネットワークの2つの異なる解(例えばモード)の補間された損失景観を研究する線形モード接続(LMC)に由来する。 本稿では, LMC と FL のギャップを埋めるため, 固定アンカーモデルを用いて, 2 モデル (LMC) から 1 モデル群 (FL のモデル融合) への接続の遷移特性を実験的に理論的に検討する。 この結果に基づき,FedGuCciとFedGuCci+を提案する。 提案手法は,クライアントの不均一性下でのFLの一般化(4つのCVデータセットと6つのNLPデータセット),モデル(畳み込みとトランスフォーマーベースの両方),トレーニングパラダイム(スクラッチとプレトレインファイントゥンの両方)を拡張可能である。

Federated learning (FL) involves multiple heterogeneous clients collaboratively training a global model via iterative local updates and model fusion. The generalization of FL's global model has a large gap compared with centralized training, which is its bottleneck for broader applications. In this paper, we study and improve FL's generalization through a fundamental ``connectivity'' perspective, which means how the local models are connected in the parameter region and fused into a generalized global model. The term ``connectivity'' is derived from linear mode connectivity (LMC), studying the interpolated loss landscape of two different solutions (e.g., modes) of neural networks. Bridging the gap between LMC and FL, in this paper, we leverage fixed anchor models to empirically and theoretically study the transitivity property of connectivity from two models (LMC) to a group of models (model fusion in FL). Based on the findings, we propose FedGuCci and FedGuCci+, improving group connectivity for better generalization. It is shown that our methods can boost the generalization of FL under client heterogeneity across various tasks (4 CV datasets and 6 NLP datasets), models (both convolutional and transformer-based), and training paradigms (both from-scratch and pretrain-finetune).
翻訳日:2024-03-01 15:32:42 公開日:2024-02-29
# 高次不確かさモデルにおけるガウス過程を用いた実時間適応安全臨界制御

Real-Time Adaptive Safety-Critical Control with Gaussian Processes in High-Order Uncertain Models ( http://arxiv.org/abs/2402.18946v1 )

ライセンス: Link先を確認
Yu Zhang, Long Wen, Xiangtong Yao, Zhenshan Bing, Linghuan Kong, Wei He, and Alois Knoll(参考訳) 本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。 我々のアプローチは2つのフェーズからなる。 最初のフェーズは、新しいsparse gaussian process (gp)フレームワークを中心にしている。 そこで我々はまず, 可変スパースGPアルゴリズムを改良し, 適応性を向上する。 その後、ガウスモデルのハイパーパラメータを特別な複合カーネルでトレーニングし、学習されたハイパーパラメータとともに新しいサンプルから導出される孤立誘導点を更新することにより、ガウスモデルのオンライン推論能力と計算効率を強化する。 第2フェーズでは、以前に訓練された学習モデルと相乗効果を持つ高次制御障壁関数(HOCBF)に基づく安全フィルタを提案する。 第1フェーズから複合カーネルを活用することにより,実時間アプリケーションにおける高次元問題処理におけるGPs固有の制約を効果的に解決する。 導出コントローラは、安全仕様を満たす確率において厳密な下界を確保する。 最後に,シミュレーションプラットフォームと実世界の7-DOFロボットを用いて実時間障害物回避実験により,提案アルゴリズムの有効性を実証した。

This paper presents an adaptive online learning framework for systems with uncertain parameters to ensure safety-critical control in non-stationary environments. Our approach consists of two phases. The initial phase is centered on a novel sparse Gaussian process (GP) framework. We first integrate a forgetting factor to refine a variational sparse GP algorithm, thus enhancing its adaptability. Subsequently, the hyperparameters of the Gaussian model are trained with a specially compound kernel, and the Gaussian model's online inferential capability and computational efficiency are strengthened by updating a solitary inducing point derived from new samples, in conjunction with the learned hyperparameters. In the second phase, we propose a safety filter based on high-order control barrier functions (HOCBFs), synergized with the previously trained learning model. By leveraging the compound kernel from the first phase, we effectively address the inherent limitations of GPs in handling high-dimensional problems for real-time applications. The derived controller ensures a rigorous lower bound on the probability of satisfying the safety specification. Finally, the efficacy of our proposed algorithm is demonstrated through real-time obstacle avoidance experiments executed using both a simulation platform and a real-world 7-DOF robot.
翻訳日:2024-03-01 15:32:14 公開日:2024-02-29
# Syntactic Ghost: 事前訓練された言語モデルに対する知覚できない汎用バックドア攻撃

Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on Pre-trained Language Models ( http://arxiv.org/abs/2402.18945v1 )

ライセンス: Link先を確認
Pengzhou Cheng, Wei Du, Zongru Wu, Fengwei Zhang, Libo Chen and Gongshen Liu(参考訳) 事前訓練された言語モデル(PLM)は、さまざまな下流タスクに脆弱性を転送するバックドア攻撃の影響を受けやすい。 しかしながら、既存のPLMバックドアは手動で手動で明示的なトリガーで実行され、有効性、ステルス性、普遍性の観点から期待目標を同時に満たさない。 本稿では,非表示で汎用的なバックドア植込みを実現するための新しいアプローチである \textbf{syntactic ghost} (synghost,略してsynghost)を提案する。 具体的には、異なる事前定義された構文構造を持つ有毒なサンプルをステルストリガーとして敵対的に操作し、原始的な知識を邪魔することなく、バックドアを訓練済みの表現空間に移植する。 有毒サンプルの出力表現は、対照的な学習を通じて特徴空間に可能な限り均一に分散され、幅広いバックドアを形成する。 さらに,構文的トリガーのユニークな特性に照らして,この知識を優先的に学習するためにplmを駆動する補助モジュールを導入し,異なる構文構造間の干渉を緩和する。 実験の結果,提案手法は従来の手法よりも優れ,事前定義された目的を達成することがわかった。 2つのチューニングパラダイム上の様々な自然言語理解(NLU)タスクに対して深刻な脅威を与えるだけでなく、複数のPLMにも脅威を与える。 一方, シンゴーストは, 難易度, 微粒化, 提案した最大エントロピーに基づく3つの対策に対して受容できない。

Pre-trained language models (PLMs) have been found susceptible to backdoor attacks, which can transfer vulnerabilities to various downstream tasks. However, existing PLM backdoors are conducted with explicit triggers under the manually aligned, thus failing to satisfy expectation goals simultaneously in terms of effectiveness, stealthiness, and universality. In this paper, we propose a novel approach to achieve invisible and general backdoor implantation, called \textbf{Syntactic Ghost} (synGhost for short). Specifically, the method hostilely manipulates poisoned samples with different predefined syntactic structures as stealth triggers and then implants the backdoor to pre-trained representation space without disturbing the primitive knowledge. The output representations of poisoned samples are distributed as uniformly as possible in the feature space via contrastive learning, forming a wide range of backdoors. Additionally, in light of the unique properties of syntactic triggers, we introduce an auxiliary module to drive the PLMs to learn this knowledge in priority, which can alleviate the interference between different syntactic structures. Experiments show that our method outperforms the previous methods and achieves the predefined objectives. Not only do severe threats to various natural language understanding (NLU) tasks on two tuning paradigms but also to multiple PLMs. Meanwhile, the synGhost is imperceptible against three countermeasures based on perplexity, fine-pruning, and the proposed maxEntropy.
翻訳日:2024-03-01 15:31:54 公開日:2024-02-29
# semeval 2024 -- タスク10: 感情の発見と会話の反転(ediref)の推論

SemEval 2024 -- Task 10: Emotion Discovery and Reasoning its Flip in Conversation (EDiReF) ( http://arxiv.org/abs/2402.18944v1 )

ライセンス: Link先を確認
Shivani Kumar, Md Shad Akhtar, Erik Cambria, Tanmoy Chakraborty(参考訳) SemEval-2024 Task 10は、感情の識別と、モノリンガル英語とヒンディー語-英語のコード混在対話におけるフリップの背後にある理論的根拠の発見に焦点を当てた共有タスクである。 このタスクは、コード混合対話の会話における感情認識、コード混合対話の感情フリップ推論、英語対話の感情フリップ推論の3つの異なるサブタスクから構成される。 参加システムは、これらのサブタスクの1つまたは複数の自動実行が義務付けられていた。 これらのタスクのデータセットは、感情に焦点を当てた手動でアノテートされた会話と、感情の変化をトリガーする(タスクデータはhttps://github.com/LCS2-IIITD/EDiReF-SemEval2024.git)。 このタスクには84人の参加者が参加し、各サブタスクのF1スコアは0.70、0.79、0.76に達した。 本稿では,24チームによるシステム記述と結果について要約する。

We present SemEval-2024 Task 10, a shared task centred on identifying emotions and finding the rationale behind their flips within monolingual English and Hindi-English code-mixed dialogues. This task comprises three distinct subtasks - emotion recognition in conversation for code-mixed dialogues, emotion flip reasoning for code-mixed dialogues, and emotion flip reasoning for English dialogues. Participating systems were tasked to automatically execute one or more of these subtasks. The datasets for these tasks comprise manually annotated conversations focusing on emotions and triggers for emotion shifts (The task data is available at https://github.com/LCS2-IIITD/EDiReF-SemEval2024.git). A total of 84 participants engaged in this task, with the most adept systems attaining F1-scores of 0.70, 0.79, and 0.76 for the respective subtasks. This paper summarises the results and findings from 24 teams alongside their system descriptions.
翻訳日:2024-03-01 15:31:28 公開日:2024-02-29
# 量子情報再生におけるベイズ離散フィードバックの有効性について

On the effectiveness of Bayesian discrete feedback for quantum information reclaiming ( http://arxiv.org/abs/2402.18941v1 )

ライセンス: Link先を確認
Milajiguli Rexiti, Samad Khabbazi Oskouei, Stefano Mancini(参考訳) チャネル動作後の量子情報の再生を目的とした離散時間フィードバックを考える。 ベイズ戦略とマルコフ戦略を比較します 前者はクビットチャネルに何の利点も与えていないが、その優れた性能は高次元チャネルに現れる。 これはクトリットチャネルに関するケーススタディで確認されている。

We consider discrete time feedback aimed at reclaiming quantum information after a channel action. We compare Bayesian and Markovian strategies. We show that the former does not offer any advantage for qubit channels, while its superior performance can appear in higher dimensional channels. This is witnessed by cases study for qutrit channels.
翻訳日:2024-03-01 15:31:05 公開日:2024-02-29
# 深層学習による捕捉イオンのモード分解熱測定

Mode-resolved thermometry of trapped ion with Deep Learning ( http://arxiv.org/abs/2402.19022v1 )

ライセンス: Link先を確認
Yi Tao, Ting Chen, Yi Xie, Hongyang Wang, Jie Zhang, Ting Zhang, Pingxing Chen, Wei Wu(参考訳) 閉じ込められたイオン系では、イオンの正確な温度測定がシステム状態の評価と量子演算の精密な実行に不可欠である。 しかし、単一イオンの運動状態が基底状態から遠く離れている場合、フォノン状態の空間次元が急激に増加し、既存の方法で正確なモード分解熱測定を実現するのが困難になる。 本研究では, 捕捉されたイオンの温度測定に初めて深層学習を適用し, 大きな平均フォノン数を正確に推定する効率的なモード解法を提案する。 我々のトレーニングされたニューラルネットワークモデルは、関連するパラメータがモデルの有効範囲でカバーされている限り、トレーニングや後処理をせずに、他の実験的な設定に直接適用することができる。 その結果, 単イオンの温度測定方法の精度と効率が大きな平均フォノン数で示され, そのモード分解能特性は, 冷却効率の評価, 表面トラップノイズの解析など, システムパラメータのキャラクタリゼーションに有効であることがわかった。

In trapped ion system, accurate thermometry of ion is crucial for evaluating the system state and precisely performing quantum operations. However, when the motional state of a single ion is far away from the ground state, the spatial dimension of the phonon state sharply increases, making it difficult to realize accurate and mode-resolved thermometry with existing methods. In this work, we apply deep learning for the first time to the thermometry of trapped ion, providing an efficient and mode-resolved method for accurately estimating large mean phonon numbers. Our trained neural network model can be directly applied to other experimental setups without retraining or post-processing, as long as the related parameters are covered by the model's effective range, and it can also be conveniently extended to other parameter ranges. We have conducted experimental verification based on our surface trap, of which the result has shown the accuracy and efficiency of the method for thermometry of single ion under large mean phonon number, and its mode resolution characteristic can make it better applied to the characterization of system parameters, such as evaluating cooling effectiveness, analyzing surface trap noise.
翻訳日:2024-03-01 15:28:30 公開日:2024-02-29
# ビームスプリッタ型ハイブリッドレンズを用いた高分解能光場イメージングの教師なし学習

Unsupervised Learning of High-resolution Light Field Imaging via Beam Splitter-based Hybrid Lenses ( http://arxiv.org/abs/2402.19020v1 )

ライセンス: Link先を確認
Jianxin Lei, Chengcai Xu, Langqing Shi, Junhui Hou, Ping Zhou(参考訳) 本稿では,ビームスプリッタを用いたハイブリッド光フィールドイメージングプロトタイプを設計し,4次元光フィールド画像と高分解能2次元画像を同時に記録し,ハイブリッド光フィールドデータセットを作成する。 2次元画像は4次元光野画像の低分解能中央サブアパーチャ画像に対応する高分解能地盤真理と考えることができる。 次に,複合分解モデルを用いて光場空間超解像問題を適応的に解決するハイブリッド光フィールドデータセットを用いた教師なし学習による超解像フレームワークを提案する。 具体的には,事前学習モデルに基づく2つの損失関数を設計し,超解像ネットワークが1つの基底的真理だけで詳細な特徴と光場パララックス構造を学習できるようにする。 広範囲にわたる実験は、教師付き学習に基づく最先端技術によるアプローチの優位性を実証している。 私たちの知る限りでは、光フィールドイメージング研究において、エンドツーエンドの教師なし学習に基づく空間超解像アプローチとして初めてであり、ビームスプリッターベースのハイブリッド光フィールドシステムから入力を受けられる。 ハードウェアとソフトウェアは、光場超解像の応用を大いに促進するのに役立つかもしれない。

In this paper, we design a beam splitter-based hybrid light field imaging prototype to record 4D light field image and high-resolution 2D image simultaneously, and make a hybrid light field dataset. The 2D image could be considered as the high-resolution ground truth corresponding to the low-resolution central sub-aperture image of 4D light field image. Subsequently, we propose an unsupervised learning-based super-resolution framework with the hybrid light field dataset, which adaptively settles the light field spatial super-resolution problem with a complex degradation model. Specifically, we design two loss functions based on pre-trained models that enable the super-resolution network to learn the detailed features and light field parallax structure with only one ground truth. Extensive experiments demonstrate the same superiority of our approach with supervised learning-based state-of-the-art ones. To our knowledge, it is the first end-to-end unsupervised learning-based spatial super-resolution approach in light field imaging research, whose input is available from our beam splitter-based hybrid light field system. The hardware and software together may help promote the application of light field super-resolution to a great extent.
翻訳日:2024-03-01 15:28:11 公開日:2024-02-29
# SPriFed-OMP:スパース基底回復のための微分プライベートフェデレーション学習アルゴリズム

SPriFed-OMP: A Differentially Private Federated Learning Algorithm for Sparse Basis Recovery ( http://arxiv.org/abs/2402.19016v1 )

ライセンス: Link先を確認
Ajinkya Kiran Mulay, Xiaojun Lin(参考訳) スパース基底リカバリ(sparse basis recovery)は、モデル次元 $p$ がサンプル数 $n$ よりもはるかに大きい場合の、古典的で重要な統計学習問題である。 しかしながら、クライアントデータの差分プライバシー(DP)を同時に保護しなければならないフェデレートラーニング(FL)設定において、疎基底回復を研究する研究はほとんど行われていない。 特に、既存のDP-FLアルゴリズム(DP-SGDなど)の性能保証は$p \gg n$で大幅に低下し、真のスパースモデルを正確に学習できない。 本研究では,sprifed-omp と呼ばれる fl 設定のための差分分離基底リカバリアルゴリズムを開発した。 SPriFed-OMPはOMP(Orthogonal Matching Pursuit)をFL設定に変換する。 さらに、SMPC(セキュアなマルチパーティ計算)とDPを組み合わせて、差分プライバシーを達成するために少量のノイズを追加する必要があることを保証します。 その結果、SPriFed-OMPは、$n = O(\sqrt{p})$サンプルだけで線形モデルの真のスパース基底を効率的に回収できる。 また,SPriFed-OMP-GRADの改良版であるSPriFed-OMP-GRADを提案し,SPriFed-OMPの性能を向上させる。 理論解析と実験の結果から,sprifed-ompとsprifed-omp-gradはいずれも少数のステップで終了し,精度とプライバシーのトレードオフの観点からは従来のdp-flソリューションを大きく上回ることがわかった。

Sparse basis recovery is a classical and important statistical learning problem when the number of model dimensions $p$ is much larger than the number of samples $n$. However, there has been little work that studies sparse basis recovery in the Federated Learning (FL) setting, where the client data's differential privacy (DP) must also be simultaneously protected. In particular, the performance guarantees of existing DP-FL algorithms (such as DP-SGD) will degrade significantly when $p \gg n$, and thus, they will fail to learn the true underlying sparse model accurately. In this work, we develop a new differentially private sparse basis recovery algorithm for the FL setting, called SPriFed-OMP. SPriFed-OMP converts OMP (Orthogonal Matching Pursuit) to the FL setting. Further, it combines SMPC (secure multi-party computation) and DP to ensure that only a small amount of noise needs to be added in order to achieve differential privacy. As a result, SPriFed-OMP can efficiently recover the true sparse basis for a linear model with only $n = O(\sqrt{p})$ samples. We further present an enhanced version of our approach, SPriFed-OMP-GRAD based on gradient privatization, that improves the performance of SPriFed-OMP. Our theoretical analysis and empirical results demonstrate that both SPriFed-OMP and SPriFed-OMP-GRAD terminate in a small number of steps, and they significantly outperform the previous state-of-the-art DP-FL solutions in terms of the accuracy-privacy trade-off.
翻訳日:2024-03-01 15:27:51 公開日:2024-02-29
# 大規模視覚言語モデルにおけるコントラスト学習による視覚文書理解の強化

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models ( http://arxiv.org/abs/2402.19014v1 )

ライセンス: Link先を確認
Xin Li, Yunfei Wu, Xinghua Jiang, Zhihao Guo, Mingming Gong, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun(参考訳) 近年、大規模視覚言語モデル(lvlms)の出現は、様々な領域、特に視覚文書理解(vdu)の分野で注目を集めている。 従来の視覚言語タスクとは異なり、VDUは豊富な文書要素を含むテキストリッチなシナリオに特化している。 それでも、細粒度機能の重要性はLVLMのコミュニティ内では未解明のままであり、テキストリッチなシナリオでは準最適性能が得られる。 本稿では,これをきめ細かな特徴崩壊問題と略す。 このギャップを埋めることを目的として,本研究では,VDUの下流タスクに特化して,Document Object Contrastive Learning(DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLMの視覚エンコーダによって生成された視覚的特徴に合わせる。 視覚全体表現と文書オブジェクトの多様細粒度特徴との対比学習は、より効果的な視覚手がかりを得るために視覚エンコーダを補助し、lvlmsにおけるテキストリッチ文書の理解を促進することができる。 また,提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することを示した。 提案するDoCoを組み込んだLVLMは,VDUと汎用視覚言語タスクのギャップを緩和し,優れた性能を実現することができる。

Recently, the advent of Large Visual-Language Models (LVLMs) has received increasing attention across various domains, particularly in the field of visual document understanding (VDU). Different from conventional vision-language tasks, VDU is specifically concerned with text-rich scenarios containing abundant document elements. Nevertheless, the importance of fine-grained features remains largely unexplored within the community of LVLMs, leading to suboptimal performance in text-rich scenarios. In this paper, we abbreviate it as the fine-grained feature collapse issue. With the aim of filling this gap, we propose a contrastive learning framework, termed Document Object COntrastive learning (DoCo), specifically tailored for the downstream tasks of VDU. DoCo leverages an auxiliary multimodal encoder to obtain the features of document objects and align them to the visual features generated by the vision encoder of LVLM, which enhances visual representation in text-rich scenarios. It can represent that the contrastive learning between the visual holistic representations and the multimodal fine-grained features of document objects can assist the vision encoder in acquiring more effective visual cues, thereby enhancing the comprehension of text-rich documents in LVLMs. We also demonstrate that the proposed DoCo serves as a plug-and-play pre-training method, which can be employed in the pre-training of various LVLMs without inducing any increase in computational complexity during the inference process. Extensive experimental results on multiple benchmarks of VDU reveal that LVLMs equipped with our proposed DoCo can achieve superior performance and mitigate the gap between VDU and generic vision-language tasks.
翻訳日:2024-03-01 15:27:22 公開日:2024-02-29
# 離散データと連続データの生成・再構成・表現:学習可能なエンコーディング・デコーディングによる一般化拡散

Generating, Reconstructing, and Representing Discrete and Continuous Data: Generalized Diffusion with Learnable Encoding-Decoding ( http://arxiv.org/abs/2402.19009v1 )

ライセンス: Link先を確認
Guangyi Liu, Yu Wang, Zeyu Feng, Qiyu Wu, Liping Tang, Yuan Gao, Zhen Li, Shuguang Cui, Julian McAuley, Eric P. Xing, Zichao Yang, Zhiting Hu(参考訳) 深層生成モデルの膨大な応用は、3つのコア機能 – 新しいインスタンスの生成、インプットの再構築、コンパクト表現の学習 – に固定されている。 既存のモデルファミリ(VAE)、GAN(Generative Adversarial Networks)、自己回帰モデル、拡散モデルなど)は、一般的に特定の機能やデータタイプに優れているが、他では不足している。 学習可能なエンコーダデコーダ(DiLED)による一般化拡散を導入し,広い適用性と性能向上のためのコア機能をシームレスに統合する。 DiLEDはパラメタライズされた符号化復号を導入することにより、標準拡散におけるガウス雑音化を一般化する。 diledは、十分に確立された拡散モデル目的とトレーニングレシピと互換性があり、エンコーダ-デコーダパラメータを拡散と共に効果的に学習することができる。 適切なエンコーダ/デコーダ(例えば大きな言語モデル)を選択することで、DiLEDは自然に異なるデータ型に適用できる。 テキスト、タンパク質、画像に関する広範な実験は、diledの多様なデータやタスクを扱う柔軟性と、既存の様々なモデルに対する強力な改善を示している。

The vast applications of deep generative models are anchored in three core capabilities -- generating new instances, reconstructing inputs, and learning compact representations -- across various data types, such as discrete text/protein sequences and continuous images. Existing model families, like Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), autoregressive models, and diffusion models, generally excel in specific capabilities and data types but fall short in others. We introduce generalized diffusion with learnable encoder-decoder (DiLED), that seamlessly integrates the core capabilities for broad applicability and enhanced performance. DiLED generalizes the Gaussian noising-denoising in standard diffusion by introducing parameterized encoding-decoding. Crucially, DiLED is compatible with the well-established diffusion model objective and training recipes, allowing effective learning of the encoder-decoder parameters jointly with diffusion. By choosing appropriate encoder/decoder (e.g., large language models), DiLED naturally applies to different data types. Extensive experiments on text, proteins, and images demonstrate DiLED's flexibility to handle diverse data and tasks and its strong improvement over various existing models.
翻訳日:2024-03-01 15:26:52 公開日:2024-02-29
# doze: 動的環境におけるオープンボキャブラリーゼロショットオブジェクトナビゲーションのためのデータセット

DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments ( http://arxiv.org/abs/2402.19007v1 )

ライセンス: Link先を確認
Ji Ma, Hongming Dai, Yao Mu, Pengying Wu, Hao Wang, Xiaowei Chi, Yang Fei, Shanghang Zhang, Chang Liu(参考訳) ゼロショットオブジェクトナビゲーション(zson, zero-shot object navigation, ゼロショットオブジェクトナビゲーション)は、エージェントが未知の環境で未発見のオブジェクトを自律的に発見し、アプローチする必要がある。 zsonアルゴリズムを開発するための既存のデータセットは、動的障害、オブジェクト属性の多様性、シーンテキストを考慮せず、実世界の状況から明らかな不一致を示す。 これらの課題に対処するために,複雑な動的現実のシナリオを模倣することを目的とした,10以上の高忠実度3Dシーンからなるオープンボキャブラリゼロショットオブジェクトナビゲーション(DOZE)のデータセットを提案する。 特にDOZEシーンは、複数の動くヒューマノイド障害物、幅広いオープン語彙オブジェクト、多様な異なる属性オブジェクト、貴重なテキストヒントを特徴としている。 さらに,エージェントと静的障害物の衝突チェックのみを提供する既存のデータセットとは異なり,エージェントと移動障害物の衝突を検出する機能を統合することで,DOZEを強化する。 この新機能により、動的環境におけるエージェントの衝突回避能力の評価が可能となる。 4つの代表的なzson法をdoze上でテストし,ナビゲーション効率,安全性,オブジェクト認識精度に関する既存手法の改善の余地を明らかにした。 データセットはhttps://DOZE-Dataset.github.io/で確認できます。

Zero-Shot Object Navigation (ZSON) requires agents to autonomously locate and approach unseen objects in unfamiliar environments and has emerged as a particularly challenging task within the domain of Embodied AI. Existing datasets for developing ZSON algorithms lack consideration of dynamic obstacles, object attribute diversity, and scene texts, thus exhibiting noticeable discrepancy from real-world situations. To address these issues, we propose a Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments (DOZE) that comprises ten high-fidelity 3D scenes with over 18k tasks, aiming to mimic complex, dynamic real-world scenarios. Specifically, DOZE scenes feature multiple moving humanoid obstacles, a wide array of open-vocabulary objects, diverse distinct-attribute objects, and valuable textual hints. Besides, different from existing datasets that only provide collision checking between the agent and static obstacles, we enhance DOZE by integrating capabilities for detecting collisions between the agent and moving obstacles. This novel functionality enables evaluation of the agents' collision avoidance abilities in dynamic environments. We test four representative ZSON methods on DOZE, revealing substantial room for improvement in existing approaches concerning navigation efficiency, safety, and object recognition accuracy. Our dataset could be found at https://DOZE-Dataset.github.io/.
翻訳日:2024-03-01 15:26:29 公開日:2024-02-29
# RSAM-Seg:リモートセンシング画像セマンティックセグメンテーションのための事前知識統合のためのSAMベースのアプローチ

RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2402.19004v1 )

ライセンス: Link先を確認
Jie Zhang, Xubing Yang, Rui Jiang, Wei Shao and Li Zhang(参考訳) 高解像度リモートセンシング衛星の開発は、リモートセンシングに関する研究に非常に便利である。 広大かつ複雑なリモートセンシング画像に直面する場合、特定のターゲットのセグメンテーションと抽出が不可欠である。 近年,Segment Anything Model (SAM) の導入により,画像分割作業のための普遍的な事前学習モデルが提供される。 リモートセンシング画像セグメンテーションタスクへのsamの直接適用は、十分な結果をもたらすものではないが、セマンティックセグメンテーションを持つリモートセンシングsamの略であるrsam-segを、リモートセンシングフィールドのためのsamのカスタマイズされた修正として提案し、プロンプトを提供するための手作業による介入を不要にする。 補足的なスケーリングモジュールである adapter-scale が sam のエンコーダ部分のマルチヘッドアテンションブロックで提案されている。 さらに、vision transformer(vit)ブロックの間にアダプタ機能を挿入する。 これらのモジュールは、画像インフォームプロンプトを生成するために、高周波画像情報と画像埋め込み機能を組み込むことを目的としている。 クラウド検出、フィールドモニタリング、ビルディング検出、道路マッピングタスクを含む4つの異なるリモートセンシングシナリオで実験が行われた。 実験の結果は、クラウド、ビル、フィールド、道路シナリオをまたいだSAMとU-Netの改善を示すだけでなく、RSAM-Segが特定のデータセットの真理の中で欠落した領域を識別する能力を強調し、補助的なアノテーション手法としての可能性を確認した。 さらに、少数のシナリオのパフォーマンスは賞賛され、限られたデータセットを扱う可能性を強調する。

The development of high-resolution remote sensing satellites has provided great convenience for research work related to remote sensing. Segmentation and extraction of specific targets are essential tasks when facing the vast and complex remote sensing images. Recently, the introduction of Segment Anything Model (SAM) provides a universal pre-training model for image segmentation tasks. While the direct application of SAM to remote sensing image segmentation tasks does not yield satisfactory results, we propose RSAM-Seg, which stands for Remote Sensing SAM with Semantic Segmentation, as a tailored modification of SAM for the remote sensing field and eliminates the need for manual intervention to provide prompts. Adapter-Scale, a set of supplementary scaling modules, are proposed in the multi-head attention blocks of the encoder part of SAM. Furthermore, Adapter-Feature are inserted between the Vision Transformer (ViT) blocks. These modules aim to incorporate high-frequency image information and image embedding features to generate image-informed prompts. Experiments are conducted on four distinct remote sensing scenarios, encompassing cloud detection, field monitoring, building detection and road mapping tasks . The experimental results not only showcase the improvement over the original SAM and U-Net across cloud, buildings, fields and roads scenarios, but also highlight the capacity of RSAM-Seg to discern absent areas within the ground truth of certain datasets, affirming its potential as an auxiliary annotation method. In addition, the performance in few-shot scenarios is commendable, underscores its potential in dealing with limited datasets.
翻訳日:2024-03-01 15:25:50 公開日:2024-02-29
# goalnet: ゴールエリア指向の歩行者軌道予測

GoalNet: Goal Areas Oriented Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2402.19002v1 )

ライセンス: Link先を確認
Ching-Lin Lee, Zhi-Xuan Wang, Kuan-Ting Lai, Amar Fadillah(参考訳) 道路上の歩行者の将来の軌跡を予測することは、自動運転にとって重要な課題である。 歩行者の軌跡予測はシーンパスや歩行者の意図、意思決定に影響され、マルチモーダル問題となっている。 最近の研究では、過去の軌跡を用いて、シーンの文脈や歩行者のターゲットを考慮しない様々な将来の軌道分布を予測する。 将来の軌跡を直接予測する代わりに、シーンコンテキストと観測された軌跡を用いてまず目標点を予測し、次にゴール点を再利用して将来の軌跡を予測することを提案する。 シーンコンテキストと観測された軌道の情報を活用することで、不確実性は歩行者の「ゴール」を表すいくつかのターゲット領域に限定される。 本稿では,歩行者の目標領域に基づく新しい軌道予測ニューラルネットワークであるgoalnetを提案する。 我々のネットワークは歩行者の軌道とバウンディングボックスの両方を予測することができる。 全体的なモデルは効率的でモジュール化されており、使用シナリオに応じて出力を変更することができる。 実験の結果、goalnetは以前のパフォーマンスをjaadでは48.7%、pieデータセットでは40.8%向上させた。

Predicting the future trajectories of pedestrians on the road is an important task for autonomous driving. The pedestrian trajectory prediction is affected by scene paths, pedestrian's intentions and decision-making, which is a multi-modal problem. Most recent studies use past trajectories to predict a variety of potential future trajectory distributions, which do not account for the scene context and pedestrian targets. Instead of predicting the future trajectory directly, we propose to use scene context and observed trajectory to predict the goal points first, and then reuse the goal points to predict the future trajectories. By leveraging the information from scene context and observed trajectory, the uncertainty can be limited to a few target areas, which represent the "goals" of the pedestrians. In this paper, we propose GoalNet, a new trajectory prediction neural network based on the goal areas of a pedestrian. Our network can predict both pedestrian's trajectories and bounding boxes. The overall model is efficient and modular, and its outputs can be changed according to the usage scenario. Experimental results show that GoalNet significantly improves the previous state-of-the-art performance by 48.7% on the JAAD and 40.8% on the PIE dataset.
翻訳日:2024-03-01 15:25:04 公開日:2024-02-29
# 喉頭血管分類における2段階異種移行学習の検討 : 課題と改善

Analysis of the Two-Step Heterogeneous Transfer Learning for Laryngeal Blood Vessel Classification: Issue and Improvement ( http://arxiv.org/abs/2402.19001v1 )

ライセンス: Link先を確認
Xinyi Fang, Chak Fong Chong, Kei Long Wong, Yapeng Wang, Tiankui Zhang, Sio-Kei Im(参考訳) 自然画像から医学画像に学習した特徴の分類は一般的である。 しかし、特定の医用画像の種類が不足し、自然画像と医用画像の相違により課題が生じる。 2段階の伝達学習がこの問題の有望な解決策として認識されている。 しかし、適切な中間ドメインを選択することは、さらに分類性能を向上させる上で重要である。 そこで本研究では,糖尿病網膜データセットの色眼写真を用いて2段階の異種学習(THTL)を行い,喉頭血管像を9つのディープラーニングモデルで分類する方法について検討した。 実験の結果、中間ドメインとターゲットドメインの両方の画像は血管柄付き特性を共有しているが、最終レイヤのみを微調整したワンステップ転送学習と比較して、精度が大幅に低下している(ResNet18は14.7%、ResNet50は14.8%)。 The Layer Class Activation Maps (LayerCAM) を解析した結果, 中間領域に広く分布するラジアル血管パターンが, 標的領域の悪性度を識別するねじれ, 絡み合った血管の特徴を学習するのを防ぐことが判明した。 性能低下に対処するため,THTLの第2ステップでResNet上でのステップワイズファインチューニング(SWFT)手法を提案する。 最後の層のみが微調整されたTHTLの2番目のステップと比較して、ResNet18では26.1%、ResNet50では20.4%の精度が向上した。 さらに、スクラッチからのトレーニングと比較して、imagenetをソースドメインとして使用すると、喉頭血管の分類性能はわずかに向上するが、違いは重要ではない。

Transferring features learned from natural to medical images for classification is common. However, challenges arise due to the scarcity of certain medical image types and the feature disparities between natural and medical images. Two-step transfer learning has been recognized as a promising solution for this issue. However, choosing an appropriate intermediate domain would be critical in further improving the classification performance. In this work, we explore the effectiveness of using color fundus photographs of the diabetic retina dataset as an intermediate domain for two-step heterogeneous learning (THTL) to classify laryngeal vascular images with nine deep-learning models. Experiment results confirm that although the images in both the intermediate and target domains share vascularized characteristics, the accuracy is drastically reduced compared to one-step transfer learning, where only the last layer is fine-tuned (e.g., ResNet18 drops 14.7%, ResNet50 drops 14.8%). By analyzing the Layer Class Activation Maps (LayerCAM), we uncover a novel finding that the prevalent radial vascular pattern in the intermediate domain prevents learning the features of twisted and tangled vessels that distinguish the malignant class in the target domain. To address the performance drop, we propose the Step-Wise Fine-Tuning (SWFT) method on ResNet in the second step of THTL, resulting in substantial accuracy improvements. Compared to THTL's second step, where only the last layer is fine-tuned, accuracy increases by 26.1% for ResNet18 and 20.4% for ResNet50. Additionally, compared to training from scratch, using ImageNet as the source domain could slightly improve classification performance for laryngeal vascular, but the differences are insignificant.
翻訳日:2024-03-01 15:24:29 公開日:2024-02-29
# COFT-AD:Few-Shot 異常検出のためのContrastive Fine-Tuning

COFT-AD: COntrastive Fine-Tuning for Few-Shot Anomaly Detection ( http://arxiv.org/abs/2402.18998v1 )

ライセンス: Link先を確認
Jingyi Liao, Xun Xu, Manh Cuong Nguyen, Adam Goodge, Chuan Sheng Foo(参考訳) 既存の異常検出アプローチ~(AD)は、しばしば、表現と密度モデルを訓練するためにかなりの量の異常のないデータに依存している。 しかし、大きな異常のないデータセットは推論の段階では必ずしも利用できないかもしれない。この場合、異常検出モデルは通常のサンプルのごく一部、すなわち数発の異常検出(FSAD)でのみ訓練されなければならない。 本稿では,2つの重要な手法を取り入れたFSADの課題に対処する新しい手法を提案する。 まず、モデル重みを初期化するために、大規模なソースデータセット上で事前訓練されたモデルを用いる。 第2に、ソースとターゲットドメイン間の共変量シフトを改善するために、少数のターゲットドメインデータに基づいて微調整を行うために、コントラストトレーニングを採用する。 下流のadタスクに適した表現を学習するために、正規サンプルの密集したクラスターを促進するためにクロス・インスタンス正のペアと、正常標本と合成負のサンプルの分離を改善する負のペアを組み込んだ。 提案手法の有効性を示すために,3つの制御されたADタスクと4つの実世界のADタスクに対して,数発の異常検出を行った。

Existing approaches towards anomaly detection~(AD) often rely on a substantial amount of anomaly-free data to train representation and density models. However, large anomaly-free datasets may not always be available before the inference stage; in which case an anomaly detection model must be trained with only a handful of normal samples, a.k.a. few-shot anomaly detection (FSAD). In this paper, we propose a novel methodology to address the challenge of FSAD which incorporates two important techniques. Firstly, we employ a model pre-trained on a large source dataset to initialize model weights. Secondly, to ameliorate the covariate shift between source and target domains, we adopt contrastive training to fine-tune on the few-shot target domain data. To learn suitable representations for the downstream AD task, we additionally incorporate cross-instance positive pairs to encourage a tight cluster of the normal samples, and negative pairs for better separation between normal and synthesized negative samples. We evaluate few-shot anomaly detection on on 3 controlled AD tasks and 4 real-world AD tasks to demonstrate the effectiveness of the proposed method.
翻訳日:2024-03-01 15:23:32 公開日:2024-02-29
# 不均一分散数時系列に対する負二項ランダム化ガンママルコフ過程

Negative-Binomial Randomized Gamma Markov Processes for Heterogeneous Overdispersed Count Time Series ( http://arxiv.org/abs/2402.18995v1 )

ライセンス: Link先を確認
Rui Huang, Sikun Yang, Heinz Koeppl(参考訳) 数量評価時系列のモデル化は、自然界や社会界でカウント時系列が生まれて以来、注目されている。 poisson gamma dynamical systems (pgdss) は新たに開発された手法であり、数値列の背後にある表現的潜在遷移構造とバースティダイナミクスをうまく捉えることができる。 特に、PGDSは、標準線形力学系(LDS)に基づく手法と比較して、データ計算と予測の点で優れた性能を示す。 これらの利点にもかかわらず、pgdは基盤となる動的プロセスの不均一な分散挙動を捉えることができない。 この欠陥を緩和するために,提案する動的システムの予測性能を大幅に向上させるだけでなく,推論アルゴリズムの高速収束を容易にする負二項ランダム化ガンママルコフ法を提案する。 さらに,因子構造とグラフ構造の両方の遷移ダイナミクスを推定し,PGDSと比較して説明可能な潜在構造を推測する手法を開発した。 最後に,提案手法で学習した説明可能な潜伏構造を実証し,関連するモデルと比較して,欠落データや将来の観測予測に優れた性能を示す。

Modeling count-valued time series has been receiving increasing attention since count time series naturally arise in physical and social domains. Poisson gamma dynamical systems (PGDSs) are newly-developed methods, which can well capture the expressive latent transition structure and bursty dynamics behind count sequences. In particular, PGDSs demonstrate superior performance in terms of data imputation and prediction, compared with canonical linear dynamical system (LDS) based methods. Despite these advantages, PGDS cannot capture the heterogeneous overdispersed behaviours of the underlying dynamic processes. To mitigate this defect, we propose a negative-binomial-randomized gamma Markov process, which not only significantly improves the predictive performance of the proposed dynamical system, but also facilitates the fast convergence of the inference algorithm. Moreover, we develop methods to estimate both factor-structured and graph-structured transition dynamics, which enable us to infer more explainable latent structure, compared with PGDSs. Finally, we demonstrate the explainable latent structure learned by the proposed method, and show its superior performance in imputing missing data and forecasting future observations, compared with the related models.
翻訳日:2024-03-01 15:22:56 公開日:2024-02-29
# Spyx:スパイクニューラルネットワークのジャストインタイムコンパイル最適化ライブラリ

Spyx: A Library for Just-In-Time Compiled Optimization of Spiking Neural Networks ( http://arxiv.org/abs/2402.18994v1 )

ライセンス: Link先を確認
Kade M. Heckel and Thomas Nowotny(参考訳) 人工知能の役割が現代社会でますます重要になっていくにつれて、ディープニューラルネットワークの効率的な訓練と展開が重要な分野として浮上してきた。 注目に基づく大規模ニューラルネットワークアーキテクチャの最近の進歩は、AIアクセラレータの開発を加速させ、広範なマルチビリオンパラメータモデルのトレーニングを促進する。 その効果にもかかわらず、これらの強力なネットワークはプロダクション環境で高い実行コストを発生させる。 生物学的神経プロセスに触発されたニューロモルフィックコンピューティングは、有望な代替手段を提供する。 時間的スパース計算を利用することで、スパイキングニューラルネットワーク(snns)は、ハードウェアフットプリントの削減と低消費電力によるエネルギー効率の向上を提供する。 しかし、SNNのトレーニングは、現代のAIアクセラレーターの大規模な並列性を活用するのが簡単ではない、反復的な性質のため、難しい場合がある。 SNNアーキテクチャとダイナミックスの調査を容易にするため、研究者は、PyTorchやTensorFlowといったPythonベースのディープラーニングフレームワークを、カスタム実装の計算カーネルでブリッジしようと試みている。 本稿では、JAXで設計された新しい軽量SNNシミュレーションおよび最適化ライブラリSpyxを紹介する。 現代のアクセラレータのvRAMの拡張とJITコンパイルの広範な使用により、SpyxはSNN最適化をNVIDIA GPUやGoogle TPU上で統一された低レベルプログラムとして実行することができる。 このアプローチは最適なハードウェア利用を実現し、多くの既存のSNNトレーニングフレームワークのパフォーマンスを上回り、柔軟性を保っている。

As the role of artificial intelligence becomes increasingly pivotal in modern society, the efficient training and deployment of deep neural networks have emerged as critical areas of focus. Recent advancements in attention-based large neural architectures have spurred the development of AI accelerators, facilitating the training of extensive, multi-billion parameter models. Despite their effectiveness, these powerful networks often incur high execution costs in production environments. Neuromorphic computing, inspired by biological neural processes, offers a promising alternative. By utilizing temporally-sparse computations, Spiking Neural Networks (SNNs) offer to enhance energy efficiency through a reduced and low-power hardware footprint. However, the training of SNNs can be challenging due to their recurrent nature which cannot as easily leverage the massive parallelism of modern AI accelerators. To facilitate the investigation of SNN architectures and dynamics researchers have sought to bridge Python-based deep learning frameworks such as PyTorch or TensorFlow with custom-implemented compute kernels. This paper introduces Spyx, a new and lightweight SNN simulation and optimization library designed in JAX. By pre-staging data in the expansive vRAM of contemporary accelerators and employing extensive JIT compilation, Spyx allows for SNN optimization to be executed as a unified, low-level program on NVIDIA GPUs or Google TPUs. This approach achieves optimal hardware utilization, surpassing the performance of many existing SNN training frameworks while maintaining considerable flexibility.
翻訳日:2024-03-01 15:22:35 公開日:2024-02-29
# 直接評価された摂動連続ユニタリ変換による量子臨界特性の抽出

Extracting quantum-critical properties from directly evaluated enhanced perturbative continuous unitary transformations ( http://arxiv.org/abs/2402.18989v1 )

ライセンス: Link先を確認
L. Schamri\ss, M.R. Walther, K.P. Schmidt(参考訳) 直接評価された拡張摂動連続ユニタリ変換(ディープカット)は、基底状態エネルギーとエネルギーギャップの非摂動外挿数値データを計算するために用いられる。 データは、ディープカットが切断される順序までの摂動級数と一致する。 本稿では,DeepCUTデータから量子臨界特性を抽出するための一般的なスキームを開発し,臨界点における相関点の長さとDeepCUTに使用するトランケーションとの厳密な対応性を示す。 本手法は, 格子幾何と反強磁性結合の選択に依存する様々な普遍性クラスの量子相転移のパラダイムシステムとして, トランスバースフィールドイジングモデル (tfims) に適用する。 特に,Ising型層間結合を持つ三角形格子上の二層反強磁性TFIMの量子位相図に着目した。 場がなければ、このモデルは古典的に乱れた基底状態を持つことが知られており、分離層の極限では、対応する単層モデルの3d-xy 'order by disorder'遷移を示す。 位相図の未知部分の出発点は、モデルがギャップ位相にある孤立二量体の極限に関する高次摂動計算である。

Directly evaluated enhanced perturbative continuous unitary transformations (deepCUTs) are used to calculate non-perturbatively extrapolated numerical data for the ground-state energy and the energy gap. The data coincides with the perturbative series up to the order with respect to which the deepCUT is truncated. We develop a general scheme to extract quantum-critical properties from the deepCUT data based on critical scaling and a strict correspondence between the truncation used for deepCUT and the length scale of correlations at the critical point. We apply our approach to transverse-field Ising models (TFIMs) as paradigmatic systems for quantum phase transitions of various universality classes depending on the lattice geometry and the choice of antiferromagnetic or ferromagnetic coupling. In particular, we focus on the quantum phase diagram of the bilayer antiferromagnetic TFIM on the triangular lattice with an Ising-type interlayer coupling. Without a field, the model is known to host a classically disordered ground state, and in the limit of decoupled layers it exhibits the 3d-XY 'order by disorder' transition of the corresponding single-layer model. Our starting point for the unknown parts of the phase diagram is a high-order perturbative calculation about the limit of isolated dimers where the model is in a gapped phase.
翻訳日:2024-03-01 15:22:12 公開日:2024-02-29
# 任意の向きと回転速度における原子干渉計

Atom interferometry at arbitrary orientations and rotation rates ( http://arxiv.org/abs/2402.18988v1 )

ライセンス: Link先を確認
Quentin d'Armagnac de Castanet, Cyrille Des Cognets, Romain Arguel, Simon Templier, Vincent Jarlaud, Vincent M\'enoret, Bruno Desruelle, Philippe Bouyer, and Baptiste Battelier(参考訳) 原子干渉計の正確な精度は、基礎物理学から測地学、慣性航法まで幅広いユースケースに対する大きなコミュニティの関心を呼んだ。 しかし、自由落下型原子干渉計の単一位相シフトで回転と加速度が絡み合っているため、有用な信号の抽出がより困難になるため、オンボード応用の実用性はまだ限られている。 さらに、回転による波状パケットの空間的分離は、信号の損失につながる。 ここでは、広範囲のランダム角度、回転速度、加速度で作動する原子干渉計を提案する。 期待される位相シフトの正確なモデルにより、回転と加速度信号を解き放つことができる。 また、2つのファイバージャイロスコープと先端ティルトプラットフォームを用いて、参照ミラーを回転させ、原子干渉計の全コントラストを維持するリアルタイム補償システムを実装した。 これらの理論的および実用的なツールを用いて、各角度と回転速度をそれぞれ30$^\circ$と14 $^\circ$/sとする2T = 20 msの総尋問時間に対して、フレンズを再構成し、24$\mu$gの加速に対する単発感度を示す。 当社のハイブリッド回転原子干渉計は、自律ナビゲーションや重力マッピングなどのオンボード応用のための量子慣性センサーの完全なポテンシャルを解き放ちます。

The exquisite precision of atom interferometers has sparked the interest of a large community for use cases ranging from fundamental physics to geodesy and inertial navigation. However, their practical use for onboard applications is still limited, not least because rotation and acceleration are intertwined in a single phase shift in free-fall atom interferometers, which makes the extraction of a useful signal more challenging. Moreover, the spatial separation of the wave packets due to rotations leads to a loss of signal. Here we present an atom interferometer operating over a large range of random angles, rotation rates and accelerations. An accurate model of the expected phase shift allows us to untangle the rotation and acceleration signals. We also implement a real-time compensation system using two fibre-optic gyroscopes and a tip-tilt platform to rotate the reference mirror and maintain the full contrast of the atom interferometer. Using these theoretical and practical tools, we reconstruct the fringes and demonstrate a single-shot sensitivity to acceleration of 24 $\mu$g, for a total interrogation time of 2T = 20 ms, for angles and rotation rates reaching 30$^\circ$ and 14 $^\circ$/s respectively. Our hybrid rotating atom interferometer unlocks the full potential of quantum inertial sensors for onboard applications, such as autonomous navigation or gravity mapping.
翻訳日:2024-03-01 15:21:51 公開日:2024-02-29
# 配向境界箱の連続表現を理論的に達成する

Theoretically Achieving Continuous Representation of Oriented Bounding Boxes ( http://arxiv.org/abs/2402.18975v1 )

ライセンス: Link先を確認
Zikai Xiao, Guo-Ye Yang, Xue Yang, Tai-Jiang Mu, Junchi Yan, Shi-min Hu(参考訳) オブジェクト指向オブジェクト検出(OOD)に多大な努力が注がれている。 しかし、オブジェクト指向境界ボックス(OBB)表現の不連続性に関する問題は未解決のままであり、これは既存のOODメソッドに固有のボトルネックである。 本稿では,この課題を理論的に保証された方法で完全に解決し,この方向へのアドホックな努力を終わらせる。 先行研究は通常、回転とアスペクト比の2つの不連続の1つにのみ対処でき、しばしば不連続のデコードを導入する(デコード不完全性 (di) やデコード曖昧性 (da) など)。 具体的には,Continuous OBB(COBB)と呼ばれる新しい表現法を提案し,プラグインとしてFaster-RCNNなどの既存の検出器に容易に組み込めるようにした。 理論上は、最善の知識に対して、長方形に基づくオブジェクト表現の文献では達成されていない境界ボックス回帰における連続性を保証することができる。 OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。 一般的なDOTAデータセットでは、Faster-RCNNを同じベースラインモデルとして統合することにより、新しいメソッドはピアメソッドのGliding Vertexを1.13%のmAP50(相対改善1.54%)と2.46%のmAP75(相対改善5.91%)で上回ります。

Considerable efforts have been devoted to Oriented Object Detection (OOD). However, one lasting issue regarding the discontinuity in Oriented Bounding Box (OBB) representation remains unresolved, which is an inherent bottleneck for extant OOD methods. This paper endeavors to completely solve this issue in a theoretically guaranteed manner and puts an end to the ad-hoc efforts in this direction. Prior studies typically can only address one of the two cases of discontinuity: rotation and aspect ratio, and often inadvertently introduce decoding discontinuity, e.g. Decoding Incompleteness (DI) and Decoding Ambiguity (DA) as discussed in literature. Specifically, we propose a novel representation method called Continuous OBB (COBB), which can be readily integrated into existing detectors e.g. Faster-RCNN as a plugin. It can theoretically ensure continuity in bounding box regression which to our best knowledge, has not been achieved in literature for rectangle-based object representation. For fairness and transparency of experiments, we have developed a modularized benchmark based on the open-source deep learning framework Jittor's detection toolbox JDet for OOD evaluation. On the popular DOTA dataset, by integrating Faster-RCNN as the same baseline model, our new method outperforms the peer method Gliding Vertex by 1.13% mAP50 (relative improvement 1.54%), and 2.46% mAP75 (relative improvement 5.91%), without any tricks.
翻訳日:2024-03-01 15:21:28 公開日:2024-02-29
# グループニューロンを用いたANN-SNN変換

Optimal ANN-SNN Conversion with Group Neurons ( http://arxiv.org/abs/2402.19061v1 )

ライセンス: Link先を確認
Liuzhenghao Lv, Wei Fang, Li Yuan, Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)は、ニューラルネットワークの第3世代の有望な世代として登場し、バイナリ出力、高いスパーシリティ、生物学的可視性などのユニークな特徴を提供している。 しかし、効果的な学習アルゴリズムの欠如はSNNにとって依然として課題である。 例えば、人工知能ニューラルネットワーク(ANN)をSNNに変換することで、SNNの直接的なトレーニングの必要性を回避する一方で、変換エラーと高い推論時間遅延に関連する問題に直面する。 推論の時間ステップを減少させながら変換誤差を低減または除去するために,グループニューロン(GN)と呼ばれる新しいタイプのニューロンを導入した。 1つのGNは複数のIntegrated-and-Fire(IF)ニューロンをメンバーとして構成し、その神経力学は慎重に設計されている。 GNに基づいて従来のANN-SNN変換フレームワークを最適化した。 具体的には、従来の変換フレームワークによって得られたSNNのIFニューロンをGNに置き換える。 GNを利用した結果のSNNは、極端に短い推論時間ステップでもANNに匹敵する精度のレベルを達成することができる。 CIFAR10、CIFAR100、ImageNetデータセットの実験は、推論精度と遅延の両方の観点から提案手法の優位性を実証している。 コードはhttps://github.com/lyu6poshao/ann2snn_gnで入手できる。

Spiking Neural Networks (SNNs) have emerged as a promising third generation of neural networks, offering unique characteristics such as binary outputs, high sparsity, and biological plausibility. However, the lack of effective learning algorithms remains a challenge for SNNs. For instance, while converting artificial neural networks (ANNs) to SNNs circumvents the need for direct training of SNNs, it encounters issues related to conversion errors and high inference time delays. In order to reduce or even eliminate conversion errors while decreasing inference time-steps, we have introduced a novel type of neuron called Group Neurons (GNs). One GN is composed of multiple Integrate-and-Fire (IF) neurons as members, and its neural dynamics are meticulously designed. Based on GNs, we have optimized the traditional ANN-SNN conversion framework. Specifically, we replace the IF neurons in the SNNs obtained by the traditional conversion framework with GNs. The resulting SNNs, which utilize GNs, are capable of achieving accuracy levels comparable to ANNs even within extremely short inference time-steps. The experiments on CIFAR10, CIFAR100, and ImageNet datasets demonstrate the superiority of the proposed methods in terms of both inference accuracy and latency. Code is available at https://github.com/Lyu6PosHao/ANN2SNN_GN.
翻訳日:2024-03-01 15:16:27 公開日:2024-02-29
# VEnvision3D:3次元マルチタスクモデル研究のための合成知覚データセット

VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model Research ( http://arxiv.org/abs/2402.19059v1 )

ライセンス: Link先を確認
Jiahao Zhou, Chen Long, Yue Xie, Jialiang Wang, Boheng Li, Haiping Wang, Zhe Chen, Zhen Dong(参考訳) 統一マルチタスク基盤モデルの開発は、コンピュータビジョン研究において重要な課題となっている。 現在の3Dコンピュータビジョンの分野では、ほとんどのデータセットは、様々な下流タスクの同時トレーニング要求を複雑にする比較的限られたタスクにのみフォーカスする。 これにより、多目的ネットワークのトレーニングを進めるのが難しくなり、3次元視野における基礎モデルの開発がさらに妨げられる。 本稿では,深度補完,セグメンテーション,アップサンプリング,位置認識,3D再構成を含む多タスク学習のための大規模3次元合成認識データセットであるVEnvision3Dを紹介する。 各タスクのデータは同じシナリオで収集されるため、タスクは本質的に利用データの観点から調整される。 したがって、そのようなユニークな属性は、個別の訓練方法なしでマルチタスクモデルや基礎モデルの可能性を探るのに役立つ。 提案するデータセットの特性に基づくベンチマークをいくつか紹介した。 エンドツーエンドモデルに関する広範な研究が行われ、新たな観察、挑戦、将来の研究の機会が明らかになった。 さらに,VEnvision3Dが基盤モデルにもたらす機能を明らかにするために,直進型マルチタスクネットワークを設計した。 私たちのデータセットとコードは、受け入れ次第オープンソースになります。

Developing a unified multi-task foundation model has become a critical challenge in computer vision research. In the current field of 3D computer vision, most datasets solely focus on a relatively limited set of tasks, which complicates the concurrent training requirements of various downstream tasks. This makes the training of multi-objective networks difficult to proceed with, which further hinders the development of foundation models in the 3D vision field. In this paper, we introduce VEnvision3D, a large 3D synthetic perception dataset for multi-task learning, including depth completion, segmentation, upsampling, place recognition, and 3D reconstruction. Since the data for each task was collected in the same scenarios, tasks are inherently aligned in terms of the utilized data. Therefore, such a unique attribute can assist in exploring the potential for the multi-task model and even the foundation model without separate training methods. Several new benchmarks based on the characteristics of the proposed dataset were presented. Extensive studies were performed on end-to-end models, revealing new observations, challenges, and opportunities for future research. In addition, we designed a straightfoward multi-task network to uncover the ability that VEnvision3D can offer for the foundation model. Our dataset and code will be open-sourced upon acceptance.
翻訳日:2024-03-01 15:16:05 公開日:2024-02-29
# デコヒーレンスの影響下における量子コヒーレンスと絡み合い

Quantum coherence and entanglement under the influence of decoherence ( http://arxiv.org/abs/2402.19055v1 )

ライセンス: Link先を確認
Wen-Yang Sun, A-Min Ding, Juan He, Jiadong Shi, Le Wang, Hui-Fang Xu, Dong Wang and Liu Ye(参考訳) 本研究では,量子コヒーレンス(reqc)の相対エントロピー(相対エントロピー)の動的特性を,量子系が異なるノイズチャネルと相互作用するときに考察し,絡み合い(共起)と比較する。 その結果, コンカレンスとは対照的にREQCの広範な普及と強靭性を示した。 なお、ビットフリップチャネルは、REQCを凍結した一定のノンゼロを維持できないが、コンカレンスは、一時的にゼロに減少し、一定の時間経過後に回復するパターンに従うことに注意が必要だ。 さらに重要なことは、REQCは臨界しきい値に達するまでその存在を一貫して維持するが、位相減衰と振幅減衰チャネルの影響下では、コンカレンスは完全にゼロに減衰する。

In this work, we delve into the dynamic traits of the relative entropy of quantum coherence (REQC) as the quantum system interacts with the different noisy channels, drawing comparisons with entanglement (concurrence). The research results demonstrate the broader prevalence and stronger robustness of the REQC as opposed to concurrence. It's worth noting that the bit flip channel cannot uphold a constant nonzero frozen the REQC, besides, the concurrence follows a pattern of temporary reduction to zero, followed by recovery after a certain time span. More importantly, the REQC maintains its presence consistently until reaching a critical threshold, whereas concurrence experiences completely attenuation to zero under the influence of phase damping and amplitude damping channels.
翻訳日:2024-03-01 15:15:45 公開日:2024-02-29
# robwe: パーソナライズされた連合学習モデルオーナシップ保護のための堅牢なウォーターマーク埋め込み

RobWE: Robust Watermark Embedding for Personalized Federated Learning Model Ownership Protection ( http://arxiv.org/abs/2402.19054v1 )

ライセンス: Link先を確認
Yang Xu, Yunlin Tan, Cheng Zhang, Kai Chi, Peng Sun, Wenyuan Yang, Ju Ren, Hongbo Jiang, Yaoxue Zhang(参考訳) モデルへの透かしの埋め込みは、連合学習(fl)におけるモデルの所有権を保護するために広く使われている。 しかし、既存の手法は、パーソナライズされたFL(PFL)においてクライアントが取得したパーソナライズされたモデルの所有権を保護するには不十分である。 これは、PFLのグローバルモデルが集約されたためであり、結果としてクライアントのプライベートな透かしと衝突した。 さらに、悪意のあるクライアントは、埋め込みの透かしを改ざんして、モデルの漏洩と説明責任を回避することができる。 本稿では,pflにおけるパーソナライズドモデルの所有権を保護するため,robweという堅牢な透かし埋め込み方式を提案する。 まず、パーソナライズされたモデルの透かしを、ヘッド層埋め込みと表現層埋め込みという2つの部分に分割する。 ヘッド層は、モデルアグリゲーションに参加せずにクライアントのプライベート部分に属し、表現層はアグリゲーションのための共有部分である。 表象層埋め込みでは、ウォーターマークの埋め込み競合を避けるために、ウォーターマークスライス埋め込み操作を用いる。 さらに,ローカルモデルを集約する前に,サーバが透かしの正しさを検証できる悪意のある透かし検出方式を設計する。 我々はRobWEの徹底的な実験評価を行う。 以上の結果から,RobWE は FL における最新の透かし埋め込み方式よりも忠実性,信頼性,堅牢性において優れていた。

Embedding watermarks into models has been widely used to protect model ownership in federated learning (FL). However, existing methods are inadequate for protecting the ownership of personalized models acquired by clients in personalized FL (PFL). This is due to the aggregation of the global model in PFL, resulting in conflicts over clients' private watermarks. Moreover, malicious clients may tamper with embedded watermarks to facilitate model leakage and evade accountability. This paper presents a robust watermark embedding scheme, named RobWE, to protect the ownership of personalized models in PFL. We first decouple the watermark embedding of personalized models into two parts: head layer embedding and representation layer embedding. The head layer belongs to clients' private part without participating in model aggregation, while the representation layer is the shared part for aggregation. For representation layer embedding, we employ a watermark slice embedding operation, which avoids watermark embedding conflicts. Furthermore, we design a malicious watermark detection scheme enabling the server to verify the correctness of watermarks before aggregating local models. We conduct an exhaustive experimental evaluation of RobWE. The results demonstrate that RobWE significantly outperforms the state-of-the-art watermark embedding schemes in FL in terms of fidelity, reliability, and robustness.
翻訳日:2024-03-01 15:15:30 公開日:2024-02-29
# メンタルヘルスカウンセリングセッションの要約における大規模言語モデルの有効性を探る:ベンチマーク研究

Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: A Benchmark Study ( http://arxiv.org/abs/2402.19052v1 )

ライセンス: Link先を確認
Prottay Kumar Adhikary, Aseem Srivastava, Shivani Kumar, Salam Michael Singh, Puneet Manuja, Jini K Gopinath, Vijay Krishnan, Swati Kedia, Koushik Sinha Deb, Tanmoy Chakraborty(参考訳) セッションの包括的な要約は、メンタルヘルスカウンセリングの効果的な継続を可能にし、情報療法計画を促進する。 しかし、手動要約は重要な課題であり、専門家の注意をコアカウンセリングプロセスから逸脱させる。 本研究は,最先端の大規模言語モデル (llms) の有効性を,アスペクトベース要約によるセラピーセッションのさまざまなコンポーネントを選択的に要約し,そのパフォーマンスをベンチマークすることを目的として評価する。 我々は,3つの個別のカウンセリングコンポーネント(別名カウンセリングアスペクト)に着目した191のカウンセリングセッションからなるカウンセリングコンポーネント案内要約データセットであるmentalcloudsを紹介する。 さらに,カウンセリングにおけるコンポーネントガイドによる要約の課題に対する11の最先端llmの能力を評価する。 生成した要約は標準要約指標を用いて定量的に評価され、メンタルヘルスの専門家によって定性的に検証される。 本研究は, ルージュ1, ルージュ2, ルージュl, ベルツコアなどの標準定量的指標を用いて, カウンセリングコンポーネントのあらゆる面において, メンタルラマ, ミストラル, メンタルバートなどのタスク固有のllmの優れた性能を示す。 さらに、専門家評価では、感情的態度、負担、倫理性、一貫性、機会コスト、知覚的効果の6つのパラメータに基づいて、MistralがMentalLlamaとMentalBARTの両方に取って代わっていることが明らかになった。 しかしながら、これらのモデルは、機会コストと知覚された有効性メトリクスの改善の可能性を示すことで、同じ弱点を共有します。

Comprehensive summaries of sessions enable an effective continuity in mental health counseling, facilitating informed therapy planning. Yet, manual summarization presents a significant challenge, diverting experts' attention from the core counseling process. This study evaluates the effectiveness of state-of-the-art Large Language Models (LLMs) in selectively summarizing various components of therapy sessions through aspect-based summarization, aiming to benchmark their performance. We introduce MentalCLOUDS, a counseling-component guided summarization dataset consisting of 191 counseling sessions with summaries focused on three distinct counseling components (aka counseling aspects). Additionally, we assess the capabilities of 11 state-of-the-art LLMs in addressing the task of component-guided summarization in counseling. The generated summaries are evaluated quantitatively using standard summarization metrics and verified qualitatively by mental health professionals. Our findings demonstrate the superior performance of task-specific LLMs such as MentalLlama, Mistral, and MentalBART in terms of standard quantitative metrics such as Rouge-1, Rouge-2, Rouge-L, and BERTScore across all aspects of counseling components. Further, expert evaluation reveals that Mistral supersedes both MentalLlama and MentalBART based on six parameters -- affective attitude, burden, ethicality, coherence, opportunity costs, and perceived effectiveness. However, these models share the same weakness by demonstrating a potential for improvement in the opportunity costs and perceived effectiveness metrics.
翻訳日:2024-03-01 15:15:04 公開日:2024-02-29
# Coincidence Detection によるQKDプロトコルの鍵レート向上

Enhancing key rates of QKD protocol by Coincidence Detection ( http://arxiv.org/abs/2402.19049v1 )

ライセンス: Link先を確認
Tanya Sharma, Rutvij Bhavsar, Jayanth Ramakrishnan, Pooja Chandravanshi, Shashi Prabhakar, Ayan Biswas, R. P. Singh(参考訳) 理論上は、量子鍵分布(QKD)は無条件のセキュリティを提供するが、その実践的実装は悪用可能な脆弱性に感受性がある。 本研究は,弱いコヒーレントパルスを用いたQKD実装の制約に対処する。 一致検出(cd)プロトコルと統合することにより,従来のデコイパルスの使用方法を改善した。 さらに,プロトコルの漸近鍵レートを計算するための実装容易なアルゴリズムを提案する。 さらに,本プロトコルを実験的に実装し,デコイ状態プロトコルの同時監視によって実測実験条件下でのキーレートが向上することが実証された。

In theory, quantum key distribution (QKD) provides unconditional security; however, its practical implementations are susceptible to exploitable vulnerabilities. This investigation tackles the constraints in practical QKD implementations using weak coherent pulses. We improve on the conventional approach of using decoy pulses by integrating it with the coincidence detection (CD) protocol. Additionally, we introduce an easy-to-implement algorithm to compute asymptotic key rates for the protocol. Furthermore, we have carried out an experimental implementation of the protocol, where we demonstrate that monitoring coincidences in the decoy state protocol leads to enhanced key rates under realistic experimental conditions.
翻訳日:2024-03-01 15:14:30 公開日:2024-02-29
# 深部選択状態空間モデルの理論基礎

Theoretical Foundations of Deep Selective State-Space Models ( http://arxiv.org/abs/2402.19047v1 )

ライセンス: Link先を確認
Nicola Muca Cirone, Antonio Orvieto, Benjamin Walker, Cristopher Salvi and Terry Lyons(参考訳) S4のような構造化状態空間モデル (Structured state-space model, SSMs) は、Guらの研究から生まれたものであり、シーケンシャルデータモデリングの効果的なアプローチとして人気を集めている。 深部SSMは、アテンションベースのトランスフォーマーと比較してトレーニングと推論のコストを低減し、様々な領域で優れた性能を示す。 近年の進歩は、線形リカレンスを動力とするSSMが入力と隠された状態(例えばGateLoop、Mamba、GLA)間の乗法的相互作用を可能とすれば、結果のアーキテクチャはテキスト上で訓練された数十億のパラメータのスケールで精度と効率性の両方を上回りうることを示している。 本稿では、Rough Path Theoryのツールを用いた最近の理論的な根拠として、ランダムな線形反復が単純な入力制御遷移(選択機構)を備えている場合、隠れた状態は、入力のシグネチャと呼ばれる強力な数学的対象の低次元射影であり、異なる時間スケールでトークン間の非線形相互作用をキャプチャすることを示す。 我々の理論は、マンバのような現代の選択的状態空間モデルの成功を動機づけるだけでなく、将来のSSMの表現力を理解するための確かな枠組みも提供する。

Structured state-space models (SSMs) such as S4, stemming from the seminal work of Gu et al., are gaining popularity as effective approaches for modeling sequential data. Deep SSMs demonstrate outstanding performance across a diverse set of domains, at a reduced training and inference cost compared to attention-based transformers. Recent developments show that if the linear recurrence powering SSMs allows for multiplicative interactions between inputs and hidden states (e.g. GateLoop, Mamba, GLA), then the resulting architecture can surpass in both in accuracy and efficiency attention-powered foundation models trained on text, at scales of billion parameters. In this paper, we give theoretical grounding to this recent finding using tools from Rough Path Theory: we show that when random linear recurrences are equipped with simple input-controlled transitions (selectivity mechanism), then the hidden state is provably a low-dimensional projection of a powerful mathematical object called the signature of the input -- capturing non-linear interactions between tokens at distinct timescales. Our theory not only motivates the success of modern selective state-space models such as Mamba but also provides a solid framework to understand the expressive power of future SSM variants.
翻訳日:2024-03-01 15:14:19 公開日:2024-02-29
# WDM:高分解能医用画像合成のための3次元ウェーブレット拡散モデル

WDM: 3D Wavelet Diffusion Models for High-Resolution Medical Image Synthesis ( http://arxiv.org/abs/2402.19043v1 )

ライセンス: Link先を確認
Paul Friedrich, Julia Wolleb, Florentin Bieder, Alicia Durrer, Philippe C. Cattin(参考訳) CTやMRスキャンの3次元的な性質から、医用画像の生成モデリングは特に難しい課題である。 既存のアプローチは、主にパッチワイド、スライスワイズ、あるいはカスケード生成技術を適用して、高次元データを限られたGPUメモリに適合させる。 しかし、これらのアプローチはアーティファクトを導入し、特定の下流タスクに対するモデルの適用性を制限する可能性がある。 本研究はウェーブレット分解画像に拡散モデルを適用するウェーブレットベースの医用画像合成フレームワークであるWDMを提案する。 提示されたアプローチは、拡散モデルを高解像度にスケールするシンプルかつ効果的な方法であり、単一の40gbgpuでトレーニングすることができる。 128 \times 128 \times 128$の解像度でBraTSとLIDC-IDRIの無条件画像生成実験の結果は、GAN、拡散モデル、潜時拡散モデルと比較して、最先端画像忠実度(FID)とサンプル多様性(MS-SSIM)のスコアを示した。 提案手法は,256 \times 256 \times 256$の解像度で高品質な画像を生成することができる唯一の方法である。

Due to the three-dimensional nature of CT- or MR-scans, generative modeling of medical images is a particularly challenging task. Existing approaches mostly apply patch-wise, slice-wise, or cascaded generation techniques to fit the high-dimensional data into the limited GPU memory. However, these approaches may introduce artifacts and potentially restrict the model's applicability for certain downstream tasks. This work presents WDM, a wavelet-based medical image synthesis framework that applies a diffusion model on wavelet decomposed images. The presented approach is a simple yet effective way of scaling diffusion models to high resolutions and can be trained on a single 40 GB GPU. Experimental results on BraTS and LIDC-IDRI unconditional image generation at a resolution of $128 \times 128 \times 128$ show state-of-the-art image fidelity (FID) and sample diversity (MS-SSIM) scores compared to GANs, Diffusion Models, and Latent Diffusion Models. Our proposed method is the only one capable of generating high-quality images at a resolution of $256 \times 256 \times 256$.
翻訳日:2024-03-01 15:13:52 公開日:2024-02-29
# ビデオシーケンス深部視覚前処理による大気乱流除去

Atmospheric Turbulence Removal with Video Sequence Deep Visual Priors ( http://arxiv.org/abs/2402.19041v1 )

ライセンス: Link先を確認
P. Hill, N. Anantrasirichai, A. Achim, and D.R. Bull(参考訳) 大気の乱流は、その歪みの影響により視覚的イメージの解釈と視覚的認識が困難である。 モデルに基づくアプローチはこの問題に対処するために使われてきたが、そのような手法は、しばしば移動コンテンツに関連する成果物に悩まされる。 逆に、ディープラーニングベースの手法は、特定のコンテンツを効果的に表現できない、大規模で多様なデータセットに依存している。 本稿では,基礎的真理を必要としない自己教師型学習手法を用いて,これらの問題に対処する。 提案手法は、処理中の単一のデータ列以外のデータセットに依存しないが、任意の入力生シーケンスや前処理されたシーケンスの品質を向上させることもできる。 具体的には,高速化されたDeep Image Prior (DIP) に基づき,画素シャッフルと時間スライディングウィンドウを用いて時間情報を統合する。 これにより、大気乱流の歪みを効果的に緩和するシステムにつながる時空間前兆を効率的に学習する。 実験の結果,視覚的品質は質的に,定量的に向上することがわかった。

Atmospheric turbulence poses a challenge for the interpretation and visual perception of visual imagery due to its distortion effects. Model-based approaches have been used to address this, but such methods often suffer from artefacts associated with moving content. Conversely, deep learning based methods are dependent on large and diverse datasets that may not effectively represent any specific content. In this paper, we address these problems with a self-supervised learning method that does not require ground truth. The proposed method is not dependent on any dataset outside of the single data sequence being processed but is also able to improve the quality of any input raw sequences or pre-processed sequences. Specifically, our method is based on an accelerated Deep Image Prior (DIP), but integrates temporal information using pixel shuffling and a temporal sliding window. This efficiently learns spatio-temporal priors leading to a system that effectively mitigates atmospheric turbulence distortions. The experiments show that our method improves visual quality results qualitatively and quantitatively.
翻訳日:2024-03-01 15:13:28 公開日:2024-02-29
# ソフトウェアエンジニアリングの公平さを理解する - Stack Exchangeからの洞察

Understanding Fairness in Software Engineering: Insights from Stack Exchange ( http://arxiv.org/abs/2402.19038v1 )

ライセンス: Link先を確認
Emeralda Sesari, Federica Sarro, Ayushi Rastogi(参考訳) ソフトウェア実践者は、同僚、対面、オンラインと仕事で問題について議論する。 これらの議論は技術的(例えば、バグを修正する方法)とソーシャル(例えば、仕事を公平に割り当てる方法)である。 ソフトウェア工学の人間や社会的要因における公平性の問題や解決策を探求する知識が増えているが、そのほとんどが特定の問題に焦点が当てられている。 この研究はStack Exchangeサイトのソフトウェア実践者による公正な議論を提供する。 本稿では,ソフトウェア実践者の公平性経験とソフトウェアチームにおける公平性期待を紹介する。 また、ソフトウェア実践者が最も話す公平な側面を特定したいと思っています。 例えば、彼らは収入の公平さや職場でどのように扱われるかを気にしていますか? 8つのスタック交換サイトにおける公正な議論について調査した結果、手作業で4,178の候補ポストから136の投稿(28の質問と108の回答)のリストが得られた。 この調査によると、フェアネスに関する議論(24記事)の大多数は、多くのソフトウェア実践者が給与とそれがどのようにかなり分散されているかについて非常に関心を持っていることを示唆している。 さらに, 多くは議論されていないが, 採用の公平性に関する議論は, もっとも多くの視点や点数を受け取る傾向があることを指摘した。 興味深いことに、この研究は不公平な経験が保護された属性を超えることを示している。 本研究では,保護属性について言及した投稿は136件中25件に過ぎなかった。

Software practitioners discuss problems at work with peers, in-person and online. These discussions can be technical (e.g., how to fix a bug?) and social (e.g., how to assign work fairly?). While there is a growing body of knowledge exploring fairness problems and solutions in the human and social factors of software engineering, most focus has been on specific problems. This study provides fairness discussions by software practitioners on Stack Exchange sites. We present an exploratory study presenting the fairness experience of software practitioners and fairness expectations in software teams. We also want to identify the fairness aspects software practitioners talk about the most. For example, do they care more about fairness in income or how they are treated in the workplace? Our investigation of fairness discussions on eight Stack Exchange sites resulted in a list of 136 posts (28 questions and 108 answers) manually curated from 4,178 candidate posts. The study reveals that the majority of fairness discussions (24 posts) revolve around the topic of income suggesting that many software practitioners are highly interested in matters related to their pay and how it is fairly distributed. Further, we noted that while not discussed as often, discussions on fairness in recruitment tend to receive the highest number of views and scores. Interestingly, the study shows that unfairness experiences extend beyond the protected attributes. In this study, only 25 out of 136 posts mention protected attributes, with gender mainly being discussed.
翻訳日:2024-03-01 15:13:15 公開日:2024-02-29
# サイドチャネルトレースにおける暗号操作の深層学習手法

A Deep-Learning Technique to Locate Cryptographic Operations in Side-Channel Traces ( http://arxiv.org/abs/2402.19037v1 )

ライセンス: Link先を確認
Giuseppe Chiari, Davide Galli, Francesco Lattari, Matteo Matteucci, Davide Zoni(参考訳) サイドチャネル攻撃は、部分的に計算されたデータと測定されたサイドチャネル信号とを関連付けることで、暗号プリミティブの実行から秘密情報を抽出することができる。 しかし、サイドチャネル攻撃を成功させるためには、攻撃者は実行しなければならない。 i) ターゲット暗号プリミティブがサイドチャネルトレース内で実行され、その後に実行された時刻を瞬時に特定する困難なタスク ii)その時点における測定データの時間割当 本稿では,対象の暗号操作が横チャネルトレースで実行される時刻を探索する新しい深層学習手法を提案する。 最先端の解とは対照的に,提案手法はランダム遅延挿入法によって得られるトレース変形の存在下でも動作する。 我々は、RISC-V CPUを搭載したFPGA実装のシステムオンチップ上で実行される、保護されていない、保護されていない様々な暗号化プリミティブに対する攻撃で、提案手法を検証した。

Side-channel attacks allow extracting secret information from the execution of cryptographic primitives by correlating the partially known computed data and the measured side-channel signal. However, to set up a successful side-channel attack, the attacker has to perform i) the challenging task of locating the time instant in which the target cryptographic primitive is executed inside a side-channel trace and then ii)the time-alignment of the measured data on that time instant. This paper presents a novel deep-learning technique to locate the time instant in which the target computed cryptographic operations are executed in the side-channel trace. In contrast to state-of-the-art solutions, the proposed methodology works even in the presence of trace deformations obtained through random delay insertion techniques. We validated our proposal through a successful attack against a variety of unprotected and protected cryptographic primitives that have been executed on an FPGA-implemented system-on-chip featuring a RISC-V CPU.
翻訳日:2024-03-01 15:12:53 公開日:2024-02-29
# 1次元量子システムにおける自由エネルギーの高速アルゴリズム

A Faster Algorithm for the Free Energy in One-Dimensional Quantum Systems ( http://arxiv.org/abs/2402.19030v1 )

ライセンス: Link先を確認
Samuel O. Scalet(参考訳) 有限範囲の変換不変な1次元量子スピン系の自由エネルギー密度を近似する問題を考える。 この問題の複雑さは、既知の硬度問題と密接な関係にあるため自明ではないが、最近、古典的なサブポリノミカル時間アルゴリズムが提案されている[Fawzi et al., 2022]。 関連問題に先立ついくつかのアルゴリズム手法を組み合わせることで、この結果を漸近的に上回り、実行時に厳密な境界を与えるアルゴリズムを提案する。 我々の主な技術はアラキ展開(英語版)の使用であり、相転移の非存在と行列積作用素構成の結果から知られている。 また,量子信念伝播(kuwahara et al., 2018)を用いた関連するアプローチについても検討した。

We consider the problem of approximating the free energy density of a translation-invariant, one-dimensional quantum spin system with finite range. While the complexity of this problem is nontrivial due to its close connection to problems with known hardness results, a classical subpolynomial-time algorithm has recently been proposed [Fawzi et al., 2022]. Combining several algorithmic techniques previously used for related problems, we propose an algorithm outperforming this result asymptotically and give rigorous bounds on its runtime. Our main techniques are the use of Araki expansionals, known from results on the nonexistence of phase transitions, and a matrix product operator construction. We also review a related approach using the Quantum Belief Propagation [Kuwahara et al., 2018], which in combination with our findings yields an equivalent result.
翻訳日:2024-03-01 15:12:38 公開日:2024-02-29
# アンチウイルスのトレーニング方法: rlベースの問題領域の強化

How to Train your Antivirus: RL-based Hardening through the Problem-Space ( http://arxiv.org/abs/2402.19027v1 )

ライセンス: Link先を確認
Jacopo Cortellazzi and Ilias Tsingenopoulos and Branislav Bo\v{s}ansk\'y and Simone Aonzo and Davy Preuveneers and Wouter Joosen and Fabio Pierazzi and Lorenzo Cavallaro(参考訳) 動的解析レポートに基づくMLベースのマルウェア検出は、回避と急激な相関の両方に対して脆弱である。 本研究では,広く知られた商用アンチウイルス企業のパイプラインで使用される特定のMLアーキテクチャについて検討し,敵のマルウェアに対して強化することを目的とした。 経験的ロバスト性を与える唯一の防御技術である逆行訓練は、この領域では適用できないが、勾配に基づく摂動が実現可能な問題空間プログラムにはほとんどマッピングされない主な理由である。 本稿では,敵のモデル構築のための新たな強化学習手法を提案する。 我々のアプローチには複数の利点がある。 問題空間で実現可能な修正を行い、それらのみを実行するため、逆写像問題を回避できる。 また、特定の敵の能力に対するモデルの堅牢性に関する理論的保証を提供することもできる。 私たちの経験的調査は理論的な洞察を検証し、いくつかの敵の再訓練の後に、一貫して0-%のアタック成功率に達することができます。

ML-based malware detection on dynamic analysis reports is vulnerable to both evasion and spurious correlations. In this work, we investigate a specific ML architecture employed in the pipeline of a widely-known commercial antivirus company, with the goal to harden it against adversarial malware. Adversarial training, the sole defensive technique that can confer empirical robustness, is not applicable out of the box in this domain, for the principal reason that gradient-based perturbations rarely map back to feasible problem-space programs. We introduce a novel Reinforcement Learning approach for constructing adversarial examples, a constituent part of adversarially training a model against evasion. Our approach comes with multiple advantages. It performs modifications that are feasible in the problem-space, and only those; thus it circumvents the inverse mapping problem. It also makes possible to provide theoretical guarantees on the robustness of the model against a particular set of adversarial capabilities. Our empirical exploration validates our theoretical insights, where we can consistently reach 0\% Attack Success Rate after a few adversarial retraining iterations.
翻訳日:2024-03-01 15:12:21 公開日:2024-02-29
# 教師なし可視赤外人物再識別のためのマルチプロトタイプによるプログレッシブコントラスト学習

Progressive Contrastive Learning with Multi-Prototype for Unsupervised Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2402.19026v1 )

ライセンス: Link先を確認
Jiangming Shi, Xiangbo Yin, Yaoxing Wang, Xiaofeng Liu, Yuan Xie, Yanyun Qu(参考訳) unsupervised visible-infrared person re-id(usvi-reid)は、赤外線画像中の特定の人物を注釈なしで可視画像とマッチングすることを目的としている。 USVI-ReIDは難しいが未調査の課題だ。 既存のほとんどのメソッドは、クラスタベースのコントラスト学習を使用してUSVI-ReID問題に対処する。 しかし、クラスタセンターは主に共有情報に焦点を当てており、格差を見渡している。 この問題に対処するために,USVI-ReIDのためのマルチプロトタイプ(PCLMP)法によるプログレッシブコントラスト学習を提案する。 簡単に言えば,まず,クラスタ中心から最大距離のサンプルを選択することで,ハードプロトタイプを生成する。 このハードプロトタイプは対照的な損失を強調するために使用される。 さらに,クエリ画像を特定のプロトタイプに厳格に整列させる代わりに,クラスタ内のサンプルをランダムに選択して動的プロトタイプを生成する。 この動的プロトタイプは、共通情報と異情報の両方の同時学習における不安定性を低減しつつ、様々な特徴を維持するために使用される。 最後に,クラスタ劣化を回避するために,モデルの注意を徐々にハードサンプルにシフトさせるプログレッシブ学習戦略を提案する。 SYSU-MM01とRegDBのデータセットを用いて,提案手法の有効性を検証した。 PCLMPは既存の最先端手法よりも平均3.9%向上した。 ソースコードはリリースされます。

Unsupervised visible-infrared person re-identification (USVI-ReID) aims to match specified people in infrared images to visible images without annotation, and vice versa. USVI-ReID is a challenging yet under-explored task. Most existing methods address the USVI-ReID problem using cluster-based contrastive learning, which simply employs the cluster center as a representation of a person. However, the cluster center primarily focuses on shared information, overlooking disparity. To address the problem, we propose a Progressive Contrastive Learning with Multi-Prototype (PCLMP) method for USVI-ReID. In brief, we first generate the hard prototype by selecting the sample with the maximum distance from the cluster center. This hard prototype is used in the contrastive loss to emphasize disparity. Additionally, instead of rigidly aligning query images to a specific prototype, we generate the dynamic prototype by randomly picking samples within a cluster. This dynamic prototype is used to retain the natural variety of features while reducing instability in the simultaneous learning of both common and disparate information. Finally, we introduce a progressive learning strategy to gradually shift the model's attention towards hard samples, avoiding cluster deterioration. Extensive experiments conducted on the publicly available SYSU-MM01 and RegDB datasets validate the effectiveness of the proposed method. PCLMP outperforms the existing state-of-the-art method with an average mAP improvement of 3.9%. The source codes will be released.
翻訳日:2024-03-01 15:12:04 公開日:2024-02-29
# ランダムフォレストeXplicabilityロバスト性向上のための弱学習者eXplanationsの併用

Combination of Weak Learners eXplanations to Improve Random Forest eXplicability Robustness ( http://arxiv.org/abs/2402.19025v1 )

ライセンス: Link先を確認
Riccardo Pala and Esteban Garc\'ia-Cuesta(参考訳) XAIにおけるロバスト性の概念は、その予測につながる入力の変化に関する学習モデルの予測の説明における観察されたバリエーションを指す。 直感的には、もし説明されている入力がモデルの予測をあまり変えないようわずかに微妙に修正されているなら、新しい入力に提供される説明もあまり変わらないと期待する。 本手法は,アンサンブルの判別的平均化により,アンサンブル法における説明のロバスト性が向上し,提案手法をポストホックシェープ法とランダムフォレストアンサンブル法で実装,検証し,結果を得た。 得られた改善点を定量的に測定し,アンサンブル法における説明可能性ロバスト性について考察した。

The notion of robustness in XAI refers to the observed variations in the explanation of the prediction of a learned model with respect to changes in the input leading to that prediction. Intuitively, if the input being explained is modified slightly subtly enough so as to not change the prediction of the model too much, then we would expect that the explanation provided for that new input does not change much either. We argue that a combination through discriminative averaging of ensembles weak learners explanations can improve the robustness of explanations in ensemble methods.This approach has been implemented and tested with post-hoc SHAP method and Random Forest ensemble with successful results. The improvements obtained have been measured quantitatively and some insights into the explicability robustness in ensemble methods are presented.
翻訳日:2024-03-01 15:11:41 公開日:2024-02-29
# TEncDM:言語モデル符号化空間における拡散モデルの性質の理解

TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings ( http://arxiv.org/abs/2402.19097v1 )

ライセンス: Link先を確認
Alexander Shabalin, Viacheslav Meshchaninov, Tingir Badmaev, Dmitry Molchanov, Grigory Bartosh, Sergey Markov, Dmitry Vetrov(参考訳) 様々な領域における拡散モデルの成功から着想を得た多くの研究論文がテキストデータに適用する方法を提案した。 これらの努力にもかかわらず、いずれも大きな言語モデルの品質を達成できていない。 本稿では,テキスト拡散モデルの主要成分の包括的分析を行い,テキスト符号化拡散モデル(tencdm)と呼ばれる新しい手法を提案する。 一般的に使用されるトークン埋め込みスペースの代わりに、言語モデルエンコーディングの空間でモデルをトレーニングします。 さらに,テキスト再構成に文脈情報を利用するトランスベースデコーダの利用を提案する。 また, 自己コンディショニングの分析を行い, モデル出力の大きさを増加させ, 推論段階での消音段数を削減できることを見出した。 2つの下流テキスト生成タスクであるQQPとXSumにおけるTEncDMの評価は、既存の非自己回帰モデルよりも優れていることを示す。

Drawing inspiration from the success of diffusion models in various domains, numerous research papers proposed methods for adapting them to text data. Despite these efforts, none of them has managed to achieve the quality of the large language models. In this paper, we conduct a comprehensive analysis of key components of the text diffusion models and introduce a novel approach named Text Encoding Diffusion Model (TEncDM). Instead of the commonly used token embedding space, we train our model in the space of the language model encodings. Additionally, we propose to use a Transformer-based decoder that utilizes contextual information for text reconstruction. We also analyse self-conditioning and find that it increases the magnitude of the model outputs, allowing the reduction of the number of denoising steps at the inference stage. Evaluation of TEncDM on two downstream text generation tasks, QQP and XSum, demonstrates its superiority over existing non-autoregressive models.
翻訳日:2024-03-01 15:06:54 公開日:2024-02-29
# 双対ユニタリ量子カオスの構造安定性仮説

Structural Stability Hypothesis of Dual Unitary Quantum Chaos ( http://arxiv.org/abs/2402.19096v1 )

ライセンス: Link先を確認
Jonathon Riddell, Curt von Keyserlingk, Toma\v{z} Prosen, Bruno Bertini(参考訳) スペクトル相関を持つことは、十分に小さなエネルギースケールで記述され、ランダム行列理論によって記述され、多体設定や任意の半古典的極限から離れて適用される量子カオスシステムの最も一般的な特徴と見なされる。 この性質は一般的な多体系に対して解析的に証明することは極めて困難であるが、空間と時間の交換時に一元的に残る局所量子回路の特別なクラスである二重ユニタリ回路に対して厳密な証明が達成されている。 ここでは、この性質の運命を、2点相関のフーリエ変換(Fourier transform of the two-unitary to generic quantum circuits focuss on the \emph{spectral form factor})を考える。 従来の研究と一致して、双対ユニタリ物理学が安定であり、スペクトル相関が依然としてランダム行列理論によって記述されるようなパラメータ空間に有限領域が存在することを示唆する数値的な調査から始める。 摂動理論における用語は、比較的単純な仮定群に従うため、ランダム行列理論の予測を復元する。 次に、これらの仮定を裏付ける数値的証拠とヒューリスティックな分析論を提供する。

Having spectral correlations that, over small enough energy scales, are described by random matrix theory is regarded as the most general defining feature of quantum chaotic systems as it applies in the many-body setting and away from any semiclassical limit. Although this property is extremely difficult to prove analytically for generic many-body systems, a rigorous proof has been achieved for dual-unitary circuits -- a special class of local quantum circuits that remain unitary upon swapping space and time. Here we consider the fate of this property when moving from dual-unitary to generic quantum circuits focussing on the \emph{spectral form factor}, i.e., the Fourier transform of the two-point correlation. We begin with a numerical survey that, in agreement with previous studies, suggests that there exists a finite region in parameter space where dual-unitary physics is stable and spectral correlations are still described by random matrix theory, although up to a maximal quasienergy scale. To explain these findings, we develop a perturbative expansion: it recovers the random matrix theory predictions, provided the terms occurring in perturbation theory obey a relatively simple set of assumptions. We then provide numerical evidence and a heuristic analytical argument supporting these assumptions.
翻訳日:2024-03-01 15:06:38 公開日:2024-02-29
# トランスとCNNを統合したタンパク質構造予測手法

A Protein Structure Prediction Approach Leveraging Transformer and CNN Integration ( http://arxiv.org/abs/2402.19095v1 )

ライセンス: Link先を確認
Yanlin Zhou, Kai Tan, Xinyu Shen, Zheng He(参考訳) タンパク質は生命に必須であり、その構造は機能を決定する。 タンパク質二次構造は、タンパク質一次構造の折り畳みによって形成され、タンパク質第三構造は二次構造の折り畳みによって形成される。 したがって、タンパク質二次構造の研究はタンパク質構造全体の理解に非常に役立つ。 機械学習やディープラーニングの開発によって、タンパク質二次構造予測の精度は継続的に向上しているが、残念ながらタンパク質構造予測の分野の進歩は、タンパク質情報に対する大きな需要を満たすには不十分である。 そこで本研究では,特徴抽出と学習能力の深層学習手法の利点を活かして,畳み込みニューラルネットワーク(CCN)を用いた2次元融合深層ニューラルネットワークモデルDstruCCNと,単一配列タンパク質構造予測のための教師付きトランスフォーマータンパク質言語モデルを採用する。 2つのトレーニング特徴を組み合わせることで、タンパク質トランスフォーマー結合部位行列を予測し、3次元構造をエネルギー最小化を用いて再構成する。

Proteins are essential for life, and their structure determines their function. The protein secondary structure is formed by the folding of the protein primary structure, and the protein tertiary structure is formed by the bending and folding of the secondary structure. Therefore, the study of protein secondary structure is very helpful to the overall understanding of protein structure. Although the accuracy of protein secondary structure prediction has continuously improved with the development of machine learning and deep learning, progress in the field of protein structure prediction, unfortunately, remains insufficient to meet the large demand for protein information. Therefore, based on the advantages of deep learning-based methods in feature extraction and learning ability, this paper adopts a two-dimensional fusion deep neural network model, DstruCCN, which uses Convolutional Neural Networks (CCN) and a supervised Transformer protein language model for single-sequence protein structure prediction. The training features of the two are combined to predict the protein Transformer binding site matrix, and then the three-dimensional structure is reconstructed using energy minimization.
翻訳日:2024-03-01 15:06:17 公開日:2024-02-29
# 中間エンコーダブロックからの合成画像検出のためのレバレッジ表現

Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection ( http://arxiv.org/abs/2402.19091v1 )

ライセンス: Link先を確認
Christos Koutlis, Symeon Papadopoulos(参考訳) 最近開発され、公開されている合成画像生成手法とサービスは、オンデマンドで極めてリアルな画像を作成することができ、オンライン情報の完全性と安全性に大きなリスクを生じさせる。 最先端の合成画像検出(sid)研究は、基礎モデルからの特徴抽出の利点に関する強力な証拠をもたらした。 しかし、これらの抽出機能は、SIDタスクにおいてより重要となる細部ではなく、主に高レベルの視覚的意味論をカプセル化する。 逆に、浅い層は低レベルの視覚情報をエンコードする。 本研究では,CLIPのイメージエンコーダの中間トランスフォーマーブロックから抽出した画像表現を,学習可能なフォージェリ対応ベクトル空間にマップする軽量ネットワークを用いて活用する。 最終予測に各トランスフォーマーブロックの重要性を取り入れるために、トレーニング可能なモジュールも使用しています。 本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示した。 特に、最高のパフォーマンスモデルはトレーニングのためにたった1つのエポック(約8分)を必要とする。 コードはhttps://github.com/mever-team/rine。

The recently developed and publicly available synthetic image generation methods and services make it possible to create extremely realistic imagery on demand, raising great risks for the integrity and safety of online information. State-of-the-art Synthetic Image Detection (SID) research has led to strong evidence on the advantages of feature extraction from foundation models. However, such extracted features mostly encapsulate high-level visual semantics instead of fine-grained details, which are more important for the SID task. On the contrary, shallow layers encode low-level visual information. In this work, we leverage the image representations extracted by intermediate Transformer blocks of CLIP's image-encoder via a lightweight network that maps them to a learnable forgery-aware vector space capable of generalizing exceptionally well. We also employ a trainable module to incorporate the importance of each Transformer block to the final prediction. Our method is compared against the state-of-the-art by evaluating it on 20 test datasets and exhibits an average +10.6% absolute performance improvement. Notably, the best performing models require just a single epoch for training (~8 minutes). Code available at https://github.com/mever-team/rine.
翻訳日:2024-03-01 15:05:59 公開日:2024-02-29
# 資源制約のある最良のアーム識別

Best Arm Identification with Resource Constraints ( http://arxiv.org/abs/2402.19090v1 )

ライセンス: Link先を確認
Zitian Li, Wang Chi Cheung(参考訳) 異なる選択肢をまたがる実験におけるコストの不均一性に動機づけられ,資源制約問題(baiwrc)を伴う最善のアーム識別法について検討した。 エージェントはリソース制約の下で最高のarmを特定し、armプル毎にリソースを消費することを目指している。 我々は2つの新しい貢献をした。 本研究は,Halving with Resource Rationingアルゴリズム(SH-RR)の設計と解析を行う。 SH-RRは、最適腕を連続的に特定する確率の観点から、ほぼ最適な非漸近速度の収束を達成する。 興味深いことに、決定論的資源消費と確率的資源消費との収束率の差を同定する。

Motivated by the cost heterogeneity in experimentation across different alternatives, we study the Best Arm Identification with Resource Constraints (BAIwRC) problem. The agent aims to identify the best arm under resource constraints, where resources are consumed for each arm pull. We make two novel contributions. We design and analyze the Successive Halving with Resource Rationing algorithm (SH-RR). The SH-RR achieves a near-optimal non-asymptotic rate of convergence in terms of the probability of successively identifying an optimal arm. Interestingly, we identify a difference in convergence rates between the cases of deterministic and stochastic resource consumption.
翻訳日:2024-03-01 15:05:42 公開日:2024-02-29
# 意味変化のキャラクタリゼーションに関する調査

Survey in Characterization of Semantic Change ( http://arxiv.org/abs/2402.19088v1 )

ライセンス: Link先を確認
Jader Martins Camboim de S\'a, Marcos Da Silveira, C\'edric Pruski(参考訳) 生きた言語は、人類社会の文化的変化を統合するために継続的に進化する。 この進化は、単語(既存の単語の新しい意味)のネオロジズム(新語)または \textbf{semantic change} を通じて現れる。 言葉の意味を理解することは、異なる文化(地域主義やスラング)、ドメイン(例えば、技術用語)、期間から来るテキストを解釈するのに不可欠である。 コンピュータ科学では、これらの単語は翻訳、情報検索、質問応答など計算言語学のアルゴリズムに関係している。 意味的変化は、これらのアルゴリズムの結果の品質に影響を与える可能性がある。 したがって、これらの変化を正式に理解し、特徴づけることが重要である。 この影響の研究は、計算言語学コミュニティの注目を集めている最近の問題である。 いくつかの手法では意味変化を精度良く検出する手法が提案されているが、単語の意味がどう変化するか、意味変化の影響を抑える方法についての推論により多くの努力が必要である。 単語の意味がより一般的あるいは狭くなり(次元の変化)、単語がより悲観的または肯定的/改善的な意味(向きの変化)で使用される場合、そして、例えば比喩的またはメトニム的文脈(関係の変化)で単語を使用する傾向がある場合である。 選択された出版物の主な側面を表にまとめて,意味的変化のキャラクタリゼーションに関する研究活動におけるニーズと動向について考察した。

Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
翻訳日:2024-03-01 15:05:33 公開日:2024-02-29
# 制御可能な選好最適化:制御可能な多目的アライメントに向けて

Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment ( http://arxiv.org/abs/2402.19085v1 )

ライセンス: Link先を確認
Yiju Guo, Ganqu Cui, Lifan Yuan, Ning Ding, Jiexin Wang, Huimin Chen, Bowen Sun, Ruobing Xie, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun(参考訳) 人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。 実際には、人間の選好の多面的な性質は、不注意に「割当税」と呼ばれる、ある目的(例えば不調和)における一致の強化によって他人のパフォーマンスが低下する(例えば、助力)妥協を導入する。 しかし、既存のアライメント技術はほとんどが一方向であり、様々な目的に対して最適でないトレードオフと柔軟性の欠如をもたらす。 この課題をナビゲートするために、明らかな選好でLLMを接地することの優位性について議論する。 制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定し、要求を満たす応答を生成するようモデルに誘導する。 実験結果から,アライメントモデルが「3h」デシデラタの様々な嗜好に適合する応答を提示できることが判明した。 さらに,多様なデータとアライメント目標を導入することで,単一目的のアライメントにおけるベースライン手法を克服し,アライメント税の影響を緩和し,多目的アライメントにおけるパレート改善を実現する。

Alignment in artificial intelligence pursues the consistency between model responses and human preferences as well as values. In practice, the multifaceted nature of human preferences inadvertently introduces what is known as the "alignment tax" -a compromise where enhancements in alignment within one objective (e.g.,harmlessness) can diminish performance in others (e.g.,helpfulness). However, existing alignment techniques are mostly unidirectional, leading to suboptimal trade-offs and poor flexibility over various objectives. To navigate this challenge, we argue the prominence of grounding LLMs with evident preferences. We introduce controllable preference optimization (CPO), which explicitly specifies preference scores for different objectives, thereby guiding the model to generate responses that meet the requirements. Our experimental analysis reveals that the aligned models can provide responses that match various preferences among the "3H" (helpfulness, honesty, harmlessness) desiderata. Furthermore, by introducing diverse data and alignment goals, we surpass baseline methods in aligning with single objectives, hence mitigating the impact of the alignment tax and achieving Pareto improvements in multi-objective alignment.
翻訳日:2024-03-01 15:05:08 公開日:2024-02-29
# videomac: ビデオマスク付きオートエンコーダーがconvnetsと出会う

VideoMAC: Video Masked Autoencoders Meet ConvNets ( http://arxiv.org/abs/2402.19082v1 )

ライセンス: Link先を確認
Gensheng Pei, Tao Chen, Xiruo Jiang, Huafeng Liu, Zeren Sun, Yazhou Yao(参考訳) 近年,マスク付きオートエンコーダ(MAE)のような自己指導型学習技術の進歩は,画像やビデオの視覚的表現学習に大きな影響を与えている。 それでも、既存のマスク付き画像/ビデオモデリングにおける主要なアプローチは、機能エンコーダとして資源集約型視覚変換器(ViT)に過度に依存することに注意する必要がある。 本稿では、ビデオマスク付きオートエンコーダとリソースフレンドリーなConvNetを組み合わせた「textbf{VideoMAC}」という新しいアプローチを提案する。 具体的には、ビデオMACはランダムにサンプリングされたビデオフレームに対称マスキングを用いる。 マスクパターンの散逸問題を防止するため,sparse convolutional operatorをエンコーダとして実装したconvnetsを利用する。 同時に、オンラインエンコーダと指数移動平均目標目標目標目標エンコーダからなるデュアルエンコーダアーキテクチャを、ビデオにおけるフレーム間再構成の整合性を促進することを目的とした、シンプルで効果的なマスク付きビデオモデリング(MVM)手法を提案する。 さらに、古典的(resnet)/現代的(convnext)畳み込みエンコーダをmvmの利点に活用し、ビデオオブジェクトのセグメンテーション(+\textbf{5.2\%} / \textbf{6.4\%} $\mathcal{j}\&\mathcal{f}$)、ボディ部分の伝搬(+\textbf{6.3\%} / \textbf{3.1\%} miou)、人間のポーズ追跡(+\textbf{10.2\%} / \textbf{11.1\%}} pck@0.1)など、下流タスクにおけるvitベースのアプローチを上回っていることを実証する。

Recently, the advancement of self-supervised learning techniques, like masked autoencoders (MAE), has greatly influenced visual representation learning for images and videos. Nevertheless, it is worth noting that the predominant approaches in existing masked image / video modeling rely excessively on resource-intensive vision transformers (ViTs) as the feature encoder. In this paper, we propose a new approach termed as \textbf{VideoMAC}, which combines video masked autoencoders with resource-friendly ConvNets. Specifically, VideoMAC employs symmetric masking on randomly sampled pairs of video frames. To prevent the issue of mask pattern dissipation, we utilize ConvNets which are implemented with sparse convolutional operators as encoders. Simultaneously, we present a simple yet effective masked video modeling (MVM) approach, a dual encoder architecture comprising an online encoder and an exponential moving average target encoder, aimed to facilitate inter-frame reconstruction consistency in videos. Additionally, we demonstrate that VideoMAC, empowering classical (ResNet) / modern (ConvNeXt) convolutional encoders to harness the benefits of MVM, outperforms ViT-based approaches on downstream tasks, including video object segmentation (+\textbf{5.2\%} / \textbf{6.4\%} $\mathcal{J}\&\mathcal{F}$), body part propagation (+\textbf{6.3\%} / \textbf{3.1\%} mIoU), and human pose tracking (+\textbf{10.2\%} / \textbf{11.1\%} PCK@0.1).
翻訳日:2024-03-01 15:04:46 公開日:2024-02-29
# 多光子ハイゼンベルク制限干渉法の実験的検討:不完全性の影響

Experimental investigation of a multi-photon Heisenberg-limited interferometric scheme: the effect of imperfections ( http://arxiv.org/abs/2402.19079v1 )

ライセンス: Link先を確認
Shakib Daryanoosh, Sergei Slussarenko, Jian Li, Howard M. Wiseman, Geoff J. Pryde(参考訳) 干渉位相推定は、変位、速度、材料特性などの量を正確に測定するための重要なツールである。 古典的資源で達成可能な測定の不確実性に対する低い境界は、1/\sqrt{N}$と漸近的にスケールするショットノイズ極限(SNL)によって設定される。 実験は[S]です。 Daryanoosh et al., Nat. 共産。 ${\bf 9}$, 4606 (2018)] は、特定の測定手法と組み合わせて絡み合った双光子状態を用いて、$N=3$光子パスを持つ ab-初期位相推定において、最終的な精度限界、正確なハイゼンベルク極限(HL)を達成する方法を示した。 snlに対するhlのアドバンテージは、使用するリソースの数によって増加する。 ここでは、最適な$n=7$triphoton状態を生成するためのスキームを実験的に実装する。 生成状態の品質と位相推定の可能性について実験的に理論的に検討する。 パラメトリックダウンコンバージョンで生成した状態において,光学モードミスマッチや高次高次多光子項などの非常に小さな実験的欠陥により, HL位相推定のための準備された三重項状態の有用性が著しく低下することを示した。

Interferometric phase estimation is an essential tool for precise measurements of quantities such as displacement, velocity and material properties. The lower bound on measurement uncertainty achievable with classical resources is set by the shot-noise limit (SNL) that scales asymptotically as $1/\sqrt{N}$, where $N$ is the number of resources used. The experiment of [S. Daryanoosh et al., Nat. Commun. ${\bf 9}$, 4606 (2018)] showed how to achieve the ultimate precision limit, the exact Heisenberg limit (HL), in ab-initio phase estimation with $N=3$ photon-passes, using an entangled biphoton state in combination with particular measurement techniques. The advantage of the HL over the SNL increases with the number of resources used. Here we present, and implement experimentally, a scheme for generation of the optimal $N=7$ triphoton state. We study experimentally and theoretically the generated state quality and its potential for phase estimation. We show that the expected usefulness of the prepared triphoton state for HL phase estimation is significantly degraded by even quite small experimental imperfections, such as optical mode mismatch and unwanted higher-order multi-photon terms in the states produced in parametric down-conversion.
翻訳日:2024-03-01 15:03:50 公開日:2024-02-29
# Smooth Tchebycheff Scalarizationによる多目的最適化

Smooth Tchebycheff Scalarization for Multi-Objective Optimization ( http://arxiv.org/abs/2402.19078v1 )

ライセンス: Link先を確認
Xi Lin, Xiaoyuan Zhang, Zhiyuan Yang, Fei Liu, Zhenkun Wang, Qingfu Zhang(参考訳) 多目的最適化問題は、目的が相反することが多く、単一のソリューションでは最適化できない多くの実世界のアプリケーションで見られる。 過去数十年間、与えられた問題の目的間で異なる最適トレードオフを表すパレート解を見つけるための多くの方法が提案されてきた。 しかし、これらの既存手法は高い計算複雑性を持つか、あるいは一般的な微分可能な多目的最適化問題を解くための理論的性質が十分でない可能性がある。 本研究では,スムーズな最適化手法を用いて,勾配に基づく多目的最適化のための新しいスムーズなTchebycheffスキャラライズ手法を提案する。 有効なトレードオフ選好を持つパレート解を見つけるのに優れた理論的性質を持ち、他の方法に比べて計算の複雑さがかなり低い。 実世界の様々な応用問題に対する実験結果は,提案手法の有効性を十分に示している。

Multi-objective optimization problems can be found in many real-world applications, where the objectives often conflict each other and cannot be optimized by a single solution. In the past few decades, numerous methods have been proposed to find Pareto solutions that represent different optimal trade-offs among the objectives for a given problem. However, these existing methods could have high computational complexity or may not have good theoretical properties for solving a general differentiable multi-objective optimization problem. In this work, by leveraging the smooth optimization technique, we propose a novel and lightweight smooth Tchebycheff scalarization approach for gradient-based multi-objective optimization. It has good theoretical properties for finding all Pareto solutions with valid trade-off preferences, while enjoying significantly lower computational complexity compared to other methods. Experimental results on various real-world application problems fully demonstrate the effectiveness of our proposed method.
翻訳日:2024-03-01 15:03:24 公開日:2024-02-29
# 意味的モチベーションを伴う関係抽出モデルの欠点を指摘する

Pointing out the Shortcomings of Relation Extraction Models with Semantically Motivated Adversarials ( http://arxiv.org/abs/2402.19076v1 )

ライセンス: Link先を確認
Gennaro Nolano, Moritz Blum, Basil Ell, Philipp Cimiano(参考訳) 近年、大規模言語モデルは様々なNLPタスクで最先端のパフォーマンスを実現している。 しかし、これらのモデルがショートカット機能に依存する傾向があり、不正確な予測につながり、od(out-of-distribution)サンプルへの一般化においてモデルの信頼性が低下することが示された。 例えば、関係抽出(RE)の文脈では、モデルが関係するエンティティとは独立して同じ関係を識別することを期待する。 例えば、"leonardo da vinci painted the mona lisa"という文は、生成された(leonardo_da_vinci, mona_lisa)関係を表す。 レオナルド・ダ・ヴィンチ(leonardo da vinci)とバラック・オバマ(barack obama)を差し引いた場合、文はいまだに創造された関係を表す。 堅牢なモデルは、両方のケースで同じ関係を検出する。 本稿では,エンティティの言及を置き換えて,敵の例を生成するためのセマンティックな動機付け戦略について述べるとともに,現状のREモデルがどのように振る舞うかを考察する。 分析の結果,これらのモデルの性能は修正データセット(F1では-48.5%)で著しく低下しており,文中の情報を完全に活用することなく,エンティティの表面形状(あるいはそのパターン)などのショートカットに大きく依存していることがわかった。

In recent years, large language models have achieved state-of-the-art performance across various NLP tasks. However, investigations have shown that these models tend to rely on shortcut features, leading to inaccurate predictions and causing the models to be unreliable at generalization to out-of-distribution (OOD) samples. For instance, in the context of relation extraction (RE), we would expect a model to identify the same relation independently of the entities involved in it. For example, consider the sentence "Leonardo da Vinci painted the Mona Lisa" expressing the created(Leonardo_da_Vinci, Mona_Lisa) relation. If we substiute "Leonardo da Vinci" with "Barack Obama", then the sentence still expresses the created relation. A robust model is supposed to detect the same relation in both cases. In this work, we describe several semantically-motivated strategies to generate adversarial examples by replacing entity mentions and investigate how state-of-the-art RE models perform under pressure. Our analyses show that the performance of these models significantly deteriorates on the modified datasets (avg. of -48.5% in F1), which indicates that these models rely to a great extent on shortcuts, such as surface forms (or patterns therein) of entities, without making full use of the information present in the sentences.
翻訳日:2024-03-01 15:03:11 公開日:2024-02-29
# TimeXer: 外部変数による時系列予測のためのトランスフォーマーの強化

TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables ( http://arxiv.org/abs/2402.19072v1 )

ライセンス: Link先を確認
Yuxuan Wang, Haixu Wu, Jiaxiang Dong, Yong Liu, Yunzhong Qiu, Haoran Zhang, Jianmin Wang, Mingsheng Long(参考訳) 最近の研究は時系列予測において顕著な性能を示した。 しかし、現実の応用が部分的に観察されているため、興味の対象である内因性変数のみに焦点を当てているため、正確な予測を保証するには不十分である。 特に、システムはしばしば複数の変数に記録され、外因性系列は内因性変数の貴重な外部情報を提供できる。 したがって,従来確立されていた多変量予測や一変量予測とは違って,本論文では,外生変数を用いた時系列予測の実践的な設定に焦点をあてる。 内因性変数の予測を強化するために外部情報を利用する新しいフレームワークであるTimeXerを提案する。 整然とした設計の埋め込みレイヤにより、TimeXerは、内因性および外因性情報の整合性を備えた標準トランスフォーマーアーキテクチャをパワーアップする。 さらに、外因性系列を内因性時間パッチに効果的にブリッジするために、グローバルな内因性変動トークンが採用されている。 実験的に、timexerは外因性変数による時系列予測を大幅に改善し、12の現実世界予測ベンチマークで一貫した最先端のパフォーマンスを達成する。

Recent studies have demonstrated remarkable performance in time series forecasting. However, due to the partially-observed nature of real-world applications, solely focusing on the target of interest, so-called endogenous variables, is usually insufficient to guarantee accurate forecasting. Notably, a system is often recorded into multiple variables, where the exogenous series can provide valuable external information for endogenous variables. Thus, unlike prior well-established multivariate or univariate forecasting that either treats all the variables equally or overlooks exogenous information, this paper focuses on a practical setting, which is time series forecasting with exogenous variables. We propose a novel framework, TimeXer, to utilize external information to enhance the forecasting of endogenous variables. With a deftly designed embedding layer, TimeXer empowers the canonical Transformer architecture with the ability to reconcile endogenous and exogenous information, where patch-wise self-attention and variate-wise cross-attention are employed. Moreover, a global endogenous variate token is adopted to effectively bridge the exogenous series into endogenous temporal patches. Experimentally, TimeXer significantly improves time series forecasting with exogenous variables and achieves consistent state-of-the-art performance in twelve real-world forecasting benchmarks.
翻訳日:2024-03-01 15:02:46 公開日:2024-02-29
# MMLAにおけるFATE:マルチモーダル学習分析における学生中心による公正性・説明責任・透明性・倫理調査

FATE in MMLA: A Student-Centred Exploration of Fairness, Accountability, Transparency, and Ethics in Multimodal Learning Analytics ( http://arxiv.org/abs/2402.19071v1 )

ライセンス: Link先を確認
Yueqiao Jin, Vanessa Echeverria, Lixiang Yan, Linxuan Zhao, Riordan Alfredo, Yi-Shan Tsai, Dragan Ga\v{s}evi\'c, Roberto Martinez-Maldonado(参考訳) MMLA(Multimodal Learning Analytics)は、新しいセンシング技術と人工知能アルゴリズムを統合し、複雑で協調的な学習経験において学生の反射を高める機会を提供する。 MMLAの最近の進歩は、様々な学習環境における多様な学習行動に関する洞察を生み出す能力を示しているが、学生の認識公正性、説明責任、透明性、倫理(FATE)に関して、これらのシステムを真に学習の文脈で評価する研究はほとんど行われていない。 これらの認識を理解することは、mmlaを効果的に使用するために、倫理的な合併症や学生の学習方法に悪影響を及ぼすことなく必要不可欠である。 本研究は,MMLAのFATEを真に協調的な学習コンテキストで評価することにより,このギャップに対処することを目的とした。 MMLAヴィジュアライゼーションをポストアクティブリフレクションに用いた14人の大学生を対象に半構造化面接を行った。 その結果,視覚的公正性を確保するための正確かつ包括的なデータ表現の重要性,説明責任を育むためのデータアクセスのレベルの違いの必要性,学生との透明性の測定・育成の規範,ディコトコスから連続的かつ測定可能な尺度への情報同意の転換の必要性が明らかになった。 学生はMMLAの利点を尊重する一方で、倫理的考察の重要性を強調し、FATE問題を積極的に調査し対処するために、LAとMMLAコミュニティが強く求めていることを強調する。

Multimodal Learning Analytics (MMLA) integrates novel sensing technologies and artificial intelligence algorithms, providing opportunities to enhance student reflection during complex, collaborative learning experiences. Although recent advancements in MMLA have shown its capability to generate insights into diverse learning behaviours across various learning settings, little research has been conducted to evaluate these systems in authentic learning contexts, particularly regarding students' perceived fairness, accountability, transparency, and ethics (FATE). Understanding these perceptions is essential to using MMLA effectively without introducing ethical complications or negatively affecting how students learn. This study aimed to address this gap by assessing the FATE of MMLA in an authentic, collaborative learning context. We conducted semi-structured interviews with 14 undergraduate students who used MMLA visualisations for post-activity reflection. The findings highlighted the significance of accurate and comprehensive data representation to ensure visualisation fairness, the need for different levels of data access to foster accountability, the imperative of measuring and cultivating transparency with students, and the necessity of transforming informed consent from dichotomous to continuous and measurable scales. While students value the benefits of MMLA, they also emphasise the importance of ethical considerations, highlighting a pressing need for the LA and MMLA community to investigate and address FATE issues actively.
翻訳日:2024-03-01 15:02:19 公開日:2024-02-29
# ライン上の非定常SQM/IST対応と${\cal CPT}/{\cal PT}$-不変なペアハミルトン

Non-stationary SQM/IST Corespondence and ${\cal CPT}/{\cal PT}$-invariant paired Hamiltonians on the line ( http://arxiv.org/abs/2402.19066v1 )

ライセンス: Link先を確認
V.P. Berezovoj, A.J. Nurmagambetov(参考訳) 超対称量子力学と逆散乱変換の対応において存在するいくつかのギャップを埋め、ペア定常および非定常ハミルトニアンの場合への考察を拡張する。 本稿では,Goursat問題に対応する問題を定式化し,それを解決する非局所逆散乱変換のカーネルを明示的に構築する。 その結果、初期のエルミート的手法から非エルミート的ハミルトニアンを構成する方法を見つけ、これは両方のポテンシャルの実数値スペクトルの場合、${\cal CPT/PT}$-不変ハミルトニアンとのペア化につながる。 量子光学および光導波路技術、および非線形ダイナミクスおよびブラックホール物理学に対する提案の関連性について簡単に論じる。

We fill some of existed gaps in the correspondence between Supersymmetric Quantum Mechanics and the Inverse Scattering Transform by extending the consideration to the case of paired stationary and non-stationary Hamiltonians. We formulate the corresponding to the case Goursat problem and explicitly construct the kernel of the non-local Inverse Scattering Transform, which solves it. As a result, we find the way of constructing non-hermitian Hamiltonians from the initially hermitian ones, that leads, in the case of real-valued spectra of both potentials, to pairing of ${\cal CPT/PT}$-invariant Hamiltonians. The relevance of our proposal to Quantum Optics and optical waveguides technology, as well as to non-linear dynamics and Black Hole Physics is briefly discussed.
翻訳日:2024-03-01 15:01:50 公開日:2024-02-29
# 自動心エコー画像認識のためのグラフ畳み込みニューラルネットワーク : ホロスティックアプローチ

Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach ( http://arxiv.org/abs/2402.19062v1 )

ライセンス: Link先を確認
Sarina Thomas, Cristiana Tiago, B{\o}rge Solli Andreassen, Svein-Arne Aase, Jurica Sprem, Erik Steen, Anne Solberg, Guy Ben-Yosef(参考訳) 心臓超音波(US)の診断を容易にするために、臨床は、診断のための基準点として機能し、画像を取得するビューポートを定義するために、心臓の標準的な見方を確立した。 自動ビュー認識は、それらの画像を標準ビューのクラスにグループ化する。 ディープラーニングの技術は成功しているが、心臓構造の正確な位置、ポーズ、潜在的な閉塞といった要因により、特定の測定値に対する画像の適合性を完全に検証するのに苦労している。 我々のアプローチは、ビューの分類を超えて、セグメンテーションやポーズ推定といった、より下流のタスクを可能にする3Dメッシュによる心臓の再構築を取り入れています。 本研究では,人間のポーズ推定などの自然画像における3次元メッシュの学習に類似した手法を用いて,グラフ畳み込みによる3次元心臓メッシュの学習について検討する。 完全アノテートされた3D画像の可用性が制限されるため, 対向性認知拡散モデルのトレーニングにより, 3次元メッシュから合成US画像を生成する。 ビュー認識および構造検出のための合成および臨床症例について実験を行った。 このアプローチは合成画像に優れたパフォーマンスをもたらし、合成データのみをトレーニングしたものの、臨床画像に適用するとすでに潜在的な可能性が示された。 本研究の目的は,この概念の証明によって,心臓診断の効率向上につながる心視認識を改善するグラフの利点を実証することである。

To facilitate diagnosis on cardiac ultrasound (US), clinical practice has established several standard views of the heart, which serve as reference points for diagnostic measurements and define viewports from which images are acquired. Automatic view recognition involves grouping those images into classes of standard views. Although deep learning techniques have been successful in achieving this, they still struggle with fully verifying the suitability of an image for specific measurements due to factors like the correct location, pose, and potential occlusions of cardiac structures. Our approach goes beyond view classification and incorporates a 3D mesh reconstruction of the heart that enables several more downstream tasks, like segmentation and pose estimation. In this work, we explore learning 3D heart meshes via graph convolutions, using similar techniques to learn 3D meshes in natural images, such as human pose estimation. As the availability of fully annotated 3D images is limited, we generate synthetic US images from 3D meshes by training an adversarial denoising diffusion model. Experiments were conducted on synthetic and clinical cases for view recognition and structure detection. The approach yielded good performance on synthetic images and, despite being exclusively trained on synthetic data, it already showed potential when applied to clinical images. With this proof-of-concept, we aim to demonstrate the benefits of graphs to improve cardiac view recognition that can ultimately lead to better efficiency in cardiac diagnosis.
翻訳日:2024-03-01 15:01:32 公開日:2024-02-29
# ヒューマンライナリーアノテーションの代替手段としてのWebカメラを用いた注視データの評価

Evaluating Webcam-based Gaze Data as an Alternative for Human Rationale Annotations ( http://arxiv.org/abs/2402.19133v1 )

ライセンス: Link先を確認
Stephanie Brandl, Oliver Eberle, Tiago Ribeiro, Anders S{\o}gaard, Nora Hollenstein(参考訳) 手動の注釈付き入力スパンの形式における合理性は、通常、nlpで説明可能性法を評価する際に根拠となる。 しかし、それらは時間がかかり、しばしばアノテーションのプロセスに偏っている。 本稿では,ウェブカメラによる視線追跡記録の形で重要度を評価する上で,人間の視線が有効な代替手段であるかどうかを議論する。 本研究では,視線データから得られる全読取時間,視線エントロピー,人間の合理性アノテーションによる復号精度などの付加情報を評価する。 情報検索のための多言語データセットであるWebQAmGazeと、4つの異なる多言語トランスフォーマーベース言語モデル(mBERT, distil-mBERT, XLMR, XLMR-L)と3つの言語(英語,スペイン語,ドイツ語)の注意点と説明可能性に基づく重要度スコアを比較した。 私たちのパイプラインは他のタスクや言語にも簡単に適用できます。 この結果から,視線データは課題の難易度を推定し,人間の有理値に匹敵する説明可能性手法のランク付けに活用できる貴重な言語学的洞察を提供する可能性が示唆された。

Rationales in the form of manually annotated input spans usually serve as ground truth when evaluating explainability methods in NLP. They are, however, time-consuming and often biased by the annotation process. In this paper, we debate whether human gaze, in the form of webcam-based eye-tracking recordings, poses a valid alternative when evaluating importance scores. We evaluate the additional information provided by gaze data, such as total reading times, gaze entropy, and decoding accuracy with respect to human rationale annotations. We compare WebQAmGaze, a multilingual dataset for information-seeking QA, with attention and explainability-based importance scores for 4 different multilingual Transformer-based language models (mBERT, distil-mBERT, XLMR, and XLMR-L) and 3 languages (English, Spanish, and German). Our pipeline can easily be applied to other tasks and languages. Our findings suggest that gaze data offers valuable linguistic insights that could be leveraged to infer task difficulty and further show a comparable ranking of explainability methods to that of human rationales.
翻訳日:2024-03-01 14:58:38 公開日:2024-02-29
# 標準量子限界を超える原子超流動回転のセンシング

Sensing atomic superfluid rotation beyond the standard quantum limit ( http://arxiv.org/abs/2402.19123v1 )

ライセンス: Link先を確認
Rahul Gupta, Pradeep Kumar, Rina Kanamoto, M. Bhattacharya, Himadri Shekhar Dhar(参考訳) ボース・アインシュタイン凝縮体(BEC)をリングトラップに用いた原子超流動体は、現在超流動流体力学、量子センシング、物質波干渉計の文脈で研究されている。 このような超流体の回転特性のキャラクタリゼーションは重要であるが、現在はコンデンサを完全に破壊する光吸収イメージングを用いてのみ行うことができる。 近年の研究では、リングbecを軌道角運動量を運ぶ光学キャビティモードに結合し、凝縮回転の最小破壊測定を行うことが提案されている。 しかし、これらの提案の感度は、レーザーショットノイズと放射圧ノイズの組み合わせによって設定された標準量子限界によって下記に示される。 本研究では, 凝縮体の散乱モードと光との相互作用が, 効果的な運動方程式に還元されるという事実を利用する理論的枠組みを提供する。 圧縮光とバックアクション回避技術を用いることで、凝縮体の角運動量が標準量子限界よりかなり低いノイズで感知できることを実証するために、詳細な理論的解析を行った。 我々の提案は、原子エレクトロニクス、量子センシング、および量子情報に関係している。

Atomic superfluids formed using Bose-Einstein condensates (BECs) in a ring trap are currently being investigated in the context of superfluid hydrodynamics, quantum sensing and matter-wave interferometry. The characterization of the rotational properties of such superfluids is important, but can presently only be performed by using optical absorption imaging, which completely destroys the condensate. Recent studies have proposed coupling the ring BEC to optical cavity modes carrying orbital angular momentum to make minimally destructive measurements of the condensate rotation. The sensitivity of these proposals, however, is bounded below by the standard quantum limit set by the combination of laser shot noise and radiation pressure noise. In this work, we provide a theoretical framework that exploits the fact that the interaction between the scattered modes of the condensate and the light reduces to effective optomechanical equations of motion. We present a detailed theoretical analysis to demonstrate that the use of squeezed light and backaction evasion techniques allows the angular momentum of the condensate to be sensed with noise well below the standard quantum limit. Our proposal is relevant to atomtronics, quantum sensing and quantum information.
翻訳日:2024-03-01 14:58:05 公開日:2024-02-29
# BigGait: 大規模ビジョンモデルで望むゲット表現を学習する

BigGait: Learning Gait Representation You Want by Large Vision Models ( http://arxiv.org/abs/2402.19122v1 )

ライセンス: Link先を確認
Dingqiang Ye, Chao Fan, Jingzhe Ma, Xiaoming Liu, Shiqi Yu(参考訳) 歩行認識は最も重要なリモート識別技術の1つであり、研究や工業コミュニティに徐々に拡大している。 しかし、既存の歩行認識手法は教師付き学習によって引き起こされるタスク固有の上流に大きく依存しており、明示的な歩行表現を提供しており、これは必然的に高価なアノテーションコストをもたらし、累積エラーを引き起こす可能性がある。 この傾向から逃れて、本研究はタスク非依存大規模ビジョンモデル(lvms)が生み出す全目的知識に基づく効果的な歩行表現を探求し、biggaitと呼ばれる単純で効率的な歩行フレームワークを提案する。 具体的には、BigGaitのGait Representation Extractor(GRE)は、すべての目的の知識を教師なしの方法で暗黙のMoit特徴に効果的に変換し、確立されたMoit表現構築アプローチの設計原則から導出する。 CCPG, CAISA-B* および SUSTech1K の実験結果から,BigGait は,ほとんどの場合において,自己ドメインタスクとクロスドメインタスクの両方において従来の手法よりも優れており,次世代の歩行表現を学習するためのより実用的なパラダイムを提供する。 最終的に私たちは、LVMベースの歩行認識における将来的な課題と将来的な方向性を探求し、この新興トピックにおける将来の仕事を促すことを目指しています。 ソースコードはhttps://github.com/shiqiyu/opengaitで入手できる。

Gait recognition stands as one of the most pivotal remote identification technologies and progressively expands across research and industrial communities. However, existing gait recognition methods heavily rely on task-specific upstream driven by supervised learning to provide explicit gait representations, which inevitably introduce expensive annotation costs and potentially cause cumulative errors. Escaping from this trend, this work explores effective gait representations based on the all-purpose knowledge produced by task-agnostic Large Vision Models (LVMs) and proposes a simple yet efficient gait framework, termed BigGait. Specifically, the Gait Representation Extractor (GRE) in BigGait effectively transforms all-purpose knowledge into implicit gait features in an unsupervised manner, drawing from design principles of established gait representation construction approaches. Experimental results on CCPG, CAISA-B* and SUSTech1K indicate that BigGait significantly outperforms the previous methods in both self-domain and cross-domain tasks in most cases, and provides a more practical paradigm for learning the next-generation gait representation. Eventually, we delve into prospective challenges and promising directions in LVMs-based gait recognition, aiming to inspire future work in this emerging topic. The source code will be available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2024-03-01 14:57:31 公開日:2024-02-29
# ラインレベルの自動コード補完のためのナイーブアプローチ

A Naive Approach for Automatic Line-level Code Completion ( http://arxiv.org/abs/2402.19120v1 )

ライセンス: Link先を確認
Shamima Naznin, Dr.Manishankar Mondal(参考訳) コーディングはプログラミングの不可欠な側面である。 プログラマは、いくつかのトークンを書いた後に自動的にコードフラグメントを完了でき、自動補完のプロセスはコード補完と呼ばれる。 コード補完に関するいくつかの研究は、従来、メソッドボディ補完とメソッドパラメータ補完のために行われてきた。 しかし、この基本的な研究は、メソッドに含まれないプログラムステートメントを自動補完することを検討するものである。 ゴールは、コードの類似性を識別し分析することで、コードベース全体のコード補完をプログラマに提案することである。 提案手法は,自動コード補完の基本的なフレームワークとみなすことができる。 CとJavaで書かれた4つのサブジェクトシステムの数百のリビジョンを調査した結果、提案手法は、開発中にプログラマが記述した平均精度が87%のコードステートメントの約22%を自動で完了し、ソフトウェア開発時間を短縮できることがわかった。 経験的分析は、このアプローチがプログラミング言語の中立性で利用できることを示す。 この研究は、10文字を接頭辞として読み取ると最大精度が得られると結論付けている。

Coding is an integral aspect of programming. A programmer can automatically complete a code fragment after writing a few tokens, and the process of automatic completion is known as code completion. Several research studies on code completion have previously been conducted for method body completion and method parameter completion. However, this fundamental study explores the automatic completion of any program statement that might not even be part of a method. The goal is to provide suggestions to the programmer for completing code throughout the codebase by identifying and analyzing code similarities. The proposed methodology can be regarded as a fundamental framework for automated code completion. From the investigation of hundreds of revisions of four subject systems written in C and Java, it is observed that the proposed method can automatically complete around 22% of code statements with an average accuracy of 87% that a programmer writes during development, accelerating software development time. The empirical analysis further demonstrates that the approach can be used with programming language neutrality. The study concludes by illustrating that taking 10 characters as prefixes before invoking completion provides maximum precision.
翻訳日:2024-03-01 14:56:49 公開日:2024-02-29
# VIXEN:画像差分キャプションのためのビジュアルテキスト比較ネットワーク

VIXEN: Visual Text Comparison Network for Image Difference Captioning ( http://arxiv.org/abs/2402.19119v1 )

ライセンス: Link先を確認
Alexander Black and Jing Shi and Yifei Fai and Tu Bui and John Collomosse(参考訳) テキストで簡潔に要約し,一対のイメージ間の視覚的差異を要約して,現在あるコンテンツ操作をハイライトする手法であるVIXENを提案する。 提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。 プロンプトからプロンプトへの編集フレームワークによって生成されたinstructpix2pixデータセットから合成操作された画像のトレーニングを行い,既存の画像差分キャプション(idc)データセットにおける少ないトレーニングデータと操作の多様性の欠如に対処する。 我々はこのデータセットをgpt-3で生成した変更サマリーで拡張する。 我々は,VIXENが様々な画像コンテンツや編集タイプに対して,最新かつ理解可能な差分キャプションを生成することを示し,操作された画像コンテンツを介して拡散する誤情報に対する潜在的な軽減を提供する。 コードとデータはhttp://github.com/alexblck/vixenで入手できる。

We present VIXEN - a technique that succinctly summarizes in text the visual differences between a pair of images in order to highlight any content manipulation present. Our proposed network linearly maps image features in a pairwise manner, constructing a soft prompt for a pretrained large language model. We address the challenge of low volume of training data and lack of manipulation variety in existing image difference captioning (IDC) datasets by training on synthetically manipulated images from the recent InstructPix2Pix dataset generated via prompt-to-prompt editing framework. We augment this dataset with change summaries produced via GPT-3. We show that VIXEN produces state-of-the-art, comprehensible difference captions for diverse image contents and edit types, offering a potential mitigation against misinformation disseminated via manipulated image content. Code and data are available at http://github.com/alexblck/vixen
翻訳日:2024-03-01 14:56:20 公開日:2024-02-29
# 運動注意機構とフレームレベルの自己蒸留に基づく連続手話認識

Continuous Sign Language Recognition Based on Motor attention mechanism and frame-level Self-distillation ( http://arxiv.org/abs/2402.19118v1 )

ライセンス: Link先を確認
Qidan Zhu, Jing Li, Fei Yuan, Quan Gan(参考訳) 表情, 頭の動き, 体の動き, ジェスチャーの動きの変化は手話認識において顕著な手がかりであり, 現在の連続手話認識(cslr)研究手法のほとんどは, 動画像の動的変化を無視しつつ, フレームレベルの特徴抽出段階における映像列の静的画像に焦点を当てている。 本論文では,手話表現時の局所運動領域のゆがんだ変化を捉え,画像変化の動的表現を得るための新しい運動注意機構を提案する。 また, 連続手話のフレームレベル特徴抽出に初めて自己蒸留法を適用し, 隣接する段階の特徴を自己蒸留し, 教師として高次特徴を用いて低次特徴を導出することにより, 計算資源を増大させることなく特徴表現を改善する。 この2つの組み合わせは, 運動注意機構とフレームレベル自己蒸留(mam-fsd)に基づくcslrの総合モデルであり, モデルの推論能力とロバスト性を向上させる。 本研究では,3つの公開データセットに対して実験を行い,提案手法により映像中の手話動作情報を効果的に抽出し,CSLRの精度を向上し,最先端レベルまで到達できることを示す。

Changes in facial expression, head movement, body movement and gesture movement are remarkable cues in sign language recognition, and most of the current continuous sign language recognition(CSLR) research methods mainly focus on static images in video sequences at the frame-level feature extraction stage, while ignoring the dynamic changes in the images. In this paper, we propose a novel motor attention mechanism to capture the distorted changes in local motion regions during sign language expression, and obtain a dynamic representation of image changes. And for the first time, we apply the self-distillation method to frame-level feature extraction for continuous sign language, which improves the feature expression without increasing the computational resources by self-distilling the features of adjacent stages and using the higher-order features as teachers to guide the lower-order features. The combination of the two constitutes our proposed holistic model of CSLR Based on motor attention mechanism and frame-level Self-Distillation (MAM-FSD), which improves the inference ability and robustness of the model. We conduct experiments on three publicly available datasets, and the experimental results show that our proposed method can effectively extract the sign language motion information in videos, improve the accuracy of CSLR and reach the state-of-the-art level.
翻訳日:2024-03-01 14:56:01 公開日:2024-02-29
# Support"をどう理解するか? 弱制御されたフレーズ接地における暗黙的な因果推論手法

How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding ( http://arxiv.org/abs/2402.19116v1 )

ライセンス: Link先を確認
Jiamin Luo, Jianing Zhao, Jingjing Wang, Guodong Zhou(参考訳) WPG (Weakly-supervised Phrase Grounding) は, 粗い文と画像のペアを訓練に用いながら, きめ細かな句領域マッチングを推定する新たな課題である。 しかしながら、WPGに関する既存の研究は、深いマルチモーダル意味論を理解する上でモデルの有効性を評価する上で重要な暗黙のフレーズ領域マッチング関係を無視している。 そこで本研究では,暗黙的関係をモデル化し,明示的関係を超えて強調する上での課題に対処するImplicit-Enhanced Causal Inference (IECI)アプローチを提案する。 特に、このアプローチは、それぞれ上記の2つの課題に取り組むために、介入と反現実的手法の両方を活用する。 さらに、IECIを評価するために高品質な暗黙的拡張データセットがアノテートされ、詳細な評価は、最先端のベースラインに対するIECIの大きな利点を示している。 特に、この暗黙的拡張データセットにおいて、IECIが高度なマルチモーダルLLMよりも大きなマージンで優れており、この方向へのマルチモーダルLLMを評価するためのさらなる研究が促進される可能性がある。

Weakly-supervised Phrase Grounding (WPG) is an emerging task of inferring the fine-grained phrase-region matching, while merely leveraging the coarse-grained sentence-image pairs for training. However, existing studies on WPG largely ignore the implicit phrase-region matching relations, which are crucial for evaluating the capability of models in understanding the deep multimodal semantics. To this end, this paper proposes an Implicit-Enhanced Causal Inference (IECI) approach to address the challenges of modeling the implicit relations and highlighting them beyond the explicit. Specifically, this approach leverages both the intervention and counterfactual techniques to tackle the above two challenges respectively. Furthermore, a high-quality implicit-enhanced dataset is annotated to evaluate IECI and detailed evaluations show the great advantages of IECI over the state-of-the-art baselines. Particularly, we observe an interesting finding that IECI outperforms the advanced multimodal LLMs by a large margin on this implicit-enhanced dataset, which may facilitate more research to evaluate the multimodal LLMs in this direction.
翻訳日:2024-03-01 14:55:33 公開日:2024-02-29
# 逆場イジング・ハミルトニアンを用いた量子アニール法による普遍量子計算

Universal quantum computation using quantum annealing with the transverse-field Ising Hamiltonian ( http://arxiv.org/abs/2402.19114v1 )

ライセンス: Link先を確認
Takashi Imoto, Yuki Susa, Ryoji Miyazaki, Tadashi Kadowaki, Yuichiro Matsuzaki(参考訳) 量子計算は有望な新興技術であり、量子力学の原理を利用することで、特定の問題に対して古典的コンピュータよりも高速な計算を実現することが期待されている。 量子計算には、ゲートベースの量子コンピュータと量子アニールという2つの異なるアーキテクチャがある。 ゲートベースの量子計算では、量子ビットを操作する量子ゲートのシーケンスを実装する。 このアプローチにより、普遍的な量子計算が可能となるが、大規模な統合には大きな実験的課題が生じる。 一方、量子アニーリングでは、基底状態を設定することで最適化問題の解を得ることができる。 d-wave inc. が製造した5000 qubit 程度の横場イジングハミルトニアンを持つ従来の量子アニーリングデバイスは、大規模な統合に比較的適しているが、特定の計算に制限されている。 本稿では,逆場イジング・ハミルトニアンを用いた従来の量子アニールアーキテクチャにおける普遍量子計算の実践的実装法を提案する。 我々の革新的なアプローチはハミルトンの断熱的な変換に依存し、横磁場から強磁性相互作用系へと変化し、基底状態は縮退する。 特に,提案手法はd-waveデバイスと互換性があり,大規模ゲート型量子コンピュータを実現する可能性を開く。 この研究は、従来の量子アニールとゲートベースの量子計算のギャップを埋め、スケーラブルな量子コンピューティングプラットフォームの開発に向けて有望な道筋を提供する。

Quantum computation is a promising emerging technology, and by utilizing the principles of quantum mechanics, it is expected to achieve faster computations than classical computers for specific problems. There are two distinct architectures for quantum computation: gate-based quantum computers and quantum annealing. In gate-based quantum computation, we implement a sequence of quantum gates that manipulate qubits. This approach allows us to perform universal quantum computation, yet they pose significant experimental challenges for large-scale integration. On the other hand, with quantum annealing, the solution of the optimization problem can be obtained by preparing the ground state. Conventional quantum annealing devices with transverse-field Ising Hamiltonian, such as those manufactured by D-Wave Inc., achieving around 5000 qubits, are relatively more amenable to large-scale integration but are limited to specific computations. In this paper, we present a practical method for implementing universal quantum computation within the conventional quantum annealing architecture using the transverse-field Ising Hamiltonian. Our innovative approach relies on an adiabatic transformation of the Hamiltonian, changing from transverse fields to a ferromagnetic interaction regime, where the ground states become degenerate. Notably, our proposal is compatible with D-Wave devices, opening up possibilities for realizing large-scale gate-based quantum computers. This research bridges the gap between conventional quantum annealing and gate-based quantum computation, offering a promising path toward the development of scalable quantum computing platforms.
翻訳日:2024-03-01 14:55:12 公開日:2024-02-29
# 局所構造サンプリングを用いた画像圧縮センシング符号化のためのディープネットワーク

Deep Network for Image Compressed Sensing Coding Using Local Structural Sampling ( http://arxiv.org/abs/2402.19111v1 )

ライセンス: Link先を確認
Wenxue Cui, Xingtao Wang, Xiaopeng Fan, Shaohui Liu, Xinwei Gao, Debin Zhao(参考訳) 既存の画像圧縮センシング(CS)符号化フレームワークは、通常、計測符号化と最適化に基づく画像再構成に基づく逆問題を解決する。 1) ガウスランダム行列(GRM)のような広く使われているランダムサンプリング行列は、通常、低い測定符号効率をもたらす。 2) 最適化に基づく再構成手法は, 計算量が非常に高い。 本稿では,局所構造サンプリング(dubbed cscnet)を用いた,局所構造サンプリング,計測符号化,ラプラシアピラミッド再構成という3つの機能モジュールを含む,cnnベースの画像cs符号化フレームワークを提案する。 提案するフレームワークでは, GRMの代わりに, 局所的な構造的サンプリング行列が最初に開発され, 局所的な知覚的サンプリング戦略により, 測定値間の相関性を高めることができる。 さらに、設計した局所構造サンプリングマトリックスは、トレーニングプロセス中に他の機能モジュールと共同で最適化することができる。 サンプリング後、高い相関の計測結果が生成され、サードパーティ画像コーデックによって最終ビットストリームに符号化される。 最終的に、計測領域から画像領域への目標画像を効率的に回収するラプラシアピラミッド再構成網を提案する。 提案手法は,高速な計算速度を維持しつつ,既存のCS符号化手法よりも優れていることを示す。

Existing image compressed sensing (CS) coding frameworks usually solve an inverse problem based on measurement coding and optimization-based image reconstruction, which still exist the following two challenges: 1) The widely used random sampling matrix, such as the Gaussian Random Matrix (GRM), usually leads to low measurement coding efficiency. 2) The optimization-based reconstruction methods generally maintain a much higher computational complexity. In this paper, we propose a new CNN based image CS coding framework using local structural sampling (dubbed CSCNet) that includes three functional modules: local structural sampling, measurement coding and Laplacian pyramid reconstruction. In the proposed framework, instead of GRM, a new local structural sampling matrix is first developed, which is able to enhance the correlation between the measurements through a local perceptual sampling strategy. Besides, the designed local structural sampling matrix can be jointly optimized with the other functional modules during training process. After sampling, the measurements with high correlations are produced, which are then coded into final bitstreams by the third-party image codec. At last, a Laplacian pyramid reconstruction network is proposed to efficiently recover the target image from the measurement domain to the image domain. Extensive experimental results demonstrate that the proposed scheme outperforms the existing state-of-the-art CS coding methods, while maintaining fast computational speed.
翻訳日:2024-03-01 14:54:49 公開日:2024-02-29
# エネルギー・緊急準備市場におけるエネルギー貯蔵帯の時間的深層強化学習

Temporal-Aware Deep Reinforcement Learning for Energy Storage Bidding in Energy and Contingency Reserve Markets ( http://arxiv.org/abs/2402.19110v1 )

ライセンス: Link先を確認
Jinhao Li, Changlong Wang, Yanru Zhang, Hao Wang(参考訳) バッテリーエネルギー貯蔵システム(bess)は電力市場への参入を通じて、グリッドの信頼性と安全性を高める大きな可能性を秘めている。 bessは、その潜在能力を解き放つために複数の市場に参加し、様々な収益源を求めることが多いが、価格の不確実性に基づく共同市場参加のための効果的なアルゴリズムは、既存の研究において不十分に研究されている。 このギャップを埋めるために,深層強化学習(drl)を活用した新しいbessジョイント入札戦略を開発し,fcas(contingency frequency control ancillary services)市場への入札を行う。 提案手法は,7つの市場における価格変動に効果的に対応するために変圧器を用いた時間的特徴抽出器を利用し,共同市場参加における最善のbess入札戦略をdrlに学習させる。 さらに、従来の「ブラックボックス」DRLモデルとは異なり、我々のアプローチはより解釈可能であり、動的電力市場におけるBESSの時間入札行動に関する貴重な洞察を提供する。 オーストラリア国定電力市場の現実的な市場価格を用いて,本手法を検証する。 その結果、我々の戦略は最適化とDRLベースの戦略の両方を含むベンチマークよりもかなりのマージンで優れていることがわかった。 また, 有効時報入札は, 個別の市場参加と比較して, スポットおよび同時市場における利益を著しく増大させる可能性が示唆された。

The battery energy storage system (BESS) has immense potential for enhancing grid reliability and security through its participation in the electricity market. BESS often seeks various revenue streams by taking part in multiple markets to unlock its full potential, but effective algorithms for joint-market participation under price uncertainties are insufficiently explored in the existing research. To bridge this gap, we develop a novel BESS joint bidding strategy that utilizes deep reinforcement learning (DRL) to bid in the spot and contingency frequency control ancillary services (FCAS) markets. Our approach leverages a transformer-based temporal feature extractor to effectively respond to price fluctuations in seven markets simultaneously and helps DRL learn the best BESS bidding strategy in joint-market participation. Additionally, unlike conventional "black-box" DRL model, our approach is more interpretable and provides valuable insights into the temporal bidding behavior of BESS in the dynamic electricity market. We validate our method using realistic market prices from the Australian National Electricity Market. The results show that our strategy outperforms benchmarks, including both optimization-based and other DRL-based strategies, by substantial margins. Our findings further suggest that effective temporal-aware bidding can significantly increase profits in the spot and contingency FCAS markets compared to individual market participation.
翻訳日:2024-03-01 14:54:27 公開日:2024-02-29
# DeepEraser: ジェネリックテキスト消去のための深層反復コンテキストマイニング

DeepEraser: Deep Iterative Context Mining for Generic Text Eraser ( http://arxiv.org/abs/2402.19108v1 )

ライセンス: Link先を確認
Hao Feng, Wendi Wang, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li(参考訳) 本稿では,ジェネリックテキスト除去に有効なディープネットワークであるDeepEraserを提案する。 deepaserは反復操作によって画像中のテキストを消去するリカレントアーキテクチャを使用している。 我々の考え方は、除去のために指定されたテキスト領域が継続的に監視され、テキストが徐々に減衰し、徹底的でクリーンな消去が保証される、鉛筆文字の消去プロセスに端を発する。 技術的には、各イテレーションでイノベーティブな消去モジュールがデプロイされ、以前の消去の進捗を明示的に集約するだけでなく、ターゲットのテキストを削除するために追加のセマンティックコンテキストをマイニングする。 反復的な改善により、テキスト領域は徐々により適切なコンテンツに置き換えられ、最終的に比較的正確な状態に収束する。 さらに、画像中のすべてのテキストを無差別に削除するのに対して、適応テキスト除去のためのdeeperaserの能力を改善するために、カスタムマスク生成戦略が導入された。 DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされています。 その有効性を検証するために、SCUT-Syn、SCUT-EnsText、Oxford Syntheticテキストデータセットなど、いくつかの一般的なベンチマークで広範な実験が行われた。 定量的および定性的な結果から,DeepEraserの最先端手法に対する効果と,カスタムマスクテキスト除去における強力な一般化能力が示された。 コードと事前訓練されたモデルはhttps://github.com/fh2019ustc/DeepEraserで入手できる。

In this work, we present DeepEraser, an effective deep network for generic text removal. DeepEraser utilizes a recurrent architecture that erases the text in an image via iterative operations. Our idea comes from the process of erasing pencil script, where the text area designated for removal is subject to continuous monitoring and the text is attenuated progressively, ensuring a thorough and clean erasure. Technically, at each iteration, an innovative erasing module is deployed, which not only explicitly aggregates the previous erasing progress but also mines additional semantic context to erase the target text. Through iterative refinements, the text regions are progressively replaced with more appropriate content and finally converge to a relatively accurate status. Furthermore, a custom mask generation strategy is introduced to improve the capability of DeepEraser for adaptive text removal, as opposed to indiscriminately removing all the text in an image. Our DeepEraser is notably compact with only 1.4M parameters and trained in an end-to-end manner. To verify its effectiveness, extensive experiments are conducted on several prevalent benchmarks, including SCUT-Syn, SCUT-EnsText, and Oxford Synthetic text dataset. The quantitative and qualitative results demonstrate the effectiveness of our DeepEraser over the state-of-the-art methods, as well as its strong generalization ability in custom mask text removal. The codes and pre-trained models are available at https://github.com/fh2019ustc/DeepEraser
翻訳日:2024-03-01 14:54:04 公開日:2024-02-29
# CollaFuse: コラボレーション生成AIで限られたリソースとプライバシをナビゲートする

CollaFuse: Navigating Limited Resources and Privacy in Collaborative Generative AI ( http://arxiv.org/abs/2402.19105v1 )

ライセンス: Link先を確認
Domenique Zipperling, Simeon Allmendinger, Lukas Struppek, Niklas K\"uhl(参考訳) 生成人工知能の分野では、拡散ベースのモデルは、データ要求とプライバシにおける社会技術システムの課題を示す。 フェデレーション学習のような従来のアプローチは学習プロセスを分散させるが、個々のクライアント、特に制約のあるリソース(エッジデバイスなど)に負荷をかける。 これらの課題に対応するために、スプリットラーニングに触発された新しいフレームワークCollaFuseを紹介します。 collafuseは効率良く協調的に拡散確率モデルをデノージングし、共有サーバのトレーニングと推論を可能にし、クライアントの計算負荷を軽減する。 これは、計算コストのかかるプロセスを共有サーバにアウトソーシングしながら、各クライアントでローカルにデータと計算コストの低いGPUプロセスを保持することで実現される。 CollaFuseは医療のコンテキストで実証され、機密情報共有の必要性を著しく低減することでプライバシーを高める。 これらの能力は、エッジコンピューティングソリューションの設計、ヘルスケア研究、自動運転など、さまざまなアプリケーション領域に影響を与える可能性を秘めている。 基本的に、我々の研究は分散機械学習を推進し、協調的なGenAIネットワークの未来を形作る。

In the landscape of generative artificial intelligence, diffusion-based models present challenges for socio-technical systems in data requirements and privacy. Traditional approaches like federated learning distribute the learning process but strain individual clients, especially with constrained resources (e.g., edge devices). In response to these challenges, we introduce CollaFuse, a novel framework inspired by split learning. Tailored for efficient and collaborative use of denoising diffusion probabilistic models, CollaFuse enables shared server training and inference, alleviating client computational burdens. This is achieved by retaining data and computationally inexpensive GPU processes locally at each client while outsourcing the computationally expensive processes to the shared server. Demonstrated in a healthcare context, CollaFuse enhances privacy by highly reducing the need for sensitive information sharing. These capabilities hold the potential to impact various application areas, such as the design of edge computing solutions, healthcare research, or autonomous driving. In essence, our work advances distributed machine learning, shaping the future of collaborative GenAI networks.
翻訳日:2024-03-01 14:53:37 公開日:2024-02-29
# ファンデーションを揺さぶるウィスパー:大規模言語モデルにおける虚偽の幻覚の分析と緩和

Whispers that Shake Foundations: Analyzing and Mitigating False Premise Hallucinations in Large Language Models ( http://arxiv.org/abs/2402.19103v1 )

ライセンス: Link先を確認
Hongbang Yuan, Pengfei Cao, Zhuoran Jin, Yubo Chen, Daojian Zeng, Kang Liu, Jun Zhao(参考訳) 大きな言語モデル(LLM)は印象的な能力を示しているが、幻覚の問題を抱えている。 この問題の重要なタイプは偽前提幻覚(false premises hallucination)であり、これはllmが偽前提問題に直面した時に幻覚テキストを生成する現象であると定義している。 本稿では,偽の前提幻覚の包括的分析を行い,その内部動作機構を解明する。注意ヘッドのごく一部(偽の前提頭部と指定する)が知識抽出過程を阻害し,偽の前提幻覚の発生を導く。 本分析に基づき,mi\textbf{T}igating \textbf{H}allucinationsに対して, 偽前提幻覚を緩和するための新規かつ効果的な方法である, \textbf{F}alse premises \textbf{A}ttention head constra\textbf{I}iningを提案する。 モデル推論プロセス中に誤った前提の注意の頭を制約します。 印象的なことに、モデル内の注意点の約1\%$の制約が、モデル性能の約20\%$の顕著な増加をもたらすことを、広範な実験が示している。

Large Language Models (LLMs) have shown impressive capabilities but still suffer from the issue of hallucinations. A significant type of this issue is the false premise hallucination, which we define as the phenomenon when LLMs generate hallucinated text when confronted with false premise questions. In this paper, we perform a comprehensive analysis of the false premise hallucination and elucidate its internal working mechanism: a small subset of attention heads (which we designate as false premise heads) disturb the knowledge extraction process, leading to the occurrence of false premise hallucination. Based on our analysis, we propose \textbf{FAITH} (\textbf{F}alse premise \textbf{A}ttention head constra\textbf{I}ining for mi\textbf{T}igating \textbf{H}allucinations), a novel and effective method to mitigate false premise hallucinations. It constrains the false premise attention heads during the model inference process. Impressively, extensive experiments demonstrate that constraining only approximately $1\%$ of the attention heads in the model yields a notable increase of nearly $20\%$ of model performance.
翻訳日:2024-03-01 14:53:19 公開日:2024-02-29
# flatnas: 分散ロバスト性を求めるニューラルネットワークのフラット性最適化

FlatNAS: optimizing Flatness in Neural Architecture Search for Out-of-Distribution Robustness ( http://arxiv.org/abs/2402.19102v1 )

ライセンス: Link先を確認
Matteo Gambella, Fabrizio Pittorino, and Manuel Roveri(参考訳) neural architecture search(nas)は、ニューラルネットワーク(nn)アーキテクチャの自動定義への道を開き、さまざまなシナリオにおける研究の注目を集め、ソリューションを提供する。 本研究ではFlatNAS(Flat Neural Architecture Search)と呼ばれる新しいNASソリューションを提案する。これは、重量摂動に対するロバスト性に基づく新しいメリットの人物と、Sharpness-Aware Minimization (SAM)による単一NN最適化との相互作用を探索するものである。 FlatNASは、NASプロシージャにおいてNNの損失ランドスケープにおける平坦な領域を体系的に探索する最初の論文であり、その一方で、分布内データ、分布外ロバスト性(OOD)、アーキテクチャにおけるパラメータの数を制限することを共同で最適化している。 主にOODアルゴリズムに焦点を当てた現在の研究とは異なり、FlatNASはNNアーキテクチャがOOD堅牢性に与える影響をうまく評価している。 FlatNASはNAS探索において,分布内データのみを用いることで,性能,OOD一般化,パラメータ数との良好なトレードオフを実現する。 NAS設計モデルのOODロバスト性は、文献における一般的なベンチマークデータセットを用いて、入力データの破損に対するロバスト性に着目して評価される。

Neural Architecture Search (NAS) paves the way for the automatic definition of Neural Network (NN) architectures, attracting increasing research attention and offering solutions in various scenarios. This study introduces a novel NAS solution, called Flat Neural Architecture Search (FlatNAS), which explores the interplay between a novel figure of merit based on robustness to weight perturbations and single NN optimization with Sharpness-Aware Minimization (SAM). FlatNAS is the first work in the literature to systematically explore flat regions in the loss landscape of NNs in a NAS procedure, while jointly optimizing their performance on in-distribution data, their out-of-distribution (OOD) robustness, and constraining the number of parameters in their architecture. Differently from current studies primarily concentrating on OOD algorithms, FlatNAS successfully evaluates the impact of NN architectures on OOD robustness, a crucial aspect in real-world applications of machine and deep learning. FlatNAS achieves a good trade-off between performance, OOD generalization, and the number of parameters, by using only in-distribution data in the NAS exploration. The OOD robustness of the NAS-designed models is evaluated by focusing on robustness to input data corruptions, using popular benchmark datasets in the literature.
翻訳日:2024-03-01 14:52:53 公開日:2024-02-29
# マルチエンティティ・クロスドメイン・レコメンデーションのための効果的な2段階知識伝達

Effective Two-Stage Knowledge Transfer for Multi-Entity Cross-Domain Recommendation ( http://arxiv.org/abs/2402.19101v1 )

ライセンス: Link先を確認
Jianyu Guan, Zongming Yin, Tianyi Zhang, Leihui Chen, Yin Zhang, Fei Huang, Jufeng Chen, Shuguang Han(参考訳) 近年、eコマースプラットフォーム上のレコメンデーションコンテンツはますます豊かになってきており、単一のユーザーフィードには商品の販売、ショートビデオ、コンテンツ投稿など複数のエンティティが含まれる可能性がある。 マルチエンティティレコメンデーション問題に対処するために、直感的な解決策は、共同トレーニングに共有ネットワークベースのアーキテクチャを採用することである。 そのアイデアは抽出された知識をあるタイプのエンティティ(ソースエンティティ)から別のエンティティ(ターゲットエンティティ)に転送することです。 However, different from the conventional same-entity cross-domain recommendation, multi-entity knowledge transfer encounters several important issues: (1) data distributions of the source entity and target entity are naturally different, making the shared-network-based joint training susceptible to the negative transfer issue, (2) more importantly, the corresponding feature schema of each entity is not exactly aligned (e.g., price is an essential feature for selling product while missing for content posts), making the existing methods no longer appropriate. 最近の研究者は、事前学習と微調整のパラダイムも実験している。 繰り返しますが、同じエンティティタイプと機能システムでのみシナリオを検討するため、このケースでは不適切です。 そこで我々は,MKTと呼ばれる,事前学習および微調整に基づく多言語知識伝達フレームワークを設計する。 MKTはマルチエンタリティ事前学習モジュールを使用して、異なるエンティティ間で伝達可能な知識を抽出する。 特に、機能アライメントモジュールが最初に適用され、異なる機能スキーマをスケールおよびアライメントする。 その後、共通知識とエンティティ固有の知識を抽出するために、いくつかの知識抽出器が使用される。 最後に、抽出された共通知識を対象エンティティモデルのトレーニングに採用する。 大規模なオフラインおよびオンライン実験を通じて、複数のState-Of-The-Art法よりもMKTの方が優れていることを示した。

In recent years, the recommendation content on e-commerce platforms has become increasingly rich -- a single user feed may contain multiple entities, such as selling products, short videos, and content posts. To deal with the multi-entity recommendation problem, an intuitive solution is to adopt the shared-network-based architecture for joint training. The idea is to transfer the extracted knowledge from one type of entity (source entity) to another (target entity). However, different from the conventional same-entity cross-domain recommendation, multi-entity knowledge transfer encounters several important issues: (1) data distributions of the source entity and target entity are naturally different, making the shared-network-based joint training susceptible to the negative transfer issue, (2) more importantly, the corresponding feature schema of each entity is not exactly aligned (e.g., price is an essential feature for selling product while missing for content posts), making the existing methods no longer appropriate. Recent researchers have also experimented with the pre-training and fine-tuning paradigm. Again, they only consider the scenarios with the same entity type and feature systems, which is inappropriate in our case. To this end, we design a pre-training & fine-tuning based Multi-entity Knowledge Transfer framework called MKT. MKT utilizes a multi-entity pre-training module to extract transferable knowledge across different entities. In particular, a feature alignment module is first applied to scale and align different feature schemas. Afterward, a couple of knowledge extractors are employed to extract the common and entity-specific knowledge. In the end, the extracted common knowledge is adopted for target entity model training. Through extensive offline and online experiments, we demonstrated the superiority of MKT over multiple State-Of-The-Art methods.
翻訳日:2024-03-01 14:52:28 公開日:2024-02-29
# ソフトウェアアーキテクチャ設計におけるスプレッドの評価に向けて

Towards Assessing Spread in Sets of Software Architecture Designs ( http://arxiv.org/abs/2402.19171v1 )

ライセンス: Link先を確認
Vittorio Cortellessa, J. Andres Diaz-Pace, Daniele Di Pompeo, Michele Tucci(参考訳) 最近、いくつかの手法が最適化技術を用いてアーキテクチャ設計の代替品を生成するために自動化技術を使用している。 これらのアプローチは、パフォーマンス、信頼性、保守性といった品質面での初期アーキテクチャを改善することを目指している。 この文脈では、各最適化実験は通常、特定の設定で特徴づけられる異なるアーキテクチャの代替案を生成する。 結果として、デザイナはそのようなセットを比較して、問題に対するより良いソリューションセットにつながる設定を特定するタスクを残されます。 解集合の品質を評価するために、多目的最適化は一般に品質指標に依存する。 これらのうち、最大拡散に対する品質指標は、生成する代替品の多様性を推定し、ソリューション空間のどの程度が検討されているかを測定する。 しかし、最大拡散指標は目的空間上でのみ計算され、アーキテクチャ空間からのアーキテクチャ情報(例えば、コンポーネント構造、設計決定)は考慮されない。 本稿では,建築的特徴を考慮し,代替品の多様性を評価する広範化のための品質指標を提案する。 拡散を計算するために、最適化時に生成される方法に応じて、代替品間の距離の概念に依存する。 文献から得られたデータセットにアーキテクチャ品質指標をどのように適用できるかを示す。

Several approaches have recently used automated techniques to generate architecture design alternatives by means of optimization techniques. These approaches aim at improving an initial architecture with respect to quality aspects, such as performance, reliability, or maintainability. In this context, each optimization experiment usually produces a different set of architecture alternatives that is characterized by specific settings. As a consequence, the designer is left with the task of comparing such sets to identify the settings that lead to better solution sets for the problem. To assess the quality of solution sets, multi-objective optimization commonly relies on quality indicators. Among these, the quality indicator for the maximum spread estimates the diversity of the generated alternatives, providing a measure of how much of the solution space has been explored. However, the maximum spread indicator is computed only on the objective space and does not consider architectural information (e.g., components structure, design decisions) from the architectural space. In this paper, we propose a quality indicator for the spread that assesses the diversity of alternatives by taking into account architectural features. To compute the spread, we rely on a notion of distance between alternatives according to the way they were generated during the optimization. We demonstrate how our architectural quality indicator can be applied to a dataset from the literature.
翻訳日:2024-03-01 14:47:28 公開日:2024-02-29
# 長文エンコーダを用いたルーマニアの法的判断予測の改善

Improving Legal Judgement Prediction in Romanian with Long Text Encoders ( http://arxiv.org/abs/2402.19170v1 )

ライセンス: Link先を確認
Mihai Masala, Traian Rebedea and Horia Velicu(参考訳) 近年、自然言語処理(nlp)の分野全体が、様々なタスクでほぼ人間的なパフォーマンスを達成する素晴らしい新しい成果を享受している。 合法的なnlpドメインもこのプロセスの一部であり、印象的な成長を遂げている。 しかし、汎用モデルは法域では容易には適用できない。 ドメインの性質(例えば、専門用語、長い文書)のため、法的なNLPには特定のモデルや方法がしばしば必要である。 本研究は,LJP(Lawal Judgment Prediction)と呼ばれる,訴訟の最終判決を予測するための専門モデルと一般モデルの両方について検討する。 我々は特に,トランスフォーマーモデルからシーケンス長まで拡張する手法に注目し,法的なコーパスに存在する長い文書をよりよく理解する。 ルーマニアの4つのLJPデータセットに関する大規模な実験は、かなり異なるサイズと文書長を持つ2つの情報源から生まれたものであり、特殊なモデルと長文を扱うことが優れたパフォーマンスに不可欠であることを示している。

In recent years,the entire field of Natural Language Processing (NLP) has enjoyed amazing novel results achieving almost human-like performance on a variety of tasks. Legal NLP domain has also been part of this process, as it has seen an impressive growth. However, general-purpose models are not readily applicable for legal domain. Due to the nature of the domain (e.g. specialized vocabulary, long documents) specific models and methods are often needed for Legal NLP. In this work we investigate both specialized and general models for predicting the final ruling of a legal case, task known as Legal Judgment Prediction (LJP). We particularly focus on methods to extend to sequence length of Transformer-based models to better understand the long documents present in legal corpora. Extensive experiments on 4 LJP datasets in Romanian, originating from 2 sources with significantly different sizes and document lengths, show that specialized models and handling long texts are critical for a good performance.
翻訳日:2024-03-01 14:47:09 公開日:2024-02-29
# 目立たない言語をオンザフライで教える

Teaching Large Language Models an Unseen Language on the Fly ( http://arxiv.org/abs/2402.19167v1 )

ライセンス: Link先を確認
Chen Zhang, Xiao Liu, Jiuheng Lin, Yansong Feng(参考訳) 既存の大規模言語モデルは、多くの低リソース言語、特に効果的なパラメータ更新のための最小限のトレーニングデータがある非常に低リソース言語をサポートするのに苦労している。 そこで本研究では,LLMがプロンプトによってのみ新しい言語を学習できるかどうかを考察する。 この問題を研究するために、現在LLMがサポートしていない言語であるZhuangの研究スイートを収集する。 In-context Learning を用いて LLM を未知の言語に適用するためのフレームワークである \textsc{DiPMT++} を紹介する。 辞書と5Kパラレル文のみを用いることで,GPT-4が0から16BLEUに向上し,中国語と中国語の翻訳では32BLEUを達成した。 さらに, 言語多様性の保全に寄与しうる, 完全に見えない言語への翻訳を支援するための, この枠組みの実用性を実証する。

Existing large language models struggle to support numerous low-resource languages, particularly the extremely low-resource ones where there is minimal training data available for effective parameter updating. We thus investigate whether LLMs can learn a new language on the fly solely through prompting. To study this question, we collect a research suite for Zhuang, a language supported by no LLMs currently. We introduce \textsc{DiPMT++}, a framework for adapting LLMs to unseen languages by in-context learning. Using a dictionary and only 5K parallel sentences, \textsc{DiPMT++} significantly enhances the performance of GPT-4 from 0 to 16 BLEU for Chinese-to-Zhuang translation and achieves 32 BLEU for Zhuang-to-Chinese translation. Furthermore, we demonstrate the practical utility of this framework in aiding humans to translate completely unseen languages, which could contribute to the preservation of linguistic diversity.
翻訳日:2024-03-01 14:46:53 公開日:2024-02-29
# FedStruct: 相互接続グラフによる分離学習

FedStruct: Federated Decoupled Learning over Interconnected Graphs ( http://arxiv.org/abs/2402.19163v1 )

ライセンス: Link先を確認
Javad Aliakbari and Johan \"Ostman and Alexandre Graell i Amat(参考訳) 複数のクライアントに分散したグラフ構造化データに対するフェデレーション学習の課題に対処する。 具体的には、異なるクライアント間の相互接続が重要な役割を果たす相互接続サブグラフの一般的なシナリオに焦点を当てる。 我々は、このシナリオのための新しいフレームワーク、FedStructを紹介します。 プライバシを保護するために、既存の方法とは異なり、feedstructは機密性の高いノード機能やクライアント間の埋め込みの共有や生成を不要にする。 その代わり、明示的なグローバルグラフ構造情報を利用してノード間の依存関係をキャプチャする。 本研究では,半教師付きノード分類のための6つのデータセット上で実施した実験結果からfeedstructの有効性を検証し,データ分割手法の相違,ラベル可用性の変動,クライアント数など,さまざまなシナリオにおける集中型アプローチに近いパフォーマンスを示す。

We address the challenge of federated learning on graph-structured data distributed across multiple clients. Specifically, we focus on the prevalent scenario of interconnected subgraphs, where inter-connections between different clients play a critical role. We present a novel framework for this scenario, named FedStruct, that harnesses deep structural dependencies. To uphold privacy, unlike existing methods, FedStruct eliminates the necessity of sharing or generating sensitive node features or embeddings among clients. Instead, it leverages explicit global graph structure information to capture inter-node dependencies. We validate the effectiveness of FedStruct through experimental results conducted on six datasets for semi-supervised node classification, showcasing performance close to the centralized approach across various scenarios, including different data partitioning methods, varying levels of label availability, and number of clients.
翻訳日:2024-03-01 14:46:37 公開日:2024-02-29
# MemoNav: ビジュアルナビゲーションのためのワーキングメモリモデル

MemoNav: Working Memory Model for Visual Navigation ( http://arxiv.org/abs/2402.19161v1 )

ライセンス: Link先を確認
Hongxin Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang(参考訳) 画像ナビゲーションは、エージェントが未知の環境で画像が示すゴールまでナビゲートする必要がある困難なタスクである。 多様なシーン記憶を利用する既存の方法は、ゴール関連率を考慮せずにすべての歴史的観察を意思決定に利用するため、非効率な探索に苦しむ。 この制限に対処するために,動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,画像ゴールナビゲーションの新しいメモリモデルであるMemoNavを提案する。 具体的には,3種類のナビゲーションメモリを用いる。 地図上のノード機能は短期記憶(STM)に格納され、これらの機能は動的に更新される。 忘れるモジュールは、効率を上げるために情報的STM分数を保持する。 また,STM機能を段階的に集約することで,グローバルなシーン表現を学習するための長期記憶(LTM)も導入する。 その後、グラフアテンションモジュールは、保持されたSTMとLTMを符号化して、効率的なナビゲーションに必要なシーン特徴を含むワーキングメモリ(WM)を生成する。 これら3つのメモリタイプ間の相乗効果により、トポロジマップ内の目標関連シーンの特徴を学習し活用することにより、ナビゲーション性能が向上する。 マルチゴールタスクにおける評価の結果,gibsonおよびmatterport3dシーンの難易度レベルにおいて,memonavが従来の手法を大きく上回っていることが示された。 質的な結果は、MemoNavがより効率的なルートを計画していることを示している。

Image-goal navigation is a challenging task that requires an agent to navigate to a goal indicated by an image in unfamiliar environments. Existing methods utilizing diverse scene memories suffer from inefficient exploration since they use all historical observations for decision-making without considering the goal-relevant fraction. To address this limitation, we present MemoNav, a novel memory model for image-goal navigation, which utilizes a working memory-inspired pipeline to improve navigation performance. Specifically, we employ three types of navigation memory. The node features on a map are stored in the short-term memory (STM), as these features are dynamically updated. A forgetting module then retains the informative STM fraction to increase efficiency. We also introduce long-term memory (LTM) to learn global scene representations by progressively aggregating STM features. Subsequently, a graph attention module encodes the retained STM and the LTM to generate working memory (WM) which contains the scene features essential for efficient navigation. The synergy among these three memory types boosts navigation performance by enabling the agent to learn and leverage goal-relevant scene features within a topological map. Our evaluation on multi-goal tasks demonstrates that MemoNav significantly outperforms previous methods across all difficulty levels in both Gibson and Matterport3D scenes. Qualitative results further illustrate that MemoNav plans more efficient routes.
翻訳日:2024-03-01 14:46:24 公開日:2024-02-29
# 順序保存機構を用いた効果的なメッセージ隠蔽

Effective Message Hiding with Order-Preserving Mechanisms ( http://arxiv.org/abs/2402.19160v1 )

ライセンス: Link先を確認
Gao Yu, Qiu Xuchong, Ye Zihan(参考訳) シークレットメッセージビットをカバーイメージ内に隠蔽する技術であるメッセージ隠蔽は、メッセージキャパシティ、リカバリ精度、非受容性の間の最適なバランスを達成することを目的としている。 畳み込みニューラルネットワークは、メッセージキャパシティとインセプティビリティを著しく改善しているが、高い回復精度を達成することは依然として困難である。 この課題は、畳み込み操作がメッセージビットのシーケンシャルな順序を維持するのに苦労し、これらの2つのモードの相違に効果的に対処するためである。 そこで我々は,ビット順序を保存し,モダリティ間のグローバル融合を可能にする革新的なmlpベースのフレームワークであるstegaformerを提案する。 具体的には、StegaFormerには、順序保存メッセージエンコーダ(OPME)、デコーダ(OPMD)、グローバルメッセージイメージフュージョン(GMIF)の3つの重要なコンポーネントが含まれている。 OPMEとOPMDは、全シーケンスを等長セグメントに分割し、エンコーディングと復号中にシーケンシャル情報を組み込むことによって、メッセージビットの順序を保つことを目的としている。 一方、GMIFは2つの非相関なモダリティから機能を効果的に融合させるために、相互モダリティ融合機構を採用している。 cocoとdiv2kデータセットの実験結果は、stegaformerがリカバリ精度、メッセージ容量、インセプタビリティの観点から、既存の最先端メソッドを上回っていることを示している。 私たちはコードを公開します。

Message hiding, a technique that conceals secret message bits within a cover image, aims to achieve an optimal balance among message capacity, recovery accuracy, and imperceptibility. While convolutional neural networks have notably improved message capacity and imperceptibility, achieving high recovery accuracy remains challenging. This challenge arises because convolutional operations struggle to preserve the sequential order of message bits and effectively address the discrepancy between these two modalities. To address this, we propose StegaFormer, an innovative MLP-based framework designed to preserve bit order and enable global fusion between modalities. Specifically, StegaFormer incorporates three crucial components: Order-Preserving Message Encoder (OPME), Decoder (OPMD) and Global Message-Image Fusion (GMIF). OPME and OPMD aim to preserve the order of message bits by segmenting the entire sequence into equal-length segments and incorporating sequential information during encoding and decoding. Meanwhile, GMIF employs a cross-modality fusion mechanism to effectively fuse the features from the two uncorrelated modalities. Experimental results on the COCO and DIV2K datasets demonstrate that StegaFormer surpasses existing state-of-the-art methods in terms of recovery accuracy, message capacity, and imperceptibility. We will make our code publicly available.
翻訳日:2024-03-01 14:45:59 公開日:2024-02-29
# 軌道整合蒸留

Trajectory Consistency Distillation ( http://arxiv.org/abs/2402.19159v1 )

ライセンス: Link先を確認
Jianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham(参考訳) LCM(Latent Consistency Model)は、一貫性モデルを潜在空間に拡張し、ガイドされた一貫性蒸留技術を活用して、テキストと画像の合成を高速化する。 しかし,LCMは画像の明瞭度と細かな精度の両方で画像を生成するのに苦労している。 この制限に対処するため、私たちは最初、根本原因を掘り下げて解明しました。 調査では, 主な問題は3つの領域の誤りに起因すると確認した。 その結果,軌道整合性関数と戦略的確率的サンプリングを含む軌道整合性蒸留(TCD)を導入した。 軌道整合性関数は、自己矛盾境界条件の範囲を広げ、tcdを確率フローodeの軌道全体を正確に追跡する能力で内挿することにより蒸留誤差を減少させる。 さらに、戦略的確率的サンプリングは、多段階一貫性サンプリングに固有の累積誤差を回避するために特別に設計されている。 実験により、TDは低NFEにおける画像品質を著しく向上するだけでなく、高NFEにおける教師モデルと比較してより詳細な結果が得られることが示された。

Latent Consistency Model (LCM) extends the Consistency Model to the latent space and leverages the guided consistency distillation technique to achieve impressive performance in accelerating text-to-image synthesis. However, we observed that LCM struggles to generate images with both clarity and detailed intricacy. To address this limitation, we initially delve into and elucidate the underlying causes. Our investigation identifies that the primary issue stems from errors in three distinct areas. Consequently, we introduce Trajectory Consistency Distillation (TCD), which encompasses trajectory consistency function and strategic stochastic sampling. The trajectory consistency function diminishes the distillation errors by broadening the scope of the self-consistency boundary condition and endowing the TCD with the ability to accurately trace the entire trajectory of the Probability Flow ODE. Additionally, strategic stochastic sampling is specifically designed to circumvent the accumulated errors inherent in multi-step consistency sampling, which is meticulously tailored to complement the TCD model. Experiments demonstrate that TCD not only significantly enhances image quality at low NFEs but also yields more detailed results compared to the teacher model at high NFEs.
翻訳日:2024-03-01 14:45:33 公開日:2024-02-29
# 言語モデルを超えて:バイトモデルはデジタルワールドシミュレータである

Beyond Language Models: Byte Models are Digital World Simulators ( http://arxiv.org/abs/2402.19155v1 )

ライセンス: Link先を確認
Shangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li, Maosong Sun(参考訳) 従来のディープラーニングは、デジタル世界の基本的な単位であるバイトを見落としており、すべての情報や操作がバイナリ形式でエンコードされ、操作される。 自然言語処理における次のトークン予測の成功に触発されて,デジタル世界をシミュレートする次のバイト予測モデルbGPTを導入する。 bGPTは、テキスト、オーディオ、画像を含む様々なモダリティの特殊モデルにマッチし、アルゴリズムやハードウェアの振る舞いを予測、シミュレーション、診断するための新しい可能性を提供する。 ABC表記をMIDI形式に変換する際に、1バイトあたり0.0011ビットの誤り率を達成することで、シンボリックな音楽データを変換する過程をほぼ完璧に再現した。 さらに、bGPTはCPUの動作をシミュレートする異常な能力を示し、精度は99.99%を超えている。 次のバイト予測を活用することで、bgptのようなモデルは巨大なバイナリデータから直接学習し、デジタル世界の複雑なパターンを効果的にシミュレートすることができる。

Traditional deep learning often overlooks bytes, the basic units of the digital world, where all forms of information and operations are encoded and manipulated in binary format. Inspired by the success of next token prediction in natural language processing, we introduce bGPT, a model with next byte prediction to simulate the digital world. bGPT matches specialized models in performance across various modalities, including text, audio, and images, and offers new possibilities for predicting, simulating, and diagnosing algorithm or hardware behaviour. It has almost flawlessly replicated the process of converting symbolic music data, achieving a low error rate of 0.0011 bits per byte in converting ABC notation to MIDI format. In addition, bGPT demonstrates exceptional capabilities in simulating CPU behaviour, with an accuracy exceeding 99.99% in executing various operations. Leveraging next byte prediction, models like bGPT can directly learn from vast binary data, effectively simulating the intricate patterns of the digital world.
翻訳日:2024-03-01 14:45:14 公開日:2024-02-29
# 大規模マルチモーダルモデルのタイポグラフィー攻撃はよりインフォームティブなプロンプトによって軽減される

Typographic Attacks in Large Multimodal Models Can be Alleviated by More Informative Prompts ( http://arxiv.org/abs/2402.19150v1 )

ライセンス: Link先を確認
Hao Cheng, Erjia Xiao, Renjing Xu(参考訳) 大規模マルチモーダルモデル(lmms)は、事前訓練されたビジョン言語モデル(vlms)と大規模言語モデル(llm)に依存しており、視覚と言語の共同分野における様々なマルチモーダルタスクにおいて驚くべき創発的な能力を発揮する。 しかし、VLMの破壊を示すタイポグラフィー攻撃もLMMのセキュリティ脆弱性として認定されている。 本研究では, まず, タイポグラフィーによるLMMの分散性について検討する。 特に,オブジェクト認識,視覚属性検出,列挙,算術計算,常識推論など,様々なマルチモーダルサブタスク間の注意散逸性を評価するためのタイポグラフィーデータセットを提案する。 さらに,タイポスの性能に及ぼすタイポグラフィーパターンの影響について検討するため,タイポスのフォントサイズ,色,不透明度,空間的位置決めなど,様々なタイポグラフィー因子のチューニングの効果についても検討した。 視覚エンコーダからの埋め込みには視覚内容と画像のタイポスを区別するのに十分な情報が含まれていることが示唆された。 このような現象に触発されて,タイポライド画像におけるクリップのゼロショット分類の性能が,画像にマッチする情報テキストを提供することで著しく向上することを示す。 さらに,LMMが視覚コンテンツとタイポスを区別するために,より情報的なプロンプトを活用できることを示す。 最後に,タイポグラフィーの効果を効果的に軽減できる簡易情報拡張手法を提案する。

Large Multimodal Models (LMMs) rely on pre-trained Vision Language Models (VLMs) and Large Language Models (LLMs) to perform amazing emergent abilities on various multimodal tasks in the joint space of vision and language. However, the Typographic Attack, which shows disruption to VLMs, has also been certified as a security vulnerability to LMMs. In this work, we first comprehensively investigate the distractibility of LMMs by typography. In particular, we introduce the Typographic Dataset designed to evaluate distractibility across various multi-modal subtasks, such as object recognition, visual attributes detection, enumeration, arithmetic computation, and commonsense reasoning. To further study the effect of typographic patterns on performance, we also scrutinize the effect of tuning various typographic factors, encompassing font size, color, opacity, and spatial positioning of typos. We discover that LMMs can partially distinguish visual contents and typos when confronting typographic attacks, which suggests that embeddings from vision encoders contain enough information to distinguish visual contents and typos in images. Inspired by such phenomena, we demonstrate that CLIP's performance of zero-shot classification on typo-ridden images can be significantly improved by providing more informative texts to match images. Furthermore, we also prove that LMMs can utilize more informative prompts to leverage information in embeddings to differentiate between visual content and typos. Finally, we propose a prompt information enhancement method that can effectively mitigate the effects of typography.
翻訳日:2024-03-01 14:44:54 公開日:2024-02-29
# 文脈からの量子非局所性の実験的検討

Experimental Test of Quantum Nonlocality from Contextuality ( http://arxiv.org/abs/2402.19149v1 )

ライセンス: Link先を確認
Jianqi Sheng, Dongkai Zhang, Lixiang Chen(参考訳) 量子力学の拡張可能性、ベルの不等式違反、コチェン=スペクターの定理に対する2つの強力な議論があるが、この2つの関係はいまだに混乱している。 カベロ (Phys. Lett. 127, 070401 (2021)) の独特な戦略に従うと、ベルの不等式は状態に依存しない文脈集合によって破られる。 しかし、そのようなアイデアの実験的実現は、高次元の絡み合いを必要とするため困難である。 軌道角運動量は無限の状態空間を提供し、有効次元の数は必要に応じて容易に調整できる。 両部フォトニック系における軌道角運動量エンタングルメントを用いて,ベルの不等式に基づく非局所性の実験を行った。 我々の実験は、非局所性を生成する新しい方法を示すだけでなく、量子計算やセキュアな通信タスクに不可欠な2つの基本量子資源である文脈性と非局所性も結合する。

There are two powerful arguments against the possibility of extending quantum mechanics, the violation of Bell inequalities and the Kochen-Specker theorem, but the connection between the two remains confused. Following the distinctive strategy proposed by Cabello [Phys. Rev. Lett. 127, 070401 (2021)], Bell inequalities can be violated by state-independent contextuality sets. However, the experimental realization of such ideas is challenging as it requires high-dimensional entanglement. Orbital angular momentum provides an unlimited state space and the number of effective dimensions can be readily tailored as required. We performed an experimental test of non-locality based on Bell inequalities from contextuality, using orbital angular momentum entanglement in a bipartite photonic system. Our experiment not only shows a new way to produce non-locality but also connects contextuality and non-locality, two fundamental quantum resources that are critical for quantum computation and secure communication tasks.
翻訳日:2024-03-01 14:44:25 公開日:2024-02-29
# SAM誘導による異常検出用2ストリーム軽量モデル

A SAM-guided Two-stream Lightweight Model for Anomaly Detection ( http://arxiv.org/abs/2402.19145v1 )

ライセンス: Link先を確認
Chenghao Li, Lei Qi, Xin Geng(参考訳) 産業的な異常検出では、実世界のアプリケーションではモデル効率とモバイルフレンドリが主要な関心事となっている。 同時に、Segment Anything(SAM)の印象的な一般化能力は広く学術的な注目を集めており、目に見えない異常や多様な現実世界のパターンをローカライズするのに理想的な選択肢となっている。 本稿では,これら2つの重要な要因を考慮し,SAM誘導型非教師付き異常検出用2ストリーム軽量モデル(STLM)を提案する。 我々はSAMの知識によってガイドされた2ストリームの軽量モジュールである2つの軽量画像エンコーダを採用している。 具体的には、一方のストリームは正常領域と異常領域の両方で識別的および一般的な特徴表現を生成するように訓練され、他方のストリームは同じ画像を異常なく再構成し、異常領域に直面した際の2ストリーム表現の識別を効果的に強化する。 さらに,共有マスクデコーダと特徴集約モジュールを用いて異常マップを生成する。 MVTec ADベンチマークの結果,約16Mのパラメータを持ち,20msの推論時間を実現したSTLMは,高精細度AUCでは98.26%,PROでは94.92%の精度で最先端の手法と競合することがわかった。 さらに、より難しいデータセット、例えばVisAやDAGMについて実験を行い、STLMの有効性と一般化性を示す。

In industrial anomaly detection, model efficiency and mobile-friendliness become the primary concerns in real-world applications. Simultaneously, the impressive generalization capabilities of Segment Anything (SAM) have garnered broad academic attention, making it an ideal choice for localizing unseen anomalies and diverse real-world patterns. In this paper, considering these two critical factors, we propose a SAM-guided Two-stream Lightweight Model for unsupervised anomaly detection (STLM) that not only aligns with the two practical application requirements but also harnesses the robust generalization capabilities of SAM. We employ two lightweight image encoders, i.e., our two-stream lightweight module, guided by SAM's knowledge. To be specific, one stream is trained to generate discriminative and general feature representations in both normal and anomalous regions, while the other stream reconstructs the same images without anomalies, which effectively enhances the differentiation of two-stream representations when facing anomalous regions. Furthermore, we employ a shared mask decoder and a feature aggregation module to generate anomaly maps. Our experiments conducted on MVTec AD benchmark show that STLM, with about 16M parameters and achieving an inference time in 20ms, competes effectively with state-of-the-art methods in terms of performance, 98.26% on pixel-level AUC and 94.92% on PRO. We further experiment on more difficult datasets, e.g., VisA and DAGM, to demonstrate the effectiveness and generalizability of STLM.
翻訳日:2024-03-01 14:44:07 公開日:2024-02-29
# シングルビュー画像による弱教師付き単眼3次元検出

Weakly Supervised Monocular 3D Detection with a Single-View Image ( http://arxiv.org/abs/2402.19144v1 )

ライセンス: Link先を確認
Xueying Jiang, Sheng Jin, Lewei Lu, Xiaoqin Zhang, Shijian Lu(参考訳) モノキュラー3d検出(m3d)は、通常3d検出ボックスの労働集約的なアノテーションを伴うシングルビュー画像からの正確な3dオブジェクトのローカライズを目的としている。 弱い教師付きM3Dは、多くの既存の2Dアノテーションを活用することで3Dアノテーションプロセスを妨げるために最近研究されているが、LiDARポイントクラウドやマルチビューイメージのような追加のトレーニングデータを必要とすることが多く、様々なアプリケーションで適用性と使用性を著しく低下させる。 深度情報を利用して,3dアノテーションや他のトレーニングデータなしで,単一のビューイメージでm3dを実現する,弱い教師付き単眼型3d検出フレームワークskd-wm3dを提案する。 SKD-WM3Dの鍵となる設計の一つが自己知識蒸留フレームワークで、深度情報を融合することで画像特徴を3D的な表現に変換する。 さらに, 知識獲得と知識伝達を容易にする, 不確実性を考慮した蒸留損失と勾配目標移動変調戦略を設計する。 大規模な実験により、SKD-WM3Dは最先端技術を超え、完全に教師された多くの手法と同等であることが示された。

Monocular 3D detection (M3D) aims for precise 3D object localization from a single-view image which usually involves labor-intensive annotation of 3D detection boxes. Weakly supervised M3D has recently been studied to obviate the 3D annotation process by leveraging many existing 2D annotations, but it often requires extra training data such as LiDAR point clouds or multi-view images which greatly degrades its applicability and usability in various applications. We propose SKD-WM3D, a weakly supervised monocular 3D detection framework that exploits depth information to achieve M3D with a single-view image exclusively without any 3D annotations or other training data. One key design in SKD-WM3D is a self-knowledge distillation framework, which transforms image features into 3D-like representations by fusing depth information and effectively mitigates the inherent depth ambiguity in monocular scenarios with little computational overhead in inference. In addition, we design an uncertainty-aware distillation loss and a gradient-targeted transfer modulation strategy which facilitate knowledge acquisition and knowledge transfer, respectively. Extensive experiments show that SKD-WM3D surpasses the state-of-the-art clearly and is even on par with many fully supervised methods.
翻訳日:2024-03-01 14:43:36 公開日:2024-02-29
# 開量子系に対する再帰定理

Recurrence Theorem for Open Quantum Systems ( http://arxiv.org/abs/2402.19143v1 )

ライセンス: Link先を確認
Zhihang Liu and Chao Zheng(参考訳) 量子 (Poincar\'e) 再帰定理は閉量子(古典)系で知られている。 オープンシステムでは再発は起こり得るか? 非ヘルミティアン(nh)記述による開量子システムに対する再帰定理を提供する。 PT対称性と擬エルミート対称性は、NH開量子系の繰り返しを保護し、対称性の破れに失敗する。 我々の定理をPT対称系に適用すると、なぜPT非破壊相で量子再帰が起こるのかが明らかになる。 この定理を反pt対称系に適用すると矛盾が生じ、それを解決し、区別可能性とフォン・ノイマンエントロピーは一般にnh系における情報ダイナミクスを記述するのに有効ではないことを明らかにする。 NHシステムの情報力学を研究するための新しい手法を開発した。 PT-breakken相の反PT対称系では、全体的な減少(増加)を伴う振動と周期的な振動の3つの情報力学パターンが存在する。 周期振動(情報完全検索)は、NHハミルトニアンのスペクトルが実数である場合にのみ起こる。 3つのパターンは、非ユニタリ進化状態の正規化が情報の損失につながるため、識別可能性またはフォン・ノイマンエントロピーを用いて周期的振動に退化する。 結論として,開放系における再帰の背後にある物理的意味を議論し,古典力学における保存的系に限らない再帰定理の方向性を示す。

Quantum (Poincar\'e) recurrence theorem are known for closed quantum (classical) systems. Can recurrence happen in open systems? We provide the recurrence theorem for open quantum systems via non-Hermitian (NH) description. We find that PT symmetry and pseudo-Hermitian symmetry protect recurrence for NH open quantum systems and the recurrence fails with the symmetry breaking. Applying our theorem to PT-symmetric systems, we reveal why quantum recurrence happens in PT-unbroken phase but fails in PT-broken phase, which was misunderstood before. A contradiction emerges when we apply our theorem to anti-PT symmetric systems and we settle it, revealing that distinguishability and von Neumann entropy are generally not effective to describe the information dynamics in NH systems. A new approach is developed to investigate the information dynamics of NH systems. For anti-PT symmetric systems in PT-broken phase, we find there are three information-dynamics patterns: oscillations with an overall decrease (increase) , and periodic oscillations. The periodic oscillations (information complete retrieval) happen only if the spectrum of NH Hamiltonian is real. The three patterns degenerate to the periodic oscillation using distinguishability or von Neumann entropy because normalization of non-unitary evolved states leads to loss of information. We conclude with a discussion of the physical meaning behind the recurrence in open systems and give the direction of recurrence theorem not limited to conservative systems in classical mechanics.
翻訳日:2024-03-01 14:43:13 公開日:2024-02-29
# ProtoP-OD: 原型部品を用いた説明可能な物体検出

ProtoP-OD: Explainable Object Detection with Prototypical Parts ( http://arxiv.org/abs/2402.19142v1 )

ライセンス: Link先を確認
Pavlos Rath-Manakidis, Frederik Strothmann, Tobias Glasmachers, Laurenz Wiskott(参考訳) 検出変圧器の動作の解釈と可視化は、モデルが参加する画像内の位置を強調する傾向にあるが、モデルが注目する「emph{semantics}」についての限られた洞察を与える。 本稿では、原型的局所特徴を構築し、オブジェクト検出に使用するトランスフォーマーの検出拡張を提案する。 これらのカスタム特徴は、原型的部分と呼ばれ、相互排他的であり、モデルの分類と整合するように設計されている。 提案する拡張は、プロトタイプアクティベーションの離散表現を計算するボトルネックモジュールであるprototype neckと、プロトタイプとオブジェクトクラスをマッチングする新しい損失項で構成されている。 この設定はプロトタイプネックの解釈可能な表現につながり、モデルによって知覚される画像内容の視覚的な検査とモデルの信頼性の理解が向上する。 提案手法は性能上のペナルティが限定的であることを実験的に示すとともに,提案手法が提供する説明の質がパフォーマンスペナルティよりも優れていることを示す例を示す。

Interpretation and visualization of the behavior of detection transformers tends to highlight the locations in the image that the model attends to, but it provides limited insight into the \emph{semantics} that the model is focusing on. This paper introduces an extension to detection transformers that constructs prototypical local features and uses them in object detection. These custom features, which we call prototypical parts, are designed to be mutually exclusive and align with the classifications of the model. The proposed extension consists of a bottleneck module, the prototype neck, that computes a discretized representation of prototype activations and a new loss term that matches prototypes to object classes. This setup leads to interpretable representations in the prototype neck, allowing visual inspection of the image content perceived by the model and a better understanding of the model's reliability. We show experimentally that our method incurs only a limited performance penalty, and we provide examples that demonstrate the quality of the explanations provided by our method, which we argue outweighs the performance penalty.
翻訳日:2024-03-01 14:42:50 公開日:2024-02-29
# オートマチックなプロパガンダ検出ツール(動画あり)

Think Fast, Think Slow, Think Critical: Designing an Automated Propaganda Detection Tool ( http://arxiv.org/abs/2402.19135v1 )

ライセンス: Link先を確認
Liudmila Zavolokina, Kilian Sprenkamp, Zoya Katashinskaya, Daniel Gordon Jones, Gerhard Schwabe(参考訳) 今日のデジタル時代には、急激なニュース消費とプロパガンダへの脆弱性の増加が特徴であり、市民の批判的思考を育むことは安定した民主主義にとって不可欠である。 本稿では,Kahnemanの二重システム認知理論に従って,分析的な思考様式を活性化することにより,読者をより重要なニュース消費に向けた新しいプロパガンダ検出ツールであるClarifAIの設計を紹介する。 大規模言語モデルを用いてニュース記事のプロパガンダを検出し、文脈に富んだ説明を提供し、ユーザの理解と批判的思考を強化する。 第1に、clarifaiの設計を提案し、第2に、オンライン実験で、このデザインがニュース読者により批判的な読書を促すことを実証し、第3に、批判的思考を育むための説明の重要性を強調した。 この研究は、デジタルニュースにおけるプロパガンダを緩和するための実用的なツールと有用な設計知識の両方を提供する。

In today's digital age, characterized by rapid news consumption and increasing vulnerability to propaganda, fostering citizens' critical thinking is crucial for stable democracies. This paper introduces the design of ClarifAI, a novel automated propaganda detection tool designed to nudge readers towards more critical news consumption by activating the analytical mode of thinking, following Kahneman's dual-system theory of cognition. Using Large Language Models, ClarifAI detects propaganda in news articles and provides context-rich explanations, enhancing users' understanding and critical thinking. Our contribution is threefold: first, we propose the design of ClarifAI; second, in an online experiment, we demonstrate that this design effectively encourages news readers to engage in more critical reading; and third, we emphasize the value of explanations for fostering critical thinking. The study thus offers both a practical tool and useful design knowledge for mitigating propaganda in digital news.
翻訳日:2024-03-01 14:42:31 公開日:2024-02-29
# cricavpr:視覚位置認識のためのクロスイメージ相関認識表現学習

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition ( http://arxiv.org/abs/2402.19231v1 )

ライセンス: Link先を確認
Feng Lu, Xiangyuan Lan, Lijun Zhang, Dongmei Jiang, Yaowei Wang, Chun Yuan(参考訳) 過去10年間、視覚位置認識(vpr)のほとんどの手法は、ニューラルネットワークを使用して特徴表現を作成してきた。 これらのネットワークは通常、この画像のみを使用して場所画像のグローバルな表現を生成し、横断像のバリエーション(視点や照明など)を無視する。 本稿では,CrycaVPR という,VPR の相互像相関認識を用いたロバストなグローバル表現手法を提案する。 本手法では,バッチ内の複数の画像の相関に自己認識機構を用いる。 これらの画像は異なる条件や視点で同じ場所で撮影することも、異なる場所から撮影することもできる。 そこで本手法では,表現学習をガイドする手がかりとして,クロスイメージのバリエーションを利用することができる。 さらにロバスト性を高めるために,VPRタスクに事前学習した視覚基盤モデルを適応させるマルチスケールの畳み込み強調適応法を提案し,マルチスケールの局所情報を導入し,画像間の相関認識表現をさらに強化する。 実験の結果,本手法は訓練時間を大幅に短縮し,最先端の手法よりも優れていた。 512桁のグローバル機能を用いてpits30k上で94.5%r@1を実現する。 コードはhttps://github.com/Lu-Feng/CricaVPRで公開されている。

Over the past decade, most methods in visual place recognition (VPR) have used neural networks to produce feature representations. These networks typically produce a global representation of a place image using only this image itself and neglect the cross-image variations (e.g. viewpoint and illumination), which limits their robustness in challenging scenes. In this paper, we propose a robust global representation method with cross-image correlation awareness for VPR, named CricaVPR. Our method uses the self-attention mechanism to correlate multiple images within a batch. These images can be taken in the same place with different conditions or viewpoints, or even captured from different places. Therefore, our method can utilize the cross-image variations as a cue to guide the representation learning, which ensures more robust features are produced. To further facilitate the robustness, we propose a multi-scale convolution-enhanced adaptation method to adapt pre-trained visual foundation models to the VPR task, which introduces the multi-scale local information to further enhance the cross-image correlation-aware representation. Experimental results show that our method outperforms state-of-the-art methods by a large margin with significantly less training time. Our method achieves 94.5% R@1 on Pitts30k using 512-dim global features. The code is released at https://github.com/Lu-Feng/CricaVPR.
翻訳日:2024-03-01 14:37:40 公開日:2024-02-29
# フェルミオン可観測物とハミルトニアンの簡易かつ効率的な関節計測法

A Simple and Efficient Joint Measurement Strategy for Estimating Fermionic Observables and Hamiltonians ( http://arxiv.org/abs/2402.19230v1 )

ライセンス: Link先を確認
Joanna Majsak, Daniel McNulty and Micha{\l} Oszmaniec(参考訳) 量子化学および相関フェルミオン系に関連するフェルミオン可観測性およびハミルトニアンを簡易に推定する手法を提案する。 提案手法は,n$モードフェルミオン系における2~4つのマヨラナ演算子のノイズバージョンを共同で測定する計測手法の実装に基づいている。 私たちが使う測定を実現するには (i)マヨラナフェルミオン作用素の積を実現する一元数の集合上のランダム化 (ii) 適宜選択されたフェルミオンガウスユニタリの定数サイズの集合からランダムにサンプリングされたユニタリ 三 フェルミオン占有数の測定 (iv)適切な後処理。 本手法は, フェルミオンシャドウトモグラフィによる測定結果と一致し, それぞれ$\mathcal{o}(n \log(n)/\epsilon^2)$ と$\mathcal{o}(n^2 \log(n)/\epsilon^2)$ を用いて, 四次および四次マヨラナモノミアルの期待値を$\epsilon$精度に推定することができる。 例えば、Jordan-Wigner変換を介して$N$モードフェルミオンシステムを符号化する量子ビットの長方形格子のように、我々のスキームは回路深さ$\mathcal{O}(N^{1/2})$ with $\mathcal{O}(N^{3/2})$ two-qubit gatesで実装でき、深さ$\mathcal{O}(N)$および$\mathcal{O}(N^2)$ 2-qubit gatesを必要とするフェルミオンおよびマッチゲートの古典的影の改善を提供する。 また,この手法を分子ハミルトニアンにベンチマークし,フェルミオン式古典影に匹敵する性能を観測した。

We propose a simple scheme to estimate fermionic observables and Hamiltonians relevant in quantum chemistry and correlated fermionic systems. Our approach is based on implementing a measurement that jointly measures noisy versions of any product of two or four Majorana operators in an $N$ mode fermionic system. To realize our measurement we use: (i) a randomization over a set of unitaries that realize products of Majorana fermion operators; (ii) a unitary, sampled at random from a constant-size set of suitably chosen fermionic Gaussian unitaries; (iii) a measurement of fermionic occupation numbers; (iv) suitable post-processing. Our scheme can estimate expectation values of all quadratic and quartic Majorana monomials to $\epsilon$ precision using $\mathcal{O}(N \log(N)/\epsilon^2)$ and $\mathcal{O}(N^2 \log(N)/\epsilon^2)$ measurement rounds respectively, matching the performance offered by fermionic shadow tomography. In certain settings, such as a rectangular lattice of qubits which encode an $N$ mode fermionic system via the Jordan-Wigner transformation, our scheme can be implemented in circuit depth $\mathcal{O}(N^{1/2})$ with $\mathcal{O}(N^{3/2})$ two-qubit gates, offering an improvement over fermionic and matchgate classical shadows that require depth $\mathcal{O}(N)$ and $\mathcal{O}(N^2)$ two-qubit gates. We also benchmark our method on molecular Hamiltonians and observe performances comparable to those offered by fermionic classical shadows.
翻訳日:2024-03-01 14:37:20 公開日:2024-02-29
# 慢性痛に対する機械学習によるパーソナライズケアにおける性公平性の検討

Investigating Gender Fairness in Machine Learning-driven Personalized Care for Chronic Pain ( http://arxiv.org/abs/2402.19226v1 )

ライセンス: Link先を確認
Pratik Gajane and Sean Newman and John D. Piette(参考訳) 本研究では、機械学習アルゴリズムを用いたパーソナライズされた鎮痛勧告における性別の公平性について検討する。 コンテキストバンディットフレームワークを利用することで、パーソナライズドレコメンデーションをlinucbアルゴリズムを使用して、それぞれ10ドルのセッションで164ドルの患者とのインタラクションを含むデータセット上で定式化し、評価する。 その結果、アルゴリズムパラメータの調整は鎮痛剤の推奨品質に影響を与えるが、この影響は性別間で一貫している。 しかし、自己報告された痛み測定などの特定の患者情報が欠如している場合、女性に対する痛み治療の推奨の質は男性より顕著に劣る。

This study investigates gender fairness in personalized pain care recommendations using machine learning algorithms. Leveraging a contextual bandits framework, personalized recommendations are formulated and evaluated using LinUCB algorithm on a dataset comprising interactions with $164$ patients across $10$ sessions each. Results indicate that while adjustments to algorithm parameters influence the quality of pain care recommendations, this impact remains consistent across genders. However, when certain patient information, such as self-reported pain measurements, is absent, the quality of pain care recommendations for women is notably inferior to that for men.
翻訳日:2024-03-01 14:36:39 公開日:2024-02-29
# 遺伝的アルゴリズムによる空港離着陸最適化

Airport take-off and landing optimization through genetic algorithms ( http://arxiv.org/abs/2402.19222v1 )

ライセンス: Link先を確認
Fernando Guedan Pecker and Cristian Ramirez Atencia(参考訳) 本研究は,従来検討されていなかった新たなアプローチであるゲート割り当てと滑走路スケジューリングの最適化に重点を置いた,航空機運用からの汚染に関する重要な問題に対処する。 本研究は,空港における航空機の離着陸時の燃料燃焼による汚染を最小化する,革新的な遺伝的アルゴリズムに基づく手法を提案する。 このアルゴリズムは、エンジンの運転時間と汚染物質レベルの相関を考慮して、ランディングゲートと離着陸滑走路の両方の最適化を独特に統合する。 このアプローチでは、空港の運用に固有の複雑な時間と資源制限を管理するために、高度な制約処理技術を採用している。 さらに,本研究では,突然変異因子とペナルティ関数の種類に着目したモデルに対して,詳細な感度解析を行い,最適化プロセスの微調整を行う。 このデュアルフォーカス最適化戦略は、航空部門における環境への影響を低減し、包括的で効率的な空港運営管理のための新しい標準を確立するための重要な進歩を表している。

This research addresses the crucial issue of pollution from aircraft operations, focusing on optimizing both gate allocation and runway scheduling simultaneously, a novel approach not previously explored. The study presents an innovative genetic algorithm-based method for minimizing pollution from fuel combustion during aircraft take-off and landing at airports. This algorithm uniquely integrates the optimization of both landing gates and take-off/landing runways, considering the correlation between engine operation time and pollutant levels. The approach employs advanced constraint handling techniques to manage the intricate time and resource limitations inherent in airport operations. Additionally, the study conducts a thorough sensitivity analysis of the model, with a particular emphasis on the mutation factor and the type of penalty function, to fine-tune the optimization process. This dual-focus optimization strategy represents a significant advancement in reducing environmental impact in the aviation sector, establishing a new standard for comprehensive and efficient airport operation management.
翻訳日:2024-03-01 14:36:27 公開日:2024-02-29
# メモリ駆動生成型逆変換器

Memory-Augmented Generative Adversarial Transformers ( http://arxiv.org/abs/2402.19218v1 )

ライセンス: Link先を確認
Stephan Raaijmakers, Roos Bakker, Anita Cremers, Roy de Kleijn, Tom Kouwenhoven, Tessa Verhoef(参考訳) Transformersのような大規模言語モデルに依存する会話型AIシステムは、生成する言語と外部データ(事実など)を相互接続するのは難しい。 バニラトランスフォーマーアーキテクチャは、事実問題に高い精度で答えるために設計されていない。 本稿では,この問題に対処するための経路を検討する。 本稿では,知識ベースから引き出された情報などの余分な情報を保持するメモリバンクと,このメモリに対処する余分な注意層を備えることで,標準的なTransformerアーキテクチャを拡張することを提案する。 この拡張メモリをGenerative Adversarial NetworkにインスパイアされたTransformerアーキテクチャに追加する。 この設定により、Transformerの生成された言語に任意のフェリシティ条件を実装することができる。 まず、この機械がゴール志向の対話において、現実的な質問を処理するためにどのように展開できるかを実証する。 第二に,対話における人間の対話者の社会的特性など,特定のスタイリスティックな(外的)制約に従って発話を適応させることによって,我々のアプローチが「itスタイル適応」のようなアプリケーションにも有用であることを実証する。

Conversational AI systems that rely on Large Language Models, like Transformers, have difficulty interweaving external data (like facts) with the language they generate. Vanilla Transformer architectures are not designed for answering factual questions with high accuracy. This paper investigates a possible route for addressing this problem. We propose to extend the standard Transformer architecture with an additional memory bank holding extra information (such as facts drawn from a knowledge base), and an extra attention layer for addressing this memory. We add this augmented memory to a Generative Adversarial Network-inspired Transformer architecture. This setup allows for implementing arbitrary felicity conditions on the generated language of the Transformer. We first demonstrate how this machinery can be deployed for handling factual questions in goal-oriented dialogues. Secondly, we demonstrate that our approach can be useful for applications like {\it style adaptation} as well: the adaptation of utterances according to certain stylistic (external) constraints, like social properties of human interlocutors in dialogues.
翻訳日:2024-03-01 14:36:10 公開日:2024-02-29
# ウェーブレット領域損失による画像超解像モデルの訓練によるアーチファクトの制御の改善

Training Generative Image Super-Resolution Models by Wavelet-Domain Losses Enables Better Control of Artifacts ( http://arxiv.org/abs/2402.19215v1 )

ライセンス: Link先を確認
Cansu Korkmaz, A. Murat Tekalp, Zafer Dogan(参考訳) 超解像 (SR) は不測の逆問題であり、与えられた低分解能画像と一致する実現可能な解の集合のサイズは非常に大きい。 多くのアルゴリズムが、忠実性と知覚的品質のバランスをとる、実現可能なソリューションの中で「良い」解決策を見つけるために提案されている。 残念なことに、すべての既知の手法は、高周波(HF)画像の詳細を再構成しながら、人工物や幻覚を生成する。 モデルは、本物の画像の詳細とアーティファクトを区別することを学べますか? 詳細とアーティファクトの区別に焦点を当てた最近の研究はいくつかあるが、これは非常に難しい問題であり、満足のいく解決策はまだ見つからない。 本稿では,実際のhfディテールとアーティファクトのキャラクタリゼーションを,ウェーブレット領域損失関数を用いたganベースのsrモデルを,rgb領域やフーリエ空間損失と比較してよりよく学習できることを示す。 ウェーブレットドメインの損失は文献ではこれまで使われてきたが、SRタスクの文脈では使われていない。 より具体的には、RGB画像の代わりにHFウェーブレットサブバンドでのみ識別器を訓練し、ウェーブレットサブバンド上での忠実度損失により生成器を訓練することにより、構造体のスケールや向きに敏感にすることができる。 複数の客観的尺度と視覚的評価に基づいて,本モデルがより良い知覚・歪曲トレードオフを実現することを示す。

Super-resolution (SR) is an ill-posed inverse problem, where the size of the set of feasible solutions that are consistent with a given low-resolution image is very large. Many algorithms have been proposed to find a "good" solution among the feasible solutions that strike a balance between fidelity and perceptual quality. Unfortunately, all known methods generate artifacts and hallucinations while trying to reconstruct high-frequency (HF) image details. A fundamental question is: Can a model learn to distinguish genuine image details from artifacts? Although some recent works focused on the differentiation of details and artifacts, this is a very challenging problem and a satisfactory solution is yet to be found. This paper shows that the characterization of genuine HF details versus artifacts can be better learned by training GAN-based SR models using wavelet-domain loss functions compared to RGB-domain or Fourier-space losses. Although wavelet-domain losses have been used in the literature before, they have not been used in the context of the SR task. More specifically, we train the discriminator only on the HF wavelet sub-bands instead of on RGB images and the generator is trained by a fidelity loss over wavelet subbands to make it sensitive to the scale and orientation of structures. Extensive experimental results demonstrate that our model achieves better perception-distortion trade-off according to multiple objective measures and visual evaluations.
翻訳日:2024-03-01 14:35:52 公開日:2024-02-29
# 深層強化学習:凸最適化アプローチ

Deep Reinforcement Learning: A Convex Optimization Approach ( http://arxiv.org/abs/2402.19212v1 )

ライセンス: Link先を確認
Ather Gattami(参考訳) 本稿では,連続状態と行動空間を有する非線形システムの強化学習について考察する。 本稿では,各エピソードごとに凸最適化を用いて最適な$q$-関数の2層ニューラルネットワーク近似を求める,エピソディック学習アルゴリズムを提案する。 凸最適化手法は、与えられたサンプル状態と現在のエピソードの動作に関して、各エピソードで計算された重みが最適であることを保証する。 安定な非線形システムでは、アルゴリズムが収束し、訓練されたニューラルネットワークの収束パラメータを最適なニューラルネットワークパラメータに任意に近づけることができることを示す。 特に、正規化パラメータが$\rho$で時間地平線が$T$であれば、トレーニングされたニューラルネットワークのパラメータは$w$に収束し、最適なパラメータ$w^\star$から$w$までの距離は$\mathcal{O}(\rho T^{-1})$に制限される。 すなわち、エピソード数が無限大となると、[\|w-w^\star\| \le C\cdot\frac{\rho}{T} となるような一定の$C$が存在する。 特に,時間的地平線の増加や正規化パラメータの減少に伴い,我々のアルゴリズムは最適なニューラルネットワークパラメータに任意に収束する。

In this paper, we consider reinforcement learning of nonlinear systems with continuous state and action spaces. We present an episodic learning algorithm, where we for each episode use convex optimization to find a two-layer neural network approximation of the optimal $Q$-function. The convex optimization approach guarantees that the weights calculated at each episode are optimal, with respect to the given sampled states and actions of the current episode. For stable nonlinear systems, we show that the algorithm converges and that the converging parameters of the trained neural network can be made arbitrarily close to the optimal neural network parameters. In particular, if the regularization parameter is $\rho$ and the time horizon is $T$, then the parameters of the trained neural network converge to $w$, where the distance between $w$ from the optimal parameters $w^\star$ is bounded by $\mathcal{O}(\rho T^{-1})$. That is, when the number of episodes goes to infinity, there exists a constant $C$ such that \[\|w-w^\star\| \le C\cdot\frac{\rho}{T}.\] In particular, our algorithm converges arbitrarily close to the optimal neural network parameters as the time horizon increases or as the regularization parameter decreases.
翻訳日:2024-03-01 14:35:27 公開日:2024-02-29
# PeLLE: オープンデータに基づくブラジルポルトガル語のエンコーダベースの言語モデル

PeLLE: Encoder-based language models for Brazilian Portuguese based on open data ( http://arxiv.org/abs/2402.19204v1 )

ライセンス: Link先を確認
Guilherme Lamartine de Mello and Marcelo Finger and and Felipe Serras and Miguel de Mello Carpi and Marcos Menon Jose and Pedro Henrique Domingues and Paulo Cavalim(参考訳) 本稿では,ブラジル・ポルトガル語のロベルタアーキテクチャに基づく大規模言語モデルであるpelleについて,カロライナ・コーパスから収集したオープンデータに基づいて学習した。 再現可能な結果を目指して,モデルの事前学習の詳細について述べる。 また,既存の多言語およびPT-BRによる事前学習型トランスフォーマーベースLLMエンコーダに対してPeLLEモデルの評価を行った。 いくつかのタスクはより大きなモデルでより優れた性能を発揮するが、いくつかのタスクは事前トレーニングにおいてより小さいがキュレートされたデータから恩恵を受ける。

In this paper we present PeLLE, a family of large language models based on the RoBERTa architecture, for Brazilian Portuguese, trained on curated, open data from the Carolina corpus. Aiming at reproducible results, we describe details of the pretraining of the models. We also evaluate PeLLE models against a set of existing multilingual and PT-BR refined pretrained Transformer-based LLM encoders, contrasting performance of large versus smaller-but-curated pretrained models in several downstream tasks. We conclude that several tasks perform better with larger models, but some tasks benefit from smaller-but-curated data in its pretraining.
翻訳日:2024-03-01 14:35:02 公開日:2024-02-29
# 一様スペクトルを持つ行列の擬スペクトルによるブームとバストサイクル

Boom and bust cycles due to pseudospectra of matrices with unimodular spectra ( http://arxiv.org/abs/2402.19201v1 )

ライセンス: Link先を確認
Junaid Majeed Bhat, Ja\v{s} Bensa, and Marko \v{Z}nidari\v{c}(参考訳) アイデンティティの根である非正規行列のパワーを増大させることで得られるダイナミクスについて議論し、したがって単位円上にすべての固有値を持つ。 実のところ、そのような力の期待値は、パワーが増すにつれて成長することができないと期待できる。 逆に、全く逆の振る舞いが可能であることを実証する。 無限大行列の極限において、指数的成長を持つことができる。 有限行列の場合、指数的成長は指数的成長の繰り返しサイクルの一部であり、指数的崩壊を伴う。 この効果は、スペクトルが擬似スペクトルと異なる場合に起こり、指数的な成長速度は擬似スペクトルによって与えられる。 この効果は2次元非相互作用系の研究に現れる伝達行列のクラス、例えばエレンフェスト・ルンを記述した行列、および階段のランダム回路で以前に観測された純度ダイナミクスに現れることを示す。

We discuss dynamics obtained by increasing powers of non-normal matrices that are roots of the identity, and therefore have all eigenvalues on the unit circle. Naively, one would expect that the expectation value of such powers cannot grow as one increases the power. We demonstrate that, rather counterintuitively, a completely opposite behavior is possible. In the limit of infinitely large matrices one can have an exponential growth. For finite matrices this exponential growth is a part of repeating cycles of exponential growths followed by exponential decays. The effect can occur if the spectrum is different than the pseudospectrum, with the exponential growth rate being given by the pseudospectrum. We show that this effect appears in a class of transfer matrices appearing in studies of two-dimensional non-interacting systems, for a matrix describing the Ehrenfest urn, as well as in previously observed purity dynamics in a staircase random circuit.
翻訳日:2024-03-01 14:34:50 公開日:2024-02-29
# PRSA: 大規模言語モデルに対する逆のスタイリング攻撃

PRSA: Prompt Reverse Stealing Attacks against Large Language Models ( http://arxiv.org/abs/2402.19200v1 )

ライセンス: Link先を確認
Yong Yang, Xuhong Zhang, Yi Jiang, Xi Chen, Haoyu Wang, Shouling Ji, Zonghui Wang(参考訳) 重要な知的財産として認識されたプロンプトは、大きな言語モデル(llm)が微調整を必要とせずに特定のタスクを実行可能にする。 プロンプトベースのサービス、例えばプロンプトマーケットプレースやLLMアプリケーションの増加に伴い、プロバイダはインプット・アウトプットの例を通してプロンプトの機能を表示してユーザを惹きつける。 しかし、このパラダイムは重要なセキュリティ上の懸念を提起する。 入出力ペアの露出は、開発者の知的財産権を侵害し、潜在的に早期にリークするリスクを負うか? 私たちの知る限り、この問題はまだ包括的に検討されていない。 本稿では,このギャップを解消するために,まず深度探査を行い,商業LLM(PRSA)に対するリバースステアリングプロンプトの新たな攻撃枠組みを提案する。 PRSAの主な考え方は、入力と出力のペアの臨界特性を分析することによって、ターゲットのプロンプトを模倣し、徐々に推測することである。 詳しくは、PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。 変異段階において,これらの重要な特徴を捉えるために差動フィードバックに基づく即時注意アルゴリズムを提案し,目標プロンプトを効果的に推定する。 素早いプルーニングフェーズでは、特定の入力に依存する単語を識別し、マスキングし、プロンプトが一般化のために多様な入力を適応できるようにする。 本研究では,PRSAが現実世界のシナリオに深刻な脅威をもたらすことを検証した。 われわれはこれらの発見をサービス提供者に促し、積極的に協力して著作権保護措置を講じるよう報告している。

Prompt, recognized as crucial intellectual property, enables large language models (LLMs) to perform specific tasks without the need of fine-tuning, underscoring their escalating importance. With the rise of prompt-based services, such as prompt marketplaces and LLM applications, providers often display prompts' capabilities through input-output examples to attract users. However, this paradigm raises a pivotal security concern: does the exposure of input-output pairs pose the risk of potential prompt leakage, infringing on the intellectual property rights of the developers? To our knowledge, this problem still has not been comprehensively explored yet. To remedy this gap, in this paper, we perform the first in depth exploration and propose a novel attack framework for reverse-stealing prompts against commercial LLMs, namely PRSA. The main idea of PRSA is that by analyzing the critical features of the input-output pairs, we mimic and gradually infer (steal) the target prompts. In detail, PRSA mainly consists of two key phases: prompt mutation and prompt pruning. In the mutation phase, we propose a prompt attention algorithm based on differential feedback to capture these critical features for effectively inferring the target prompts. In the prompt pruning phase, we identify and mask the words dependent on specific inputs, enabling the prompts to accommodate diverse inputs for generalization. Through extensive evaluation, we verify that PRSA poses a severe threat in real world scenarios. We have reported these findings to prompt service providers and actively collaborate with them to take protective measures for prompt copyright.
翻訳日:2024-03-01 14:34:34 公開日:2024-02-29
# 微細構造認識サンプリング: 単視点人体再構成における画素配向インシシデントモデルのための新しいサンプリングトレーニングスキーム

Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction ( http://arxiv.org/abs/2402.19197v1 )

ライセンス: Link先を確認
Kennard Yanting Chan, Fayao Liu, Guosheng Lin, Chuan Sheng Foo, Weisi Lin(参考訳) PIFu、PIFuHD、ICONなどの暗黙のピクセル配列モデルは、単視の人間の再構築に使用される。 これらのモデルはサンプリングトレーニングスキームを使用してトレーニングする必要がある。 既存のサンプリングトレーニングスキームは、薄い表面(例えば耳や指)を捕捉できなかったり、再建されたメッシュでノイズの多いアーチファクトを発生させたりする。 これらの問題に対処するため,我々は,一視点人間再構成のためのピクセル整合暗黙モデル学習のための新しいサンプリングトレーニングスキームである fine structured-aware sampling (fss) を導入する。 FSSは前述の問題を表面の厚さと複雑さに積極的に適応することで解決する。 さらに,既存のサンプリングトレーニングと異なり,FSSは,サンプル点の正規化をトレーニングプロセスで実現し,結果を改善する方法を示した。 最後に、トレーニングプロセスをさらに改善するため、FSSは画素対応暗黙的モデルのためのメッシュ厚み損失信号を提案する。 画素アラインの暗黙関数フレームワークを少し書き換えた後に、この損失を計算的に導入することは可能になった。 その結果,本手法はSOTA法よりも質的,定量的に優れていることがわかった。 私たちのコードはhttps://github.com/kcyt/FSS.comで公開されています。

Pixel-aligned implicit models, such as PIFu, PIFuHD, and ICON, are used for single-view clothed human reconstruction. These models need to be trained using a sampling training scheme. Existing sampling training schemes either fail to capture thin surfaces (e.g. ears, fingers) or cause noisy artefacts in reconstructed meshes. To address these problems, we introduce Fine Structured-Aware Sampling (FSS), a new sampling training scheme to train pixel-aligned implicit models for single-view human reconstruction. FSS resolves the aforementioned problems by proactively adapting to the thickness and complexity of surfaces. In addition, unlike existing sampling training schemes, FSS shows how normals of sample points can be capitalized in the training process to improve results. Lastly, to further improve the training process, FSS proposes a mesh thickness loss signal for pixel-aligned implicit models. It becomes computationally feasible to introduce this loss once a slight reworking of the pixel-aligned implicit function framework is carried out. Our results show that our methods significantly outperform SOTA methods qualitatively and quantitatively. Our code is publicly available at https://github.com/kcyt/FSS.
翻訳日:2024-03-01 14:34:04 公開日:2024-02-29
# 知識グラフ表現学習における負のサンプリング

Negative Sampling in Knowledge Graph Representation Learning: A Review ( http://arxiv.org/abs/2402.19195v1 )

ライセンス: Link先を確認
Tiroshan Madushanka, Ryutaro Ichise(参考訳) 知識グラフ表現学習(KGRL)または知識グラフ埋め込み(KGE)は、知識構築と情報探索のためのAIアプリケーションにおいて重要な役割を果たす。 これらのモデルは知識グラフに存在する実体と関係を低次元ベクトル空間に符号化することを目的としている。 KGEモデルのトレーニング過程において、正および負のサンプルの使用は差別目的に不可欠である。 しかし、既存の知識グラフから直接負のサンプルを得ることは課題であり、効果的な生成技術の必要性を強調している。 これらの負のサンプルの品質は、学習した埋め込みの精度に大きな影響を与え、それらの生成がKGRLの重要な側面となる。 包括的調査により,様々な負サンプリング法(ns)法とkgrlの成功への貢献を体系的に評価した。 それぞれの利点と欠点は、既存のNSメソッドを5つの異なるカテゴリに分類することで概説される。 さらに, 今後の研究の方向性として, オープンな研究課題を特定する。 基本的なNS概念の一般化とアライメントを提供することにより、この調査はKGRLの文脈で有効なNSメソッドを設計するための貴重な洞察を与え、この分野におけるさらなる進歩の動機となる。

Knowledge graph representation learning (KGRL) or knowledge graph embedding (KGE) plays a crucial role in AI applications for knowledge construction and information exploration. These models aim to encode entities and relations present in a knowledge graph into a lower-dimensional vector space. During the training process of KGE models, using positive and negative samples becomes essential for discrimination purposes. However, obtaining negative samples directly from existing knowledge graphs poses a challenge, emphasizing the need for effective generation techniques. The quality of these negative samples greatly impacts the accuracy of the learned embeddings, making their generation a critical aspect of KGRL. This comprehensive survey paper systematically reviews various negative sampling (NS) methods and their contributions to the success of KGRL. Their respective advantages and disadvantages are outlined by categorizing existing NS methods into five distinct categories. Moreover, this survey identifies open research questions that serve as potential directions for future investigations. By offering a generalization and alignment of fundamental NS concepts, this survey provides valuable insights for designing effective NS methods in the context of KGRL and serves as a motivating force for further advancements in the field.
翻訳日:2024-03-01 14:33:40 公開日:2024-02-29
# 高期待: プログラミングと大麻中毒の観察的研究

High Expectations: An Observational Study of Programming and Cannabis Intoxication ( http://arxiv.org/abs/2402.19194v1 )

ライセンス: Link先を確認
Wenxin He, Manasvi Parikh, Westley Weimer, Madeline Endres(参考訳) プロのプログラマが使う大麻の逸話的な証拠。 近年の研究では、仕事関連のタスクでもプログラミング中に定期的に大麻を使用するプロもいる。 しかし、大麻のプログラミングへの影響は様々であり、しばしば矛盾する。 例えば、正しいソリューションを生成する能力に障害があると主張するプログラマもいれば、創造性と集中力を高めると主張するプログラマもいる。 大麻がプログラミングに与える影響を実証的に理解する必要がある。 本稿では,大麻がプログラミング能力に与える影響について,初めて制御された観察的研究を行った。 70人以上の参加者を持つオブジェクト内設計に基づいて、生態学的に有効な量では、大麻はプログラミング性能を著しく損なう。 highで実装されたプログラムは、より多くのバグが含まれ、書き込みに時間がかかる(p < 0.05)が、小から中程度の効果(0.22 <= d <= 0.44)である。 ハイプログラマがより多様なソリューションを生成するという証拠も見つからなかった。 しかし、大麻の影響下であっても、プログラマはプログラム性能の違いを正確に評価できる(r = 0.59)。 この研究がエビデンスベースのポリシーを促進し、プログラミングにおける大麻の使用に関する情報決定を支援することを期待しています。

Anecdotal evidence of cannabis use by professional programmers abounds. Recent studies have found that some professionals regularly use cannabis while programming even for work-related tasks. However, accounts of the impacts of cannabis on programming vary widely and are often contradictory. For example, some programmers claim that it impairs their ability to generate correct solutions while others claim it enhances creativity and focus. There remains a need for an empirical understanding of the true impacts of cannabis on programming. This paper presents the first controlled observational study of the effects of cannabis on programming ability. Based on a within-subjects design with over 70 participants, we find that at ecologically valid dosages, cannabis significantly impairs programming performance. Programs implemented while high contain more bugs and take longer to write (p < 0.05), a small to medium effect (0.22 <= d <= 0.44). We also did not find any evidence that high programmers generate more divergent solutions. However, programmers can accurately assess differences in their programming performance (r = 0.59), even when under the influence of cannabis. We hope that this research will facilitate evidence-based policies and help developers make informed decisions regarding cannabis use while programming.
翻訳日:2024-03-01 14:33:22 公開日:2024-02-29
# 生成モデルを用いた網膜画像のディスタングリング表現

Disentangling representations of retinal images with generative models ( http://arxiv.org/abs/2402.19186v1 )

ライセンス: Link先を確認
Sarah M\"uller, Lisa M. Koch, Hendrik P. A. Lensch, Philipp Berens(参考訳) 網膜底像は、眼疾患の早期発見において重要な役割を担っており、深層学習アプローチを用いて、近年の研究では、心血管リスク因子や神経障害の検出の可能性も実証されている。 しかし、これらの画像に対する技術的要因の影響は、眼科における信頼性の高いAI応用に課題をもたらす可能性がある。 例えば、大きな眼底コホートは、しばしばカメラタイプ、画質、照明レベルなどの要因によって構成され、画像生成プロセスの背後にある因果関係ではなく、ショートカットを学ぶリスクを負う。 本稿では,患者属性をカメラ効果から効果的に切り離し,制御可能でリアルな画像生成を可能にする,網膜基底画像の新しい集団モデルを提案する。 そこで本研究では,距離相関に基づく新しい乱れ損失を提案する。 質的・定量的解析により, 学習部分空間の分離における新しい損失関数の有効性を示す。 以上の結果から,本モデルは網膜眼底画像生成における患者属性と技術共同創設者の複雑な関係に関する新しい視点を提供する。

Retinal fundus images play a crucial role in the early detection of eye diseases and, using deep learning approaches, recent studies have even demonstrated their potential for detecting cardiovascular risk factors and neurological disorders. However, the impact of technical factors on these images can pose challenges for reliable AI applications in ophthalmology. For example, large fundus cohorts are often confounded by factors like camera type, image quality or illumination level, bearing the risk of learning shortcuts rather than the causal relationships behind the image generation process. Here, we introduce a novel population model for retinal fundus images that effectively disentangles patient attributes from camera effects, thus enabling controllable and highly realistic image generation. To achieve this, we propose a novel disentanglement loss based on distance correlation. Through qualitative and quantitative analyses, we demonstrate the effectiveness of this novel loss function in disentangling the learned subspaces. Our results show that our model provides a new perspective on the complex relationship between patient attributes and technical confounders in retinal fundus image generation.
翻訳日:2024-03-01 14:33:06 公開日:2024-02-29
# StarCoder 2とStack v2:次世代

StarCoder 2 and The Stack v2: The Next Generation ( http://arxiv.org/abs/2402.19173v1 )

ライセンス: Link先を確認
Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krau{\ss}, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Mu\~noz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries(参考訳) BigCodeプロジェクトは、Large Language Models for Code (Code LLMs)の責任ある開発に焦点を当てた、オープンソースのコラボレーションである。 Software Heritage(SWH)と提携して、ソースコードアーカイブのデジタルコモンの上にThe Stack v2を構築しました。 619のプログラミング言語にまたがるSWHリポジトリに加えて、GitHubのプルリクエスト、Kaggleノートブック、コードドキュメントなど、他の高品質なデータソースも慎重に選択しています。 これにより、最初のStarCoderデータセットよりも4倍大きなトレーニングセットが得られる。 我々は3.3から4.3兆のトークンに対して3B、7B、15Bパラメータを持つStarCoder2モデルをトレーニングし、Code LLMベンチマークの包括的なセットでそれらを徹底的に評価する。 私たちの小さなモデルであるStarCoder2-3Bは、ほとんどのベンチマークで同様のサイズの他のコードLLMよりも優れており、StarCoderBase-15Bよりも優れています。 私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。 さらに、CodeLlama-34Bは2倍以上の大きさのモデルである。 DeepSeekCoder-33Bは、高ソース言語のコード補完において、最高のパフォーマンスモデルであるが、StarCoder2-15Bは、数学やコード推論ベンチマーク、低リソースの言語よりも優れている。 ソースコードデータのSWHID(SoftWare Heritage persistent IDentifiers)をリリースすることにより,OpenRAILライセンス下でモデルウェイトを利用可能にするとともに,トレーニングデータに関する完全な透明性を確保する。

The BigCode project, an open-scientific collaboration focused on the responsible development of Large Language Models for Code (Code LLMs), introduces StarCoder2. In partnership with Software Heritage (SWH), we build The Stack v2 on top of the digital commons of their source code archive. Alongside the SWH repositories spanning 619 programming languages, we carefully select other high-quality data sources, such as GitHub pull requests, Kaggle notebooks, and code documentation. This results in a training set that is 4x larger than the first StarCoder dataset. We train StarCoder2 models with 3B, 7B, and 15B parameters on 3.3 to 4.3 trillion tokens and thoroughly evaluate them on a comprehensive set of Code LLM benchmarks. We find that our small model, StarCoder2-3B, outperforms other Code LLMs of similar size on most benchmarks, and also outperforms StarCoderBase-15B. Our large model, StarCoder2- 15B, significantly outperforms other models of comparable size. In addition, it matches or outperforms CodeLlama-34B, a model more than twice its size. Although DeepSeekCoder- 33B is the best-performing model at code completion for high-resource languages, we find that StarCoder2-15B outperforms it on math and code reasoning benchmarks, as well as several low-resource languages. We make the model weights available under an OpenRAIL license and ensure full transparency regarding the training data by releasing the SoftWare Heritage persistent IDentifiers (SWHIDs) of the source code data.
翻訳日:2024-03-01 14:32:50 公開日:2024-02-29
# マスク、サイン、学習率の巻き戻し

Masks, Signs, And Learning Rate Rewinding ( http://arxiv.org/abs/2402.19262v1 )

ライセンス: Link先を確認
Advait Gadhikar and Rebekka Burkholz(参考訳) LRR(Learning Rate Rewinding)は、深くパラメータ化されたニューラルネットワークで宝くじを見つけるためにIMP(Iterative Magnitude Pruning)の強力な変種として確立されている。 反復的プルーニングスキームは構造とパラメータ学習を結合するが、lrrがどちらの面で優れているかを理解することは、多様なスパースアーキテクチャのセットを最適化するより柔軟なディープラーニングアルゴリズムの設計に近付く。 この目的のために,マスク学習とパラメータ最適化の効果と過度パラメータ化の利点を両立させる実験を行った。 パラメータ記号を早期にフリップし、摂動にサインするために頑健であることは、マスクの識別だけでなく、ランダムなマスクを含む多様なマスクセットの最適化にも有効であるように見える。 この仮説を支持するために,LRRがIMPよりも多くのケースで成功することを,単一隠れニューロン設定で証明した。

Learning Rate Rewinding (LRR) has been established as a strong variant of Iterative Magnitude Pruning (IMP) to find lottery tickets in deep overparameterized neural networks. While both iterative pruning schemes couple structure and parameter learning, understanding how LRR excels in both aspects can bring us closer to the design of more flexible deep learning algorithms that can optimize diverse sets of sparse architectures. To this end, we conduct experiments that disentangle the effect of mask learning and parameter optimization and how both benefit from overparameterization. The ability of LRR to flip parameter signs early and stay robust to sign perturbations seems to make it not only more effective in mask identification but also in optimizing diverse sets of masks, including random ones. In support of this hypothesis, we prove in a simplified single hidden neuron setting that LRR succeeds in more cases than IMP, as it can escape initially problematic sign configurations.
翻訳日:2024-03-01 14:26:53 公開日:2024-02-29
# MaskFi:マルチモーダルヒューマンアクティビティ認識のためのWiFiと視覚表現の教師なし学習

MaskFi: Unsupervised Learning of WiFi and Vision Representations for Multimodal Human Activity Recognition ( http://arxiv.org/abs/2402.19258v1 )

ライセンス: Link先を確認
Jianfei Yang, Shijie Tang, Yuecong Xu, Yunjiao Zhou, Lihua Xie(参考訳) ヒューマンアクティビティ認識(har)は、医療、セキュリティ監視、メタバースゲームなど様々な分野において、ますます重要な役割を担っている。 コンピュータビジョンに基づく多くのHAR法が顕著な性能を示すために開発されているが、Wi-FiベースのHARを優れた相補的モダリティとして機能させる動機となる、特に低照度における悪い視覚条件の頑健さに悩まされている。 WiFiとビジョンモダリティを使った既存のソリューションは、収集が非常に困難である大量のラベル付きデータに依存している。 本稿では,教師なしマルチモーダルharソリューションであるmaskfiを提案し,ラベルなしビデオとwifiアクティビティデータのみをモデルトレーニングに活用する。 そこで我々は,表現学習において,マスク付き区間を予測することにより,モダルと単一モードの特徴を学習できる新しいアルゴリズムMI2Mを提案する。 教師なしの学習手順の恩恵を受け、ネットワークは微調整のために少量の注釈付きデータしか必要とせず、より良いパフォーマンスで新しい環境に適応できる。 社内で収集した2つのwi-fi-visionデータセットについて広範な実験を行い,ロバスト性と正確性の観点から,人間行動認識と人間同定を実現する。

Human activity recognition (HAR) has been playing an increasingly important role in various domains such as healthcare, security monitoring, and metaverse gaming. Though numerous HAR methods based on computer vision have been developed to show prominent performance, they still suffer from poor robustness in adverse visual conditions in particular low illumination, which motivates WiFi-based HAR to serve as a good complementary modality. Existing solutions using WiFi and vision modalities rely on massive labeled data that are very cumbersome to collect. In this paper, we propose a novel unsupervised multimodal HAR solution, MaskFi, that leverages only unlabeled video and WiFi activity data for model training. We propose a new algorithm, masked WiFi-vision modeling (MI2M), that enables the model to learn cross-modal and single-modal features by predicting the masked sections in representation learning. Benefiting from our unsupervised learning procedure, the network requires only a small amount of annotated data for finetuning and can adapt to the new environment with better performance. We conduct extensive experiments on two WiFi-vision datasets collected in-house, and our method achieves human activity recognition and human identification in terms of both robustness and accuracy.
翻訳日:2024-03-01 14:26:35 公開日:2024-02-29
# GSM-Plus:数学的問題解としてのLCMのロバスト性評価のための総合ベンチマーク

GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers ( http://arxiv.org/abs/2402.19255v1 )

ライセンス: Link先を確認
Qintong Li and Leyang Cui and Xueliang Zhao and Lingpeng Kong and Wei Bi(参考訳) 大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成した。 しかし、これらのモデルが数学的知識を真に理解し、適用するか、単に数学的推論のショートカットに頼るかという議論が増えている。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。 このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。 本稿では,GSM8Kの拡張として,様々な数学的摂動を付加した逆数次数学(\datasetname)データセットを提案する。 25個のLLMと4個のプロンプト技術を用いた実験により, LLMは数学推論能力のレベルが異なるが, その性能はそれほど堅牢ではないことがわかった。 特に、GSM8Kで解決された問題であっても、LLMは新たなステートメントを追加したり、質問対象を変更したりする際に間違いを犯す可能性がある。 また,推論目標と計算結果に基づいて,各中間思考を生成し検証する反復的手法を試し,既存のプロンプト手法を構成すれば,よりロバストな性能を実現することができるかを検討する。 コードとデータは \url{https://github.com/qtli/gsm-plus} で入手できる。

Large language models (LLMs) have achieved impressive performance across various mathematical reasoning benchmarks. However, there are increasing debates regarding whether these models truly understand and apply mathematical knowledge or merely rely on shortcuts for mathematical reasoning. One essential and frequently occurring evidence is that when the math questions are slightly changed, LLMs can behave incorrectly. This motivates us to evaluate the robustness of LLMs' math reasoning capability by testing a wide range of question variations. We introduce the adversarial grade school math (\datasetname) dataset, an extension of GSM8K augmented with various mathematical perturbations. Our experiments on 25 LLMs and 4 prompting techniques show that while LLMs exhibit different levels of math reasoning abilities, their performances are far from robust. In particular, even for problems that have been solved in GSM8K, LLMs can make mistakes when new statements are added or the question targets are altered. We also explore whether more robust performance can be achieved by composing existing prompting methods, in which we try an iterative method that generates and verifies each intermediate thought based on its reasoning goal and calculation result. Code and data are available at \url{https://github.com/qtli/GSM-Plus}.
翻訳日:2024-03-01 14:26:15 公開日:2024-02-29
# モジュラ乗算のための機械学習

Machine learning for modular multiplication ( http://arxiv.org/abs/2402.19254v1 )

ライセンス: Link先を確認
Kristin Lauter, Cathy Yuanchen Li, Krystal Maughan, Rachel Newton and Megha Srivastava(参考訳) 暗号応用に動機づけられ,モジュラ乗法に対する2つの機械学習手法,すなわち循環回帰法とシーケンシャル・ツー・シーケンストランスフォーマモデルについて検討した。 その結果,両手法の限定的な成功は,暗号系を基盤とするモジュラー乗算を伴うタスクの難しさの証拠となる。

Motivated by cryptographic applications, we investigate two machine learning approaches to modular multiplication: namely circular regression and a sequence-to-sequence transformer model. The limited success of both methods demonstrated in our results gives evidence for the hardness of tasks involving modular multiplication upon which cryptosystems are based.
翻訳日:2024-03-01 14:25:53 公開日:2024-02-29
# 自律走行のための認知的軌道予測手法

A Cognitive-Based Trajectory Prediction Approach for Autonomous Driving ( http://arxiv.org/abs/2402.19251v1 )

ライセンス: Link先を確認
Haicheng Liao, Yongkang Li, Zhenning Li, Chengyue Wang, Zhiyong Cui, Shengbo Eben Li, Chengzhong Xu(参考訳) 自動運転車(AV)技術において、周囲の車両の動きを正確に予測する能力は、安全性と運用効率を確保するための最重要課題である。 人間の意思決定の洞察を取り入れることで、AVは他の車両の潜在的な行動をより効果的に予測し、動的環境における予測精度と応答性を大幅に改善することができる。 本稿では,人間の認知過程に触発された教師・学生の知識蒸留フレームワークを応用したヒューマン・ライク・軌道予測(hltp)モデルを提案する。 HLTPモデルは洗練された教師による知識蒸留の枠組みを取り入れている。 適応的な視覚セクタを備えた「教師」モデルは、人間の脳、特に後頭葉と側頭葉の機能の視覚処理を模倣している。 学生」モデルは、リアルタイムの相互作用と意思決定に焦点を当て、前頭前皮質と頭頂皮質の機能に平行に描画する。 このアプローチは、運転シナリオの変更に対する動的適応を可能にし、正確な予測に不可欠な知覚的手がかりをキャプチャする。 Macao Connected and Autonomous Driving (MoCAD)データセットとNGSIMとHighDベンチマークを使って評価すると、HLTPは既存のモデル、特に不完全なデータを持つ挑戦的な環境で、既存のモデルよりも優れたパフォーマンスを示している。 プロジェクトページはgithubで公開されている。

In autonomous vehicle (AV) technology, the ability to accurately predict the movements of surrounding vehicles is paramount for ensuring safety and operational efficiency. Incorporating human decision-making insights enables AVs to more effectively anticipate the potential actions of other vehicles, significantly improving prediction accuracy and responsiveness in dynamic environments. This paper introduces the Human-Like Trajectory Prediction (HLTP) model, which adopts a teacher-student knowledge distillation framework inspired by human cognitive processes. The HLTP model incorporates a sophisticated teacher-student knowledge distillation framework. The "teacher" model, equipped with an adaptive visual sector, mimics the visual processing of the human brain, particularly the functions of the occipital and temporal lobes. The "student" model focuses on real-time interaction and decision-making, drawing parallels to prefrontal and parietal cortex functions. This approach allows for dynamic adaptation to changing driving scenarios, capturing essential perceptual cues for accurate prediction. Evaluated using the Macao Connected and Autonomous Driving (MoCAD) dataset, along with the NGSIM and HighD benchmarks, HLTP demonstrates superior performance compared to existing models, particularly in challenging environments with incomplete data. The project page is available at Github.
翻訳日:2024-03-01 14:25:48 公開日:2024-02-29
# シーン解析の効率化による特徴増強

Feature boosting with efficient attention for scene parsing ( http://arxiv.org/abs/2402.19250v1 )

ライセンス: Link先を確認
Vivek Singh, Shailza Sharma and Fabio Cuzzolin(参考訳) シーン解析の複雑さは、制約のないオープンシーンでは高いオブジェクトとシーンクラスの数で増大する。 最大の課題は、シーン要素間の空間的関係をモデル化し、より小さなスケールでオブジェクトを識別することである。 本稿では,複数レベルの特徴抽出から空間コンテキストを収集し,各レベルの表現に対する注意重みを算出し,最終クラスラベルを生成する特徴ブースティングネットワークを提案する。 新しい「チャンネル・アテンション・モジュール」は、注意重みを計算するために設計され、関連する抽出段階からの特徴が促進され、他の特徴が減衰される。 モデルはまた、低解像度で空間コンテキスト情報を学び、シーン要素間の抽象的な空間関係を保ち、計算コストを低減する。 その後、機能ブースティングを適用する前に、空間的注意を最終機能セットに結合する。 粗いグローバルシーン構造を学習する補助的タスクを用いて,低分解能空間注意特徴を訓練する。 提案されたモデルは、ade20kとcityscapesデータセットの両方の最先端モデルよりも優れている。

The complexity of scene parsing grows with the number of object and scene classes, which is higher in unrestricted open scenes. The biggest challenge is to model the spatial relation between scene elements while succeeding in identifying objects at smaller scales. This paper presents a novel feature-boosting network that gathers spatial context from multiple levels of feature extraction and computes the attention weights for each level of representation to generate the final class labels. A novel `channel attention module' is designed to compute the attention weights, ensuring that features from the relevant extraction stages are boosted while the others are attenuated. The model also learns spatial context information at low resolution to preserve the abstract spatial relationships among scene elements and reduce computation cost. Spatial attention is subsequently concatenated into a final feature set before applying feature boosting. Low-resolution spatial attention features are trained using an auxiliary task that helps learning a coarse global scene structure. The proposed model outperforms all state-of-the-art models on both the ADE20K and the Cityscapes datasets.
翻訳日:2024-03-01 14:25:26 公開日:2024-02-29
# LLMが最新の挑戦に挑戦する! 中国の動的質問応答ベンチマーク

Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark ( http://arxiv.org/abs/2402.19248v1 )

ライセンス: Link先を確認
Zhikun Xu, Yinghui Li, Ruixue Ding, Xinyu Wang, Boli Chen, Yong Jiang, Xiaodong Deng, Jianxin Ma, Hai-Tao Zheng, Wenlian Lu, Pengjun Xie, Chang Zhou, Fei Huang(参考訳) LLM(Large Language Models)の能力をどう評価するかは、現在のLLM研究の焦点とホットトピックである。 これまでの研究によると、LLMの反復的な更新のコストが非常に高いため、最新の動的問題にうまく答えられないことが多い。 本稿では,中国のLLMが動的質問に答える能力を向上させるために,中国における最新のニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。 我々は,人間とモデルを組み合わせたパイプラインを通して高品質なデータを取得し,回答変化の頻度に応じてサンプルを慎重に分類し,llmsの能力をより詳細に観察する。 また,CDQA上での中国LLMの評価と分析を行った。 大規模な実験と貴重な洞察は、提案したCDQAが困難であり、さらなる研究に値することを示唆している。 我々が提供するベンチマークは、将来、LLMの中国語質問応答能力を向上させるための重要なデータリソースになるだろうと考えています。

How to better evaluate the capabilities of Large Language Models (LLMs) is the focal point and hot topic in current LLMs research. Previous work has noted that due to the extremely high cost of iterative updates of LLMs, they are often unable to answer the latest dynamic questions well. To promote the improvement of Chinese LLMs' ability to answer dynamic questions, in this paper, we introduce CDQA, a Chinese Dynamic QA benchmark containing question-answer pairs related to the latest news on the Chinese Internet. We obtain high-quality data through a pipeline that combines humans and models, and carefully classify the samples according to the frequency of answer changes to facilitate a more fine-grained observation of LLMs' capabilities. We have also evaluated and analyzed mainstream and advanced Chinese LLMs on CDQA. Extensive experiments and valuable insights suggest that our proposed CDQA is challenging and worthy of more further study. We believe that the benchmark we provide will become the key data resource for improving LLMs' Chinese question-answering ability in the future.
翻訳日:2024-03-01 14:25:09 公開日:2024-02-29
# 1次元波動方程式の雑音中規模量子シミュレーション

Noisy intermediate-scale quantum simulation of the one-dimensional wave equation ( http://arxiv.org/abs/2402.19247v1 )

ライセンス: Link先を確認
Lewis Wright, Conor Mc Keever, Jeremy T. First, Rory Johnston, Jeremy Tillay, Skylar Chaney, Matthias Rosenkranz, Michael Lubasch(参考訳) h1-1量子コンピュータ上の1次元波動方程式のシミュレーションのために量子回路を設計・実装する。 我々のアプローチの回路の深さは、2^n$のグリッドポイントでソリューションを表す$n$ qubitsに対して$o(2^{-4n} t^{2})$であり、シミュレーション時間には$t$が滑らかな初期条件を仮定する。 量子ビット数を変化させることで、アルゴリズムと物理ゲートエラーの相互作用を調べ、最小総誤差の最適作業点を特定する。 波動方程式をシミュレーションするアプローチは、他の量子プロセッサに容易に適用でき、アプリケーション指向のベンチマークとして機能する。

We design and implement quantum circuits for the simulation of the one-dimensional wave equation on the Quantinuum H1-1 quantum computer. The circuit depth of our approach scales as $O(n^{2})$ for $n$ qubits representing the solution on $2^n$ grid points, and leads to infidelities of $O(2^{-4n} t^{2})$ for simulation time $t$ assuming smooth initial conditions. By varying the qubit count we study the interplay between the algorithmic and physical gate errors to identify the optimal working point of minimum total error. Our approach to simulating the wave equation can readily be adapted to other quantum processors and serve as an application-oriented benchmark.
翻訳日:2024-03-01 14:24:49 公開日:2024-02-29
# 浮遊ナノ粒子のリブレーションを100フォノン以下に冷却するフィードバック

Feedback cooling a levitated nanoparticle's libration to below 100 phonons ( http://arxiv.org/abs/2402.19245v1 )

ライセンス: Link先を確認
Jialiang Gao and Fons van der Laan and Joanna A. Zielinska and Andrei Militaru and Lukas Novotny and Martin Frimmer(参考訳) マクロローターは、量子論と量子センシングをテストする興味深いモデルシステムである。 これらのシステムを量子構造に持ち込む有望なアプローチは、感度検出とフィードバック冷却を組み合わせることで、力学の熱的占有を減らすことである。 本稿では,光学浮揚ナノ粒子の3つのリブレーションモードを効率的に検出するための後方散乱法を実装した。 3つの自由度を16~mk以下までパラメトリックフィードバック冷却し,1つのモードが1.3~mkの温度に達し,平均フォノン数84に対応する。 最後に, 測定効率を0.5 %とすることで後方散乱方式を特徴付ける。

Macroscopic rotors are interesting model systems to test quantum theory and for quantum sensing. A promising approach for bringing these systems to the quantum regime is to combine sensitive detection with feedback cooling to reduce the thermal occupation of the mechanics. Here, we implement a backward-scattering scheme to efficiently detect all three libration modes of an optically levitated nanoparticle. We demonstrate parametric feedback cooling of all three libration degrees of freedom to below 16~mK, with one of the modes reaching the temperature of 1.3~mK, corresponding to a mean phonon number of 84. Finally, we characterize the backward-scattering scheme by determining its measurement efficiency to be 0.5\%.
翻訳日:2024-03-01 14:24:34 公開日:2024-02-29
# 空洞埋め込みトポロジカル1D鎖の電子伝導

Electron conductance of a cavity-embedded topological 1D chain ( http://arxiv.org/abs/2402.19244v1 )

ライセンス: Link先を確認
Danh-Phuong Nguyen, Geva Arwas, and Cristiano Ciuti(参考訳) キャビティモードの量子場に結合した一次元Su-Schrieffer-Heeger(SSH)トポロジカルチェーンの多体トポロジカルおよび輸送特性について検討した。 量子コンダクタンスは、有限個の電子の正確な対角化によって計算される光マッター固有状態の観点からグリーンの関数形式によって決定される。 キャビティ埋め込み多電子系のトポロジーは一般化された電子フォトトンZakマーカーによって記述されている。 有限長鎖のキャビティ真空場によって輸送の量子化がどのように変化され、それが電子障害にどのように影響するかを明らかにする。 さらに,電子-光子絡み合いは,キャビティ修飾効果を強く過小評価する平均場理論の予測に関して劇的な差をもたらすことを示した。

We investigate many-body topological and transport properties of a one-dimensional Su-Schrieffer-Heeger (SSH) topological chain coupled to the quantum field of a cavity mode. The quantum conductance is determined via Green's function formalism in terms of light-matter eigenstates calculated via exact diagonalization for a finite number of electrons. We show that the topology of the cavity-embedded many-electron system is described by a generalized electron-photon Zak marker. We reveal how the quantization of transport is modified by the cavity vacuum fields for a finite-size chain and how it is impacted by electronic disorder. Moreover, we show that electron-photon entanglement produces dramatic differences with respect to the prediction of mean-field theory, which strongly underestimates cavity-modified effects.
翻訳日:2024-03-01 14:24:24 公開日:2024-02-29
# デリバティブエンハンス付きディープオペレータネットワーク

Derivative-enhanced Deep Operator Network ( http://arxiv.org/abs/2402.19242v1 )

ライセンス: Link先を確認
Yuan Qiu, Nolan Bridges, Peng Chen(参考訳) 関数空間間の写像を学習するニューラル演算子のクラスであるディープ演算子ネットワーク(DeepONets)は、最近パラメトリック偏微分方程式(PDE)の代理モデルとして開発された。 本研究では,デリバティブ・エンハンスド・ディープ・オペレーター・ネットワーク(DE-DeepONet)を提案する。このネットワークは,デリバティブ情報を利用して予測精度を高め,特にトレーニングデータに制限がある場合の導関数のより正確な近似を提供する。 DE-DeepONetは入力の次元減少をDeepONetに組み込んでおり、入力関数に対する出力関数の方向微分と、物理領域変数に関する出力関数の勾配という2種類の微分ラベルをトレーニング用ロス関数に含んでいる。 我々は,De-DeepONetを3つの異なる方程式で検証し,その有効性を示す。

Deep operator networks (DeepONets), a class of neural operators that learn mappings between function spaces, have recently been developed as surrogate models for parametric partial differential equations (PDEs). In this work we propose a derivative-enhanced deep operator network (DE-DeepONet), which leverages the derivative information to enhance the prediction accuracy, and provide a more accurate approximation of the derivatives, especially when the training data are limited. DE-DeepONet incorporates dimension reduction of input into DeepONet and includes two types of derivative labels in the loss function for training, that is, the directional derivatives of the output function with respect to the input function and the gradient of the output function with respect to the physical domain variables. We test DE-DeepONet on three different equations with increasing complexity to demonstrate its effectiveness compared to the vanilla DeepONet.
翻訳日:2024-03-01 14:24:11 公開日:2024-02-29
# 超伝導量子ビットへのオープン量子システムアプローチ

Open Quantum System Approaches to Superconducting Qubits ( http://arxiv.org/abs/2402.19241v1 )

ライセンス: Link先を確認
Hamid Reza Naeij(参考訳) 超伝導量子ビットの設計と測定中の環境からのランダムで制御不能なノイズは、量子ビットのコヒーレンス時間とゲート忠実度に限界をもたらす。 超伝導量子ビット技術の発展には, 環境誤差の理解と緩和が不可欠である。 これは超伝導量子ビットをその周囲に結合した開放量子系としてモデル化する必要がある。 本研究の目的は、超伝導量子ビットとそれらの環境との相互作用を分析し定量化するための有用なオープン量子システムアプローチを提供することである。 この分野への新規参入者のためのオープン量子システムの導入について紹介する。 近年,現実的な雑音下での量子力学解析法について論じている。 これらの手法がデコヒーレンス機構の定量的な洞察を与え、設計改善をガイドしてキュービットのコヒーレンス時間を向上させる方法について概説する。 このオープン量子システムアプローチの自己完結型レビューは、不可避な環境ノイズの存在下で超伝導量子ビットの性能をモデル化、理解、改善するために使用できる。

Random and uncontrollable noises from the environment during the design and measurement of superconducting qubits lead to limitations in qubit coherence time and gate fidelity, which is a major challenge in the current state of the art for superconducting quantum computing. To advance superconducting qubits technologies it is essential to understand and mitigate environmentally induced errors. This requires modeling superconducting qubits as open quantum systems coupled to their surroundings. The present study aims to provide useful open quantum system approaches to analyze and quantify the interaction between the superconducting qubits and their environment. We provide an accessible introduction to open quantum systems for newcomers to the field. For experts we discuss recently developed methods for analyzing qubit dynamics under realistic noises. We outline how these techniques provide quantitative insights into the decoherence mechanism and how they can guide design improvements to enhance qubits' coherence time. This self-contained review of open quantum system approaches can be used to model, understand, and improve superconducting qubit performance in the presence of unavoidable environmental noises.
翻訳日:2024-03-01 14:23:54 公開日:2024-02-29
# aqftにおける測定方法, 文脈性およびウィグナーの友人ゲダンケン実験

Measurement Schemes in AQFT, Contextuality and the Wigner's Friend Gedankenexperiment ( http://arxiv.org/abs/2402.19235v1 )

ライセンス: Link先を確認
Felipe Dilho Alves(参考訳) 測度は歴史的に、非相対論的量子力学や量子場理論のように、量子理論の一貫した記述の問題を提示してきた。 代数量子場理論における測度の記述に対する最近の関心の高まりに基づき、この論文は K. Hepp が 70 年代に提案した測度の記述と C. Fewster と R. Verch が最近提案した一般共変測度スキームの新しい枠組みを考慮し、K. Hepp が提唱した測度の記述のギャップを埋めることに焦点を当てることが決定された。 もう一つの検討すべき最近の結果は、フラッシンジャー・レナー・ゲダンケン実験であり、ヘップの論文「非一貫性に基づく測定」に着想を得て、合理的なエージェントを含むシステムの量子記述の一貫性について、no-go結果に到達した。 そうすることで、私たちは自然に測定装置の文脈特性の研究にたどり着きます。

Measurements have historically presented a problem for the consistent description of quantum theories, be it in non-relativistic quantum mechanics or in quantum field theory. Drawing on a recent surge of interest in the description of measurements in Algebraic Quantum Field theory, it was decided that this dissertation would be focused on trying to close the gap between the description of measurements proposed by K. Hepp in the 70's, considering decoherence of states in quasilocal algebras and the new framework of generally covariant measurement schemes proposed recently by C. Fewster and R. Verch. Another recent result that we shall also consider is the Frauchinger-Renner Gedankenexperiment, that has taken inspiration on Hepp's article about decoherence based measurements to arrive at a no-go result about the consistency of quantum descriptions of systems containing rational agents, we shall seek to provide a closure for the interpretation of this result. In doing so we naturally arrive at the study of the contextual properties of measurement setups.
翻訳日:2024-03-01 14:23:36 公開日:2024-02-29
# 都市部フードデリバリーのための共有軽量自動運転車:シミュレーション研究

Shared lightweight autonomous vehicles for urban food deliveries: A simulation study ( http://arxiv.org/abs/2402.19233v1 )

ライセンス: Link先を確認
Ainhoa Genua Cervi\~no, Naroa Coretti Sanchez, Elaine Liu Wang, Arnaud Grignard, Kent Larson(参考訳) 近年、特に食品配達におけるオンデマンド配送の急速な成長は、革新的なモビリティソリューションの探求を促している。 この文脈では、軽量の自動運転車が潜在的な代替手段として登場した。 しかし、その艦隊レベルの行動はほとんど未調査のままである。 このギャップに対処するため,我々は,エージェントベースのモデルと,軽量自律食品配送車両の艦隊性能を評価する環境影響研究を開発した。 このモデルは、艦隊の規模、サービスレベル、運用戦略、環境への影響といった重要な要因を探求する。 我々はこのモデルを、米国マサチューセッツ州ケンブリッジのケーススタディに適用した。その結果、従来の自動車ベースの配送を、共有軽量の自動運転車車両群に置き換える上で、環境的なメリットがあることが示唆された。 最後に,モデルの性能と潜在的なトレードオフを理解するためのユーザフレンドリーな手段を提供するインタラクティブなプラットフォームを提案する。

In recent years, the rapid growth of on-demand deliveries, especially in food deliveries, has spurred the exploration of innovative mobility solutions. In this context, lightweight autonomous vehicles have emerged as a potential alternative. However, their fleet-level behavior remains largely unexplored. To address this gap, we have developed an agent-based model and an environmental impact study assessing the fleet performance of lightweight autonomous food delivery vehicles. This model explores critical factors such as fleet sizing, service level, operational strategies, and environmental impacts. We have applied this model to a case study in Cambridge, MA, USA, where results indicate that there could be environmental benefits in replacing traditional car-based deliveries with shared lightweight autonomous vehicle fleets. Lastly, we introduce an interactive platform that offers a user-friendly means of comprehending the model's performance and potential trade-offs, which can help inform decision-makers in the evolving landscape of food delivery innovation.
翻訳日:2024-03-01 14:23:14 公開日:2024-02-29
# トレーニングされたランダムな森がデータセットを完全発見

Trained Random Forests Completely Reveal your Dataset ( http://arxiv.org/abs/2402.19232v1 )

ライセンス: Link先を確認
Julien Ferry, Ricardo Fukasawa, Timoth\'ee Pascal and Thibaut Vidal(参考訳) ランダム森林のトレーニングに使用するデータセットを完全にあるいはほぼ完全に再構築できる最適化ベースの再構築攻撃を導入する。 特に,本手法は,Scikit-learn などの一般的な図書館で利用できる情報にのみ依存する。 これを実現するために, 最大可能性目標の下での組合せ問題として, 再構成問題を定式化する。 制約分散と解領域還元に根ざしたアプローチである制約プログラミングを用いて、スケールで解決可能であることを実証する。 本研究は,ブートストラップアグリゲーションを使わずに訓練された無作為な森林について,完全な復元が可能であることを示す。 これは少数の木でも当てはまる。 ブートストラップアグリゲーションであっても、データの大部分は再構築可能である。 これらの知見は、広く採用されているアンサンブル法に固有の重大な脆弱性を強調し、注意と緩和を保証した。 このような再建攻撃の可能性については,プライバシー研究で議論されているが,本研究は,その実践性に関する実証的な証拠を提示する。

We introduce an optimization-based reconstruction attack capable of completely or near-completely reconstructing a dataset utilized for training a random forest. Notably, our approach relies solely on information readily available in commonly used libraries such as scikit-learn. To achieve this, we formulate the reconstruction problem as a combinatorial problem under a maximum likelihood objective. We demonstrate that this problem is NP-hard, though solvable at scale using constraint programming -- an approach rooted in constraint propagation and solution-domain reduction. Through an extensive computational investigation, we demonstrate that random forests trained without bootstrap aggregation but with feature randomization are susceptible to a complete reconstruction. This holds true even with a small number of trees. Even with bootstrap aggregation, the majority of the data can also be reconstructed. These findings underscore a critical vulnerability inherent in widely adopted ensemble methods, warranting attention and mitigation. Although the potential for such reconstruction attacks has been discussed in privacy research, our study provides clear empirical evidence of their practicability.
翻訳日:2024-03-01 14:22:58 公開日:2024-02-29
# 単一スピンを高周波運動に結合する

Coupling a single spin to high-frequency motion ( http://arxiv.org/abs/2402.19288v1 )

ライセンス: Link先を確認
Federico Fedele, Federico Cerisola, Lea Bresque, Florian Vigneau, Juliette Monsel, Jorge Tabanera, Kushagra Aggarwal, Jonathan Dexter, Sofia Sevitz, Joe Dunlop, Alexia Auff\`eves, Juan Parrondo, Andr\'as P\'alyi, Janet Anders, Natalia Ares(参考訳) 単一スピンと高周波機械運動の結合は、量子センシング、中長距離スピンスピンスピンカップリング、古典的および量子情報処理などの応用における基本的なボトルネックである。 これまでの実験では、ダイヤモンドカンチレバーのような低周波機械共振器への単一スピン結合のみが示されている。 量子状態にアクセスする能力を持つ高周波機械共振器は、量子状態の読み出しや保存を含む単一のスピンに結合すると、様々な可能性を開く。 本稿では、高周波共振器へのスピン・メカニカルカップリングに関する最初の実験を行う。 これを完全懸濁カーボンナノチューブデバイスで全電動で達成する。 新しいメカニズムはスピン軌道結合に由来するこのカップリングを生じさせ、ひずみによって媒介されない。 電気双極子スピン共鳴(edsr)のシフトと拡大として共振結合とオフ共振結合の両方を観測した。 結合のテンソル形式と運動の非線形性を考慮した完全な理論モデルを開発した。 我々の結果は、スピン機械的プラットフォームを非チャートな状態へと推進する。 我々が明らかにした相互作用は、マクロな重ね合わせのデモンストレーションから完全な量子エンジンの操作、量子シミュレータまで、有望なアプリケーションのための完全なツールボックスを提供する。

Coupling a single spin to high-frequency mechanical motion is a fundamental bottleneck of applications such as quantum sensing, intermediate and long-distance spin-spin coupling, and classical and quantum information processing. Previous experiments have only shown single spin coupling to low-frequency mechanical resonators, such as diamond cantilevers. High-frequency mechanical resonators, having the ability to access the quantum regime, open a range of possibilities when coupled to single spins, including readout and storage of quantum states. Here we report the first experimental demonstration of spin-mechanical coupling to a high-frequency resonator. We achieve this all-electrically on a fully suspended carbon nanotube device. A new mechanism gives rise to this coupling, which stems from spin-orbit coupling, and it is not mediated by strain. We observe both resonant and off-resonant coupling as a shift and broadening of the electric dipole spin resonance (EDSR), respectively. We develop a complete theoretical model taking into account the tensor form of the coupling and non-linearity in the motion. Our results propel spin-mechanical platforms to an uncharted regime. The interaction we reveal provides the full toolbox for promising applications ranging from the demonstration of macroscopic superpositions, to the operation of fully quantum engines, to quantum simulators.
翻訳日:2024-03-01 14:17:12 公開日:2024-02-29
# StiefelGen: リーマン多様体上の時系列データ拡張のための単純でモデルに依存しないアプローチ

StiefelGen: A Simple, Model Agnostic Approach for Time Series Data Augmentation over Riemannian Manifolds ( http://arxiv.org/abs/2402.19287v1 )

ライセンス: Link先を確認
Prasad Cheema, Mahito Sugiyama(参考訳) データ拡張は、画像ベースの学習モデル、自動運転車の強化学習、ポイントクラウドデータの一般的なノイズ注入など、多くの機械学習分野において活発に開発されている研究分野である。 しかし,一般時系列データ拡張のための説得的手法は,特にこれらのモデルのために開発された手法が容易にクロスオーバーできないため,まだ多くの課題が残されている。 時系列データ拡張のための3つの一般的なアプローチは次のとおりである。 (i)物理モデルの構築と係数空間上の不確実性(例えば) (ii)観測データ集合にノイズを加えること、及び (iii)頑健な生成ニューラルネットワークモデルから大量の時系列データセットにアクセスすることができる。 しかしながら、業界で時系列データを扱う多くの実用的な問題に対して。 (i)通常、堅牢な物理モデルにアクセスできない。 (二)ノイズの付加は、それ自体が大きな、あるいは難しい仮定を必要とする(例えば、どの確率分布を使うべきか?又は、ノイズの分散はどの程度大きいべきか?)。 (iii)実際には、基盤となる問題に対してニューラルネットワークモデルをトレーニングする大規模な時系列データベースをソースすることは困難である。 本稿では,これら3つの制約を多数同時に取り組もうとする手法を提案する。 この方法はStiefel多様体のよく研究された行列微分幾何学に依存しており、時系列信号の配置と多様体上の滑らかな摂動の簡単な方法を提案する。 この手法がどのように機能するかを明らかにするために、この基礎となる多様体のユニークな性質を活用するために特に機能するいくつかの潜在的なユースケースを示す。

Data augmentation is an area of research which has seen active development in many machine learning fields, such as in image-based learning models, reinforcement learning for self driving vehicles, and general noise injection for point cloud data. However, convincing methods for general time series data augmentation still leaves much to be desired, especially since the methods developed for these models do not readily cross-over. Three common approaches for time series data augmentation include: (i) Constructing a physics-based model and then imbuing uncertainty over the coefficient space (for example), (ii) Adding noise to the observed data set(s), and, (iii) Having access to ample amounts of time series data sets from which a robust generative neural network model can be trained. However, for many practical problems that work with time series data in the industry: (i) One usually does not have access to a robust physical model, (ii) The addition of noise can in of itself require large or difficult assumptions (for example, what probability distribution should be used? Or, how large should the noise variance be?), and, (iii) In practice, it can be difficult to source a large representative time series data base with which to train the neural network model for the underlying problem. In this paper, we propose a methodology which attempts to simultaneously tackle all three of these previous limitations to a large extent. The method relies upon the well-studied matrix differential geometry of the Stiefel manifold, as it proposes a simple way in which time series signals can placed on, and then smoothly perturbed over the manifold. We attempt to clarify how this method works by showcasing several potential use cases which in particular work to take advantage of the unique properties of this underlying manifold.
翻訳日:2024-03-01 14:16:51 公開日:2024-02-29
# prpseg:パノラマ腎病理区分のための普遍命題学習

PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation ( http://arxiv.org/abs/2402.19286v1 )

ライセンス: Link先を確認
Ruining Deng, Quan Liu, Can Cui, Tianyuan Yao, Jialin Yue, Juming Xiong, Lining Yu, Yifei Wu, Mengmeng Yin, Yu Wang, Shilin Zhao, Yucheng Tang, Haichun Yang, Yuankai Huo(参考訳) 腎病理の解剖を理解することは、疾患診断、治療評価、臨床研究の進展に不可欠である。 複雑な腎臓系は、領域(皮質、髄質)、機能単位(糸球体、管状体)、細胞(球体細胞、糸球体中膜細胞)を含む複数のレベルにわたる様々な成分を含む。 先行研究は、臨床知識から対象間の複雑な空間的相互関係をほとんど見落としてきた。 本研究では,腎解剖学の広範な知識を統合することにより,腎内のパノラマ構造を包括的に区分する,パノラマ腎病理分画(prpseg)と呼ばれる新しい普遍的命題学習手法を提案する。 本稿では,(1)分節化プロセスへの分類と空間的関係の取り込みを容易にする腎病理学のための包括的普遍的命題行列の設計,(2)部分ラベル画像分割と将来のデータ拡張能力の向上を伴うトークンベースのダイナミックヘッド単一ネットワークアーキテクチャ,(3)腎臓全体にわたる対象間関係を定量化する解剖学的損失関数を提案する。

Understanding the anatomy of renal pathology is crucial for advancing disease diagnostics, treatment evaluation, and clinical research. The complex kidney system comprises various components across multiple levels, including regions (cortex, medulla), functional units (glomeruli, tubules), and cells (podocytes, mesangial cells in glomerulus). Prior studies have predominantly overlooked the intricate spatial interrelations among objects from clinical knowledge. In this research, we introduce a novel universal proposition learning approach, called panoramic renal pathology segmentation (PrPSeg), designed to segment comprehensively panoramic structures within kidney by integrating extensive knowledge of kidney anatomy. In this paper, we propose (1) the design of a comprehensive universal proposition matrix for renal pathology, facilitating the incorporation of classification and spatial relationships into the segmentation process; (2) a token-based dynamic head single network architecture, with the improvement of the partial label image segmentation and capability for future data enlargement; and (3) an anatomy loss function, quantifying the inter-object relationships across the kidney.
翻訳日:2024-03-01 14:16:26 公開日:2024-02-29
# WanJuan-CC: 安全で高品質なWebテキストデータセット

WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset ( http://arxiv.org/abs/2402.19282v1 )

ライセンス: Link先を確認
Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Ruiliang Xu, Wei Li, Hang Yan, and Conghui He(参考訳) 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。 この研究は、大量の高品質なデータを必要とする言語モデルのための大規模な事前学習データセットを構築する際の課題に対処する。 包括的なプロセスは、抽出、ヒューリスティックルールフィルタリング、ファジィ重複、コンテンツ安全性フィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計された。 約68億の英文文書から、安全データの222Tトークンを取得し、WanJuan-CCの一部として高品質データの1.0Tトークンを選定した。 このデータセットから300B Tokensをオープンソース化しました。 この論文はデータ品質に関する統計情報も提供しており、ユーザーは必要に応じて適切なデータを選択することができる。 データセットの品質と有用性を評価するため,WanJuan-CCとRefinedWebを用いた1Bパラメータと3Bパラメータモデルをトレーニングした。 その結果、wanjuan-ccは検証データセットとダウンストリームタスクでパフォーマンスが向上した。

This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 300B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.
翻訳日:2024-03-01 14:16:01 公開日:2024-02-29
# モバイルデータマイニングを用いたモバイルヘルステキスト誤情報識別

Mobile Health Text Misinformation Identification Using Mobile Data Mining ( http://arxiv.org/abs/2402.19280v1 )

ライセンス: Link先を確認
Wen-Chen Hu, Sanjaikanth E Vadakkethil Somanathan Pillai, Abdelrahman Ahmed ElSaid(参考訳) 2022年4月までに600万人以上が新型コロナウイルスで死亡した。 重傷を負い、緊急の警戒に苦しむ人々が、新型コロナウイルスの感染を防ぐためにあらゆる種類の情報を見つけ出そうとしている。 本研究は、スマートフォンが人々の主要な情報ソースになるにつれて、モバイルヘルステキスト情報が人々のデバイスに送られるかどうかを調べる。 提案手法は, 語彙解析, 停止語除去, 語幹抽出, 決定木など, 様々な移動情報検索およびデータマイニング技術を用いて, モバイル・ヘルス・テキスト情報を以下のクラスに分類する。 (i)本当です。 (ii)偽物。 (iii)誤記 (iv)偽り、及び (v)中立。 実験の結果,提案手法の精度は閾値50パーセントを超えるが,最適ではないことがわかった。 モバイルテキストの誤報識別という問題は本質的に難しいためである。

More than six million people died of the COVID-19 by April 2022. The heavy casualties have put people on great and urgent alert and people try to find all kinds of information to keep them from being inflected by the coronavirus. This research tries to find out whether the mobile health text information sent to peoples devices is correct as smartphones becoming the major information source for people. The proposed method uses various mobile information retrieval and data mining technologies including lexical analysis, stopword elimination, stemming, and decision trees to classify the mobile health text information to one of the following classes: (i) true, (ii) fake, (iii) misinformative, (iv) disinformative, and (v) neutral. Experiment results show the accuracy of the proposed method is above the threshold value 50 percentage, but is not optimal. It is because the problem, mobile text misinformation identification, is intrinsically difficult.
翻訳日:2024-03-01 14:15:42 公開日:2024-02-29
# アスファルトコンクリート試験における変位・ひずみ測定のためのSIFT支援2D-DIC

SIFT-Aided Rectified 2D-DIC for Displacement and Strain Measurements in Asphalt Concrete Testing ( http://arxiv.org/abs/2402.19279v1 )

ライセンス: Link先を確認
Zehui Zhu, Imad L. Al-Qadi(参考訳) 2次元デジタル画像相関(2d-dic)はアスファルトコンクリート(ac)試験中の変位とひずみを測定するために広く用いられる光学技術である。 正確な2次元DIC測定は、カメラの主軸が平面標本表面に対して垂直である場合にのみ達成できる。 しかしながら、デバイス制約のため、テスト中にこの要件を満たすことはできない。 本稿では,非垂直性による誤差を補正する簡易かつ信頼性の高い手法を提案する。 この方法は画像特徴マッチングと修正に基づいている。 追加装備は不要。 非永久カメラアライメントが測定精度に及ぼす影響を定量化するために理論的誤差解析を行った。 提案手法は, 合成画像を用いて数値解析し, 実験によりAC破壊試験を行った。 カメラの回転角と大きな変形の下でも比較的高い精度を実現した。 プリプロセッシング手法として,最近開発されたクラックプロペネットの非永久カメラアライメントによる自動クラック伝播測定に有望な性能を示した。

Two-dimensional digital image correlation (2D-DIC) is a widely used optical technique to measure displacement and strain during asphalt concrete (AC) testing. An accurate 2-D DIC measurement can only be achieved when the camera's principal axis is perpendicular to the planar specimen surface. However, this requirement may not be met during testing due to device constraints. This paper proposes a simple and reliable method to correct errors induced by non-perpendicularity. The method is based on image feature matching and rectification. No additional equipment is needed. A theoretical error analysis was conducted to quantify the effect of a non-perpendicular camera alignment on measurement accuracy. The proposed method was validated numerically using synthetic images and experimentally in an AC fracture test. It achieved relatively high accuracy, even under considerable camera rotation angle and large deformation. As a pre-processing technique, the proposed method showed promising performance in assisting the recently developed CrackPropNet for automated crack propagation measurement under a non-perpendicular camera alignment.
翻訳日:2024-03-01 14:15:29 公開日:2024-02-29
# ボソニック励起子の電気的に定義された量子ドット

Electrically defined quantum dots for bosonic excitons ( http://arxiv.org/abs/2402.19278v1 )

ライセンス: Link先を確認
Deepankur Thureja, F. Emre Yazici, Tomasz Smolenski, Martin Kroner, David J. Norris, Atac Imamoglu(参考訳) 量子ドット(quantum dots)は、粒子運動が3つの空間次元すべてに閉じ込められる半導体ナノ構造である。 最初の実験的実現以来、偏光波の量子を成すナノ結晶はエクシトンと呼ばれ、量子情報処理のための単一光子源から商用ディスプレイまで多くの分野に応用されてきた。 潜在的な応用範囲を拡大するための大きな制限は、量子ドット材料に一般化された励起子エネルギーの大きな不均一性と、チューナビリティの欠如である。 ここでは、離散励起子エネルギーをゲート電圧で調整できる単層半導体における励起子に対する電気的に定義された量子ドットを示すことで、この課題に対処する。 共鳴蛍光測定は、これらの共鳴の強いスペクトルジャンプと点滅を示し、その0次元の性質を検証する。 我々の研究は、エクシトン-エクシトン相互作用からのみ非線形応答が生じる量子閉じ込めボソニックモードを実現するための道を開く。

Quantum dots are semiconductor nano-structures where particle motion is confined in all three spatial dimensions. Since their first experimental realization, nanocrystals confining the quanta of polarization waves, termed excitons, have found numerous applications in fields ranging from single photon sources for quantum information processing to commercial displays. A major limitation to further extending the range of potential applications has been the large inhomogeneity in, and lack-of tunability of, exciton energy that is generic to quantum dot materials. Here, we address this challenge by demonstrating electrically-defined quantum dots for excitons in monolayer semiconductors where the discrete exciton energies can be tuned using applied gate voltages. Resonance fluorescence measurements show strong spectral jumps and blinking of these resonances, verifying their zero-dimensional nature. Our work paves the way for realizing quantum confined bosonic modes where nonlinear response would arise exclusively from exciton--exciton interactions.
翻訳日:2024-03-01 14:15:12 公開日:2024-02-29
# モジュールブラインド映像の品質評価

Modular Blind Video Quality Assessment ( http://arxiv.org/abs/2402.19276v1 )

ライセンス: Link先を確認
Wen Wen and Mu Li and Yabin Zhang and Yiting Liao and Junlin Li and Li Zhang and Kede Ma(参考訳) Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を果たしている。 現代のディープラーニングベースのモデルは、主にビデオコンテンツを積極的にサンプル化されたフォーマットで分析し、実際の空間解像度とフレームレートが画質に与える影響を無視する。 本稿では,モジュール型bvqaモデルとそのモジュール性を改善するためのトレーニング手法を提案する。 具体的には,基本品質予測器,空間整形器,時間整形器から構成され,映像品質の視覚的内容と歪み,空間分解能,フレームレートの変化に対応する。 トレーニング中、空間的および時間的整流器は、基準品質予測器を独立したBVQAモデルとし、整流器でよりよく動作するように、ある程度の確率で取り除かれる。 プロが生成したコンテンツとユーザ生成したコンテンツビデオデータベースの両方に関する大規模な実験は、我々の品質モデルが現在の手法よりも優れているか同等のパフォーマンスを達成することを示す。 さらに,このモデルのモジュール性は,既存の映像品質データベースを空間的・時間的複雑度の観点から解析する絶好の機会となる。 最後に、我々のBVQAモデルは、動的範囲や色域などの他の品質関連ビデオ属性を付加整形器として追加するのに費用対効果がある。

Blind video quality assessment (BVQA) plays a pivotal role in evaluating and improving the viewing experience of end-users across a wide range of video-based platforms and services. Contemporary deep learning-based models primarily analyze the video content in its aggressively downsampled format, while being blind to the impact of actual spatial resolution and frame rate on video quality. In this paper, we propose a modular BVQA model, and a method of training it to improve its modularity. Specifically, our model comprises a base quality predictor, a spatial rectifier, and a temporal rectifier, responding to the visual content and distortion, spatial resolution, and frame rate changes on video quality, respectively. During training, spatial and temporal rectifiers are dropped out with some probabilities so as to make the base quality predictor a standalone BVQA model, which should work better with the rectifiers. Extensive experiments on both professionally-generated content and user generated content video databases show that our quality model achieves superior or comparable performance to current methods. Furthermore, the modularity of our model offers a great opportunity to analyze existing video quality databases in terms of their spatial and temporal complexities. Last, our BVQA model is cost-effective to add other quality-relevant video attributes such as dynamic range and color gamut as additional rectifiers.
翻訳日:2024-03-01 14:14:55 公開日:2024-02-29
# 高密度強化学習による車両連系・自動走行の適応的テスト環境生成

Adaptive Testing Environment Generation for Connected and Automated Vehicles with Dense Reinforcement Learning ( http://arxiv.org/abs/2402.19275v1 )

ライセンス: Link先を確認
Jingxuan Yang, Ruoxuan Bai, Haoyuan Ji, Yi Zhang, Jianming Hu, Shuo Feng(参考訳) 安全性能の評価は、コネクテッドおよび自動車両(CAV)の開発と展開において重要な役割を果たしている。 一般的なアプローチは、CAVの事前知識(例えば、サロゲートモデル)に基づいてテストシナリオを設計し、これらのシナリオでテストを実行し、次にCAVの安全性能を評価することである。 しかし,CAVと事前知識の相違は評価効率を著しく低下させる可能性がある。 この問題への対応として、既存の研究は主にcavテストプロセス中のテストシナリオの適応設計に集中している。 しかし,これらの手法は高次元シナリオに適用性に限界がある。 この課題を克服するために,複数のサロゲートモデルを組み込んだアダプティブテスト環境を開発し,これらのサロゲートモデルの組合せ係数を最適化し,評価効率を向上させる。 二次計画を用いた回帰タスクとして最適化問題を定式化する。 強化学習による回帰目標を効率的に獲得するために, 高密度強化学習法を提案し, サンプル効率の高い新しい適応方針を考案する。 本質的に、私たちのアプローチは、実質的なサロゲートから現実へのギャップを示す重要なシーンの価値を学ぶことに集中します。 提案手法の有効性を高次元オーバーテイクシナリオで検証し,本手法が顕著な評価効率を実現することを示す。

The assessment of safety performance plays a pivotal role in the development and deployment of connected and automated vehicles (CAVs). A common approach involves designing testing scenarios based on prior knowledge of CAVs (e.g., surrogate models), conducting tests in these scenarios, and subsequently evaluating CAVs' safety performances. However, substantial differences between CAVs and the prior knowledge can significantly diminish the evaluation efficiency. In response to this issue, existing studies predominantly concentrate on the adaptive design of testing scenarios during the CAV testing process. Yet, these methods have limitations in their applicability to high-dimensional scenarios. To overcome this challenge, we develop an adaptive testing environment that bolsters evaluation robustness by incorporating multiple surrogate models and optimizing the combination coefficients of these surrogate models to enhance evaluation efficiency. We formulate the optimization problem as a regression task utilizing quadratic programming. To efficiently obtain the regression target via reinforcement learning, we propose the dense reinforcement learning method and devise a new adaptive policy with high sample efficiency. Essentially, our approach centers on learning the values of critical scenes displaying substantial surrogate-to-real gaps. The effectiveness of our method is validated in high-dimensional overtaking scenarios, demonstrating that our approach achieves notable evaluation efficiency.
翻訳日:2024-03-01 14:14:31 公開日:2024-02-29
# PlanGPT:台詞モデルと効率的な検索による都市計画の強化

PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval ( http://arxiv.org/abs/2402.19273v1 )

ライセンス: Link先を確認
He Zhu, Wenjia Zhang, Nuoxian Huang, Boyang Li, Luyao Niu, Zipei Fan, Tianle Lun, Yicheng Tao, Junyou Su, Zhaoya Gong, Chenyu Fang and Xing Liu(参考訳) 都市計画の分野では、汎用の大規模言語モデルは、しばしばプランナーの特定のニーズを満たすのに苦労する。 都市計画テキストの作成、関連情報の検索、計画文書の評価といったタスクは、ユニークな課題となる。 都市の専門家の効率を高め、これらの障害を克服するために、都市と空間の計画に合わせた最初の専門的な大規模言語モデルであるplangptを紹介する。 中国都市計画アカデミーなどの機関との協力によって開発されたPlanGPTは、カスタマイズされたローカルデータベース検索フレームワーク、ベースモデルのドメイン固有の微調整、高度なツール機能を活用している。 実証実験により、PlanGPTは高度な性能を示し、都市計画の複雑さに合わせて優れた品質の応答を提供する。

In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.
翻訳日:2024-03-01 14:14:11 公開日:2024-02-29
# ステレオマッチングのためのイントラビューとクロスビューの幾何学知識の学習

Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching ( http://arxiv.org/abs/2402.19270v1 )

ライセンス: Link先を確認
Rui Gong, Weide Liu, Zaiwang Gu, Xulei Yang, Jun Cheng(参考訳) 幾何学的知識はステレオマッチングに有用であることが示されている。 しかし、幾何学的洞察をステレオマッチングアルゴリズムに統合する以前の試みは、単一画像からの幾何学的知識に主に焦点を合わせ、オクルージョンや一意性といった重要なクロスビュー要素は見過ごされている。 このギャップに対処するため,我々は,ビュー内知識とクロスビュー幾何学知識の両相同化を目的として,ICGNet(Intra-view and Cross-view Geometric Knowledge Learning Network)を提案する。 ICGNetは、ビュー内幾何学的理解のためのチャンネルとして機能するために、関心点の力を利用する。 同時に、これらの点間の対応を利用して、断面幾何学的関係を捉える。 この二重編入により、提案されたIGGNetは、その学習プロセスにおいて、ビュー内およびクロスビュー幾何学的知識の両方を活用することができ、その格差を推定する能力を大幅に向上する。 我々の広範な実験は、icgnetが現代の先行モデルよりも優れていることを示している。

Geometric knowledge has been shown to be beneficial for the stereo matching task. However, prior attempts to integrate geometric insights into stereo matching algorithms have largely focused on geometric knowledge from single images while crucial cross-view factors such as occlusion and matching uniqueness have been overlooked. To address this gap, we propose a novel Intra-view and Cross-view Geometric knowledge learning Network (ICGNet), specifically crafted to assimilate both intra-view and cross-view geometric knowledge. ICGNet harnesses the power of interest points to serve as a channel for intra-view geometric understanding. Simultaneously, it employs the correspondences among these points to capture cross-view geometric relationships. This dual incorporation empowers the proposed ICGNet to leverage both intra-view and cross-view geometric knowledge in its learning process, substantially improving its ability to estimate disparities. Our extensive experiments demonstrate the superiority of the ICGNet over contemporary leading models.
翻訳日:2024-03-01 14:13:57 公開日:2024-02-29
# 教師なしデータ選択のためのロバストガイダンス:ドメイン特化機械翻訳のための名前付きエンティティのキャプチャ

Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation ( http://arxiv.org/abs/2402.19267v1 )

ライセンス: Link先を確認
Seunghyun Ji, Hagai Raja Sinulingga, Darongsae Kwon(参考訳) 広範なデータセットを使用することで、多言語機械翻訳モデルのトレーニングが可能になるが、これらのモデルは、しばしば専門領域内の文を正確に翻訳することができない。 ドメイン固有のデータの取得と翻訳には高いコストがかかるが、高品質な翻訳は避けられない。 したがって、教師なしの設定で最も効果的なデータを見つけることは、ラベリングコストを減らすための実用的な戦略となる。 近年の研究では、その量に基づいて「非常に難しいデータ」を選択することで、この効果的なデータが見つかることが示されている。 これは、特にデータ量が限られている場合には、データが過度に挑戦的あるいは過度に単純化されるべきではないことを意味する。 しかし、教師なしデータ選択の基準の確立は、訓練中のデータドメインによって「適切な困難」が異なるため、依然として困難であることがわかった。 そこで本研究では,翻訳された名前付きエンティティの最大推論エントロピーを選択尺度として採用する,教師なしデータ選択手法である'capuring perplexing named entities'を提案する。 その動機は、ドメイン固有のデータの名前付きエンティティはデータの最も複雑な部分と見なされ、高い信頼性で予測されるべきである。 本手法は,「韓国英語専門ドメイン並列コーパス」で検証された場合,既存の手法とは対照的に,教師なしデータ選択のための堅牢なガイダンスとして機能する。

Employing extensive datasets enables the training of multilingual machine translation models; however, these models often fail to accurately translate sentences within specialized domains. Although obtaining and translating domain-specific data incurs high costs, it is inevitable for high-quality translations. Hence, finding the most 'effective' data with an unsupervised setting becomes a practical strategy for reducing labeling costs. Recent research indicates that this effective data could be found by selecting 'properly difficult data' based on its volume. This means the data should not be excessively challenging or overly simplistic, especially if the amount of data is limited. However, we found that establishing a criterion for unsupervised data selection remains challenging, as the 'proper difficulty' might vary based on the data domain being trained on. We introduce a novel unsupervised data selection method, 'Capturing Perplexing Named Entities', which adopts the maximum inference entropy in translated named entities as a selection measure. The motivation was that named entities in domain-specific data are considered the most complex portion of the data and should be predicted with high confidence. When verified with the 'Korean-English Parallel Corpus of Specialized Domains,' our method served as a robust guidance for unsupervised data selection, in contrast to existing methods.
翻訳日:2024-03-01 14:13:39 公開日:2024-02-29
# pomdpsにおけるポリシー指導のための論理仕様学習 : 帰納的論理プログラミングアプローチ

Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach ( http://arxiv.org/abs/2402.19265v1 )

ライセンス: Link先を確認
Daniele Meli, Alberto Castellini, Alessandro Farinelli(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は不確実性の下で計画するための強力なフレームワークである。 状態不確実性を信念確率分布としてモデル化することができる。 モンテカルロサンプリングに基づく近似解法は、計算需要を緩和し、オンライン計画を行うことで大きな成功を収めている。 しかし、多くのアクションと長い計画の地平線を持つ複雑な現実的なドメインへのスケーリングは依然として大きな課題であり、優れたパフォーマンスを達成するための重要なポイントは、特定のアプリケーションドメインに適したドメインに依存したポリシーヒューリスティックによるアクション選択プロセスを導くことである。 我々は,任意の解法によって生成されるPOMDPトレースから高品質なヒューリスティックスを学ぶことを提案する。 我々は、信念-行動ペアを論理的意味論に変換し、データと時間効率の帰納的論理プログラミング(ILP)を利用して解釈可能な信念に基づくポリシー仕様を生成し、それをオンラインヒューリスティックスとして利用する。 我々は,大規模行動空間と長期計画地平線,すなわちrocksample と pocman を含むpomdp問題に対する方法論を徹底的に評価した。 POMCP, DESPOT, AdaOPS など最先端のオンライン POMDP 解法を考えると, Answer Set Programming (ASP) で表される学習ヒューリスティックスはニューラルネットワークよりも優れた性能を示し,より低い計算時間で最適な手作りタスク固有ヒューリスティックに類似していることを示す。 さらに、訓練段階で経験したことのないより困難なシナリオ(岩盤の岩や格子の大きさの増加、地図のサイズとポックマンのゴーストの攻撃性の増加など)をうまく一般化している。

Partially Observable Markov Decision Processes (POMDPs) are a powerful framework for planning under uncertainty. They allow to model state uncertainty as a belief probability distribution. Approximate solvers based on Monte Carlo sampling show great success to relax the computational demand and perform online planning. However, scaling to complex realistic domains with many actions and long planning horizons is still a major challenge, and a key point to achieve good performance is guiding the action-selection process with domain-dependent policy heuristics which are tailored for the specific application domain. We propose to learn high-quality heuristics from POMDP traces of executions generated by any solver. We convert the belief-action pairs to a logical semantics, and exploit data- and time-efficient Inductive Logic Programming (ILP) to generate interpretable belief-based policy specifications, which are then used as online heuristics. We evaluate thoroughly our methodology on two notoriously challenging POMDP problems, involving large action spaces and long planning horizons, namely, rocksample and pocman. Considering different state-of-the-art online POMDP solvers, including POMCP, DESPOT and AdaOPS, we show that learned heuristics expressed in Answer Set Programming (ASP) yield performance superior to neural networks and similar to optimal handcrafted task-specific heuristics within lower computational time. Moreover, they well generalize to more challenging scenarios not experienced in the training phase (e.g., increasing rocks and grid size in rocksample, incrementing the size of the map and the aggressivity of ghosts in pocman).
翻訳日:2024-03-01 14:13:16 公開日:2024-02-29
# T3DNet:軽量3D認識のためのポイントクラウドモデル圧縮

T3DNet: Compressing Point Cloud Models for Lightweight 3D Recognition ( http://arxiv.org/abs/2402.19264v1 )

ライセンス: Link先を確認
Zhiyuan Yang, Yunjiao Zhou, Lihua Xie, Jianfei Yang(参考訳) 3d point cloudは、モバイルデバイス上での自動運転や3dセンシングなど、多くのモバイルアプリケーションシナリオで広く使用されている。 しかし、既存の3Dポイントクラウドモデルは巨大で扱いにくいため、高いメモリ要求と非リアルタイムレイテンシのため、エッジデバイスへのデプロイが困難になる。 3Dポイントのクラウドモデルを軽量モデルに圧縮する方法に関する研究が不足している。 本稿では,T3DNet (Tiny 3D Network with augmEntation and disTillation) と呼ばれる手法を提案する。 ネットワーク拡張後の小さなモデルは、教師が蒸留するのがずっと簡単であることがわかった。 プルーニングや量子化などの手法によりパラメータを段階的に削減する代わりに、小さなモデルを事前定義し、拡張ネットワークや元のモデルからの補助的な監督によって性能を向上させる。 提案手法を,ModelNet40,ShapeNet,ScanObjectNNなどの公開データセット上で評価する。 提案手法は精度の犠牲を伴わずに高い圧縮率を達成でき,既存の3つの手法に対して最先端の性能を達成できる。 驚くべきことに、私たちのT3DNetはオリジナルのモデルよりも58倍小さく、54倍高速ですが、ModelNet40データセットの精度はわずか1.4%です。

3D point cloud has been widely used in many mobile application scenarios, including autonomous driving and 3D sensing on mobile devices. However, existing 3D point cloud models tend to be large and cumbersome, making them hard to deploy on edged devices due to their high memory requirements and non-real-time latency. There has been a lack of research on how to compress 3D point cloud models into lightweight models. In this paper, we propose a method called T3DNet (Tiny 3D Network with augmEntation and disTillation) to address this issue. We find that the tiny model after network augmentation is much easier for a teacher to distill. Instead of gradually reducing the parameters through techniques such as pruning or quantization, we pre-define a tiny model and improve its performance through auxiliary supervision from augmented networks and the original model. We evaluate our method on several public datasets, including ModelNet40, ShapeNet, and ScanObjectNN. Our method can achieve high compression rates without significant accuracy sacrifice, achieving state-of-the-art performances on three datasets against existing methods. Amazingly, our T3DNet is 58 times smaller and 54 times faster than the original model yet with only 1.4% accuracy descent on the ModelNet40 dataset.
翻訳日:2024-03-01 14:12:44 公開日:2024-02-29
# ミニマルアノテートX線によるロバストパッチ抽出による脊椎骨芽細胞の検出

Spinal Osteophyte Detection via Robust Patch Extraction on minimally annotated X-rays ( http://arxiv.org/abs/2402.19263v1 )

ライセンス: Link先を確認
Soumya Snigdha Kundu, Yuanhan Mo, Nicharee Srikijkasemwat, Bart{\l}omiej W. Papiez(参考訳) 関節炎の発生と進行は骨芽細胞と強く関連しており、骨の成長は小さく、骨芽細胞は希薄である。 本稿では,脊髄X線による脊椎骨芽細胞自動検出への最初の取り組みについて述べる。 SegPatchと呼ばれる新しい自動パッチ抽出プロセスが、深層学習による椎骨分割とマスク輪郭の拡大に基づいて提案されている。 最終パッチ分類精度は84.5\%であり、ベースラインタイリングベースのパッチ生成技術を9.5%上回っている。 これは、アノテーションが限られていても、SegPatchは骨芽細胞などの小さな構造の検出に優れたパフォーマンスを提供できることを示している。 提案手法は,脊椎X線で骨芽細胞を手動で同定するプロセスの迅速化を支援する可能性がある。

The development and progression of arthritis is strongly associated with osteophytes, which are small and elusive bone growths. This paper presents one of the first efforts towards automated spinal osteophyte detection in spinal X-rays. A novel automated patch extraction process, called SegPatch, has been proposed based on deep learning-driven vertebrae segmentation and the enlargement of mask contours. A final patch classification accuracy of 84.5\% is secured, surpassing a baseline tiling-based patch generation technique by 9.5%. This demonstrates that even with limited annotations, SegPatch can deliver superior performance for detection of tiny structures such as osteophytes. The proposed approach has potential to assist clinicians in expediting the process of manually identifying osteophytes in spinal X-ray.
翻訳日:2024-03-01 14:12:24 公開日:2024-02-29
# 集積非線形量子フォトニクスのシミュレーションフレームワーク

Simulation framework for integrated nonlinear quantum photonics ( http://arxiv.org/abs/2402.19317v1 )

ライセンス: Link先を確認
Seonghun Kim, Youngbin Kim, Young-Do Yoon, Seongjin Jeon, Woo-Joo Kim, Young-Ik Sohn(参考訳) 非線形量子フォトニクスは、普遍量子コンピューティングや量子通信のようなフォトニック量子技術の基盤となる。 統合フォトニクスプラットフォームの出現は、大規模製造の利点を提供するだけでなく、様々な工学的手法も提供する。 統合フォトニクス工学の複雑さを考えると、プラットフォームの可能性を完全に活用するには包括的なシミュレーションフレームワークが不可欠である。 本研究では, 断熱導波路, 材料異方性, 線形光学成分, 光子損失, 検出器などの様々な特徴を正確にモデル化できる非線形量子フォトニクスシミュレーションフレームワークを提案する。 さらに,このフレームワークを利用して,様々な量子情報処理タスクに有用なチップスケールの時間的ウォークオフ補償装置を開発した。 シミュレーションの枠組みを応用し,提案手法により,高出力のポンプを使わずに,光子ペア源のスクイーズパラメータと量子周波数変換器の変換効率を向上できることを示した。

Nonlinear quantum photonics serves as a cornerstone in photonic quantum technologies, such as universal quantum computing and quantum communications. The emergence of integrated photonics platform not only offers the advantage of large-scale manufacturing but also provides a variety of engineering methods. Given the complexity of integrated photonics engineering, a comprehensive simulation framework is essential to fully harness the potential of the platform. In this context, we introduce a nonlinear quantum photonics simulation framework which can accurately model a variety of features such as adiabatic waveguide, material anisotropy, linear optics components, photon losses, and detectors. Furthermore, utilizing the framework, we have developed a device scheme, chip-scale temporal walk-off compensation, that is useful for various quantum information processing tasks. Applying the simulation framework, we show that the proposed device scheme can enhance the squeezing parameter of photon-pair sources and the conversion efficiency of quantum frequency converters without relying on higher pump power.
翻訳日:2024-03-01 14:08:41 公開日:2024-02-29
# 反強磁性スピン鎖における異方性誘起スピンパリティ効果

Anisotropy-Induced Spin Parity Effects in an Antiferromagnetic Spin Chain ( http://arxiv.org/abs/2402.19311v1 )

ライセンス: Link先を確認
Shuntaro Sumita, Akihiro Tanaka, and Yusuke Kato(参考訳) スピンパリティ効果(スピンパリティえき、英: Spin parity effect)とは、系の物理的挙動における二分法が生じる特別な状況を指し、関連するスピン量子数が積分であるか半負積分であるかに依存する。 反強磁性スピン鎖におけるハルダン予想と同様に、それらの追求はしばしば深い洞察を与え、量子凝縮物質物理学の新しい発展を呼び起こす。 ここでは、異方性相互作用を用いることにより、任意の空間次元におけるそのような効果を生成するための単純で一般的なスキームについて述べる。 本研究では, 横磁場中の異方性反強磁性体である特定の一次元スピン鎖モデルの磁化挙動を詳細に解析し, 従来注目されてきたが明確には理解されていない磁化曲線で観測された有限サイズの効果の量子的起源を明らかにする。

Spin parity effects refer to those special situations where a dichotomy in the physical behavior of a system arises, solely depending on whether the relevant spin quantum number is integral or half-odd integral. As is the case with the Haldane conjecture in antiferromagnetic spin chains, their pursuit often provides deep insights and invokes new developments in quantum condensed matter physics. Here we put forth a simple and general scheme for generating such effects in any spatial dimension through the use of anisotropic interactions, a setup within reasonable reach of state-of-the-art cold-atom implementations. We demonstrate its utility through a detailed analysis of the magnetization behavior of a specific one-dimensional spin chain model -- an anisotropic antiferromagnet in a transverse magnetic field, unraveling along the way the quantum origin of finite-size effects observed in the magnetization curve that had previously been noted but not clearly understood.
翻訳日:2024-03-01 14:08:25 公開日:2024-02-29
# ロスフリーマシンアンラーニング

Loss-Free Machine Unlearning ( http://arxiv.org/abs/2402.19308v1 )

ライセンス: Link先を確認
Jack Foster, Stefan Schoepf, Alexandra Brintrup(参考訳) 我々は、再学習とラベルなしの両方の機械学習アプローチを提案する。 既存の機械学習アプローチの多くは、パフォーマンスを保ちながら情報を除去するために、モデルを微調整する必要がある。 これは計算コストが高く、モデルの存続期間にデータセット全体の保存を必要とする。 Retraining-freeアプローチは、損失から派生したFisher情報を利用することが多く、利用できないラベル付きデータを必要とする。 そこで本研究では,モデル出力のl2ノルムの勾配に対して,フィッシャー情報行列の対角線を近似感度に置き換えた選択的シナプス減衰アルゴリズムの拡張を提案する。 本研究では,ResNet18とVision Transformerを用いて実験を行った。 提案手法は,既存の最先端手法と競合することを示す。

We present a machine unlearning approach that is both retraining- and label-free. Most existing machine unlearning approaches require a model to be fine-tuned to remove information while preserving performance. This is computationally expensive and necessitates the storage of the whole dataset for the lifetime of the model. Retraining-free approaches often utilise Fisher information, which is derived from the loss and requires labelled data which may not be available. Thus, we present an extension to the Selective Synaptic Dampening algorithm, substituting the diagonal of the Fisher information matrix for the gradient of the l2 norm of the model output to approximate sensitivity. We evaluate our method in a range of experiments using ResNet18 and Vision Transformer. Results show our label-free method is competitive with existing state-of-the-art approaches.
翻訳日:2024-03-01 14:08:06 公開日:2024-02-29
# sistema cuantico abiertoにおけるslucion exactlya para un modelo simplificado de un sistema cuantico abierto

Solucion exacta para un modelo simplificado de un sistema cuantico abierto ( http://arxiv.org/abs/2402.19307v1 )

ライセンス: Link先を確認
Eduardo Franco Sotelo Bazan(参考訳) 貯水池として機能する多数の発振器と相互作用する量子系として、初期励起発振器の単純化されたモデルが開発されている。 これらの発振器はすべて、互いに結合していない基底状態にあり、システムと貯水池の間の弱い結合の限界である。 このシステムは、真空の電磁場とゼロ温度で相互作用する微小キャビティで励起される発振器かもしれない。 この研究の主な目標は、これらの条件下でシステムの密度行列の正確な解を得ることである。 一般的なアプローチは、進化作用素を用いて、すべての発振子の進化を単一の孤立実体として計算する。 系と貯水池の間で分解できる全初期状態から始まり、進化はユニタリであり、部分的トレースは環境の全ての自由度で取り込まれ、任意の瞬間に系の密度行列を得る。 その結果, N=1000発振器の貯留層, 結合力の値, スペクトル密度のオーミック秩序を, セクション[2.3.1]で記述した対応するマルコフ溶液と対比した。

A simplified model of an initially excited oscillator as a quantum system interacting with a large number of oscillators acting as a reservoir has been developed in this work. All these oscillators are in their ground state uncoupled each other and at the limit of the weak coupling between the system and the reservoir. This system could be an oscillator excited in a microcavity that interacts with the vacuum's electromagnetic field at zero temperature. This work's primary goal is to obtain the system's density matrix's exact solution in these conditions. The general approach calculates all oscillators' evolution as a single isolated entity using the evolution operator. Starting from a total initial state that can be factored between the system and the reservoir, the evolution is unitary, and the partial trace is taken in all the degrees of freedom of the environment to obtain the density matrix of the system at any instant of time; this procedure requires diagonalizing Hamiltonian. The results are evaluated for a reservoir of N=1000 oscillators, particular values of the coupling force, and ohmic order of the spectral density, contrasted with the corresponding Markovian solution described in section [2.3.1].
翻訳日:2024-03-01 14:07:55 公開日:2024-02-29
# HyenaPixel: 畳み込みを伴うグローバルイメージコンテキスト

HyenaPixel: Global Image Context with Convolutions ( http://arxiv.org/abs/2402.19305v1 )

ライセンス: Link先を確認
Julian Spravil, Sebastian Houben, Sven Behnke(参考訳) 視覚タスクでは、より大きな有効受容場(ERF)がより良いパフォーマンスに結びついている。 注目はグローバルなコンテキストをネイティブにサポートしますが、畳み込みには複数のレイヤと大きなコンテキストのための階層構造が必要です。 本研究では,畳み込みに基づく注意の置き換えであるhyenaを因果系列から非因果2次元画像空間へと拡張する。 我々は,Hyena畳み込みカーネルを特徴マップサイズを超えて191$\times$191まで拡張し,ピクセル数においてサブクアドラティックな複雑さを維持しながらRFを最大化する。 2次元のHyena、HyenaPixel、双方向のHyenaをMetaFormerフレームワークに統合します。 画像分類において、HyenaPixelとHyenaは競合するImageNet-1kトップ-1の精度を83.0%と83.5%で達成し、他の大規模カーネルネットワークより優れている。 hyenapixelと注意を組み合わせることで、精度はさらに83.6%向上する。 我々は,後段における空間バイアスの欠如による注意の高まりと,この発見を双方向ハイエナで支援している。

In vision tasks, a larger effective receptive field (ERF) is associated with better performance. While attention natively supports global context, convolution requires multiple stacked layers and a hierarchical structure for large context. In this work, we extend Hyena, a convolution-based attention replacement, from causal sequences to the non-causal two-dimensional image space. We scale the Hyena convolution kernels beyond the feature map size up to 191$\times$191 to maximize the ERF while maintaining sub-quadratic complexity in the number of pixels. We integrate our two-dimensional Hyena, HyenaPixel, and bidirectional Hyena into the MetaFormer framework. For image categorization, HyenaPixel and bidirectional Hyena achieve a competitive ImageNet-1k top-1 accuracy of 83.0% and 83.5%, respectively, while outperforming other large-kernel networks. Combining HyenaPixel with attention further increases accuracy to 83.6%. We attribute the success of attention to the lack of spatial bias in later stages and support this finding with bidirectional Hyena.
翻訳日:2024-03-01 14:07:34 公開日:2024-02-29
# 戦略分類の学習可能性ギャップ

Learnability Gaps of Strategic Classification ( http://arxiv.org/abs/2402.19303v1 )

ライセンス: Link先を確認
Lee Cohen, Yishay Mansour, Shay Moran, Han Shao(参考訳) 標準的な分類タスクとは対照的に、戦略的分類には、適切な予測を受けるために、その特徴を戦略的に修正するエージェントが含まれる。 例えば、信用スコアに基づいてローン承認を決定する分類器が与えられた場合、申請者はクレジットカードを開設または閉鎖してその分類器を騙すことができる。 学習目標は、戦略的な操作に対して堅牢な分類器を見つけることである。 戦略分類において、情報が何といつを知るかに基づく様々な設定が検討されている。 本研究は,戦略的分類と標準学習の学習可能性ギャップという,基本的な問題に対処することに焦点を当てる。 まず、操作構造(操作グラフ $g^\star$ でモデル化される)が知られており、トレーニング中、学習者は事前操作データと後操作データの両方にアクセスすることができる。 ほぼ厳密なサンプルの複雑さと後悔の限界を提供し、以前の結果よりも大幅に改善します。 そして、2つの自然な不確実性を導入することで、完全な情報的設定を緩和する。 まず,Ahmadi et al. (2023)に従って,学習者が操作後データにのみアクセス可能な設定を検討する。 我々は,ahmadi et al. (2023)の結果を改善し,それらによって引き起こされた誤りの上界と下界の間のギャップを閉じる。 完全な情報的設定の2つ目の緩和は、操作構造に不確実性をもたらす。 すなわち、操作グラフは未知であるが、既知のグラフのクラスに属すると仮定する。 様々な未知操作グラフの設定において、学習の複雑さについてほぼ厳密な境界を提供する。 この設定における我々のアルゴリズムは独立した興味を持ち、マルチラベル学習などの他の問題に適用できる。

In contrast with standard classification tasks, strategic classification involves agents strategically modifying their features in an effort to receive favorable predictions. For instance, given a classifier determining loan approval based on credit scores, applicants may open or close their credit cards to fool the classifier. The learning goal is to find a classifier robust against strategic manipulations. Various settings, based on what and when information is known, have been explored in strategic classification. In this work, we focus on addressing a fundamental question: the learnability gaps between strategic classification and standard learning. We essentially show that any learnable class is also strategically learnable: we first consider a fully informative setting, where the manipulation structure (which is modeled by a manipulation graph $G^\star$) is known and during training time the learner has access to both the pre-manipulation data and post-manipulation data. We provide nearly tight sample complexity and regret bounds, offering significant improvements over prior results. Then, we relax the fully informative setting by introducing two natural types of uncertainty. First, following Ahmadi et al. (2023), we consider the setting in which the learner only has access to the post-manipulation data. We improve the results of Ahmadi et al. (2023) and close the gap between mistake upper bound and lower bound raised by them. Our second relaxation of the fully informative setting introduces uncertainty to the manipulation structure. That is, we assume that the manipulation graph is unknown but belongs to a known class of graphs. We provide nearly tight bounds on the learning complexity in various unknown manipulation graph settings. Notably, our algorithm in this setting is of independent interest and can be applied to other problems such as multi-label learning.
翻訳日:2024-03-01 14:07:17 公開日:2024-02-29
# DiffAssemble: 2次元および3次元再構成のための統一グラフ拡散モデル

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly ( http://arxiv.org/abs/2402.19302v1 )

ライセンス: Link先を確認
Gianluca Scarpellini, Stefano Fiorini, Francesco Giuliari, Pietro Morerio, Alessio Del Bue(参考訳) 再組み立てタスクは多くの分野で基本的な役割を担っており、特定の再組み立て問題を解決するために複数のアプローチが存在する。 この文脈では、入力データの種類(画像、3Dなど)に関係なく、汎用統一モデルがこれらすべてに効果的に対処できると仮定する。 グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入し,拡散モデルの定式化を用いて再組立タスクの解法を学ぶ。 本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。 要素の位置と回転にノイズを導入し、それらを反復してコヒーレントな初期ポーズを再構築してトレーニングを行う。 diffassembleは最先端(sota)の結果を2dと3dで再組み立てし、回転と翻訳の両方の2dパズルを解く最初の学習ベースのアプローチである。 さらに,最も高速な最適化手法よりも11倍の高速化を実現し,実行時間の大幅な削減を図った。 https://github.com/IIT-PAVIS/DiffAssembleで利用可能なコード

Reassembly tasks play a fundamental role in many fields and multiple approaches exist to solve specific reassembly problems. In this context, we posit that a general unified model can effectively address them all, irrespective of the input data type (images, 3D, etc.). We introduce DiffAssemble, a Graph Neural Network (GNN)-based architecture that learns to solve reassembly tasks using a diffusion model formulation. Our method treats the elements of a set, whether pieces of 2D patch or 3D object fragments, as nodes of a spatial graph. Training is performed by introducing noise into the position and rotation of the elements and iteratively denoising them to reconstruct the coherent initial pose. DiffAssemble achieves state-of-the-art (SOTA) results in most 2D and 3D reassembly tasks and is the first learning-based approach that solves 2D puzzles for both rotation and translation. Furthermore, we highlight its remarkable reduction in run-time, performing 11 times faster than the quickest optimization-based method for puzzle solving. Code available at https://github.com/IIT-PAVIS/DiffAssemble
翻訳日:2024-03-01 14:06:51 公開日:2024-02-29
# RL-GPT:強化学習とコード・アズ・ポリティシーの統合

RL-GPT: Integrating Reinforcement Learning and Code-as-policy ( http://arxiv.org/abs/2402.19299v1 )

ライセンス: Link先を確認
Shaoteng Liu, Haoqi Yuan, Minda Hu, Yanwei Li, Yukang Chen, Shu Liu, Zongqing Lu, Jiaya Jia(参考訳) LLM(Large Language Models)は、コーディングによって様々なツールを活用する能力を示したが、複雑な論理処理と正確な制御の制限に直面している。 具体的タスクでは、高レベルプランニングは直接コーディングに適しており、低レベルアクションは強化学習(RL)のようなタスク固有の改善を必要とすることが多い。 両モードをシームレスに統合するために,遅いエージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを導入する。 遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。 この分解は、各エージェントが特定のタスクに集中し、パイプライン内で非常に効率的なことを証明します。 提案手法は従来のRL法や既存のGPTエージェントよりも優れ,効率が良好である。 minecraftゲームでは、rtx3090上で1日以内にダイヤモンドを迅速に取得する。 さらに、指定されたすべてのMineDojoタスクでSOTAパフォーマンスを達成する。

Large Language Models (LLMs) have demonstrated proficiency in utilizing various tools by coding, yet they face limitations in handling intricate logic and precise control. In embodied tasks, high-level planning is amenable to direct coding, while low-level actions often necessitate task-specific refinement, such as Reinforcement Learning (RL). To seamlessly integrate both modalities, we introduce a two-level hierarchical framework, RL-GPT, comprising a slow agent and a fast agent. The slow agent analyzes actions suitable for coding, while the fast agent executes coding tasks. This decomposition effectively focuses each agent on specific tasks, proving highly efficient within our pipeline. Our approach outperforms traditional RL methods and existing GPT agents, demonstrating superior efficiency. In the Minecraft game, it rapidly obtains diamonds within a single day on an RTX3090. Additionally, it achieves SOTA performance across all designated MineDojo tasks.
翻訳日:2024-03-01 14:06:30 公開日:2024-02-29
# 抑制とリバランス:汎用マルチモーダル顔アンチスプーフィングを目指して

Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing ( http://arxiv.org/abs/2402.19298v1 )

ライセンス: Link先を確認
Xun Lin, Shuai Wang, Rizhao Cai, Yizhong Liu, Ying Fu, Zitong Yu, Wenzhong Tang, Alex Kot(参考訳) face anti-spoofing (fas) はプレゼンテーション攻撃に対する顔認識システムを確保するために重要である。 センサ製造とマルチモーダル学習技術の進歩により、多くのマルチモーダルFASアプローチが出現している。 しかし、攻撃や展開条件を認識できないように一般化する上での課題に直面している。 これらの課題は、(1)奥行きや赤外線などのモダリティセンサーが様々な環境において重要な領域シフトを起こし、クロスモダリティ特徴融合中に信頼できない情報が拡散する、(2)モダリティ不均衡、(2)トレーニングが支配的なモダリティに依存する、他のモダリティの収束を阻害するモダリティ不均衡、そして支配的なモダリティを用いて識別不能な攻撃タイプに対する効果を低下させる、といったものである。 モダリティの不確実性に対処するために,不確実性誘導型クロスアダプタ(u-adapter)を提案し,各モダリティ内の不確かに検出された領域を認識し,他のモダリティに対する信頼できない領域の影響を抑制する。 モダリティの不均衡を考慮し,すべてのモダリティの収束速度を適応的に調整し,リバランスモードの勾配変調(ReGrad)戦略を提案する。 さらに、ドメイン一般化シナリオ下でのマルチモーダルFAS性能を評価するための最初の大規模ベンチマークを提供する。 広範な実験により,本手法が最先端手法よりも優れていることが証明された。 ソースコードとプロトコルはhttps://github.com/omggggg/mmdgでリリースされる。

Face Anti-Spoofing (FAS) is crucial for securing face recognition systems against presentation attacks. With advancements in sensor manufacture and multi-modal learning techniques, many multi-modal FAS approaches have emerged. However, they face challenges in generalizing to unseen attacks and deployment conditions. These challenges arise from (1) modality unreliability, where some modality sensors like depth and infrared undergo significant domain shifts in varying environments, leading to the spread of unreliable information during cross-modal feature fusion, and (2) modality imbalance, where training overly relies on a dominant modality hinders the convergence of others, reducing effectiveness against attack types that are indistinguishable sorely using the dominant modality. To address modality unreliability, we propose the Uncertainty-Guided Cross-Adapter (U-Adapter) to recognize unreliably detected regions within each modality and suppress the impact of unreliable regions on other modalities. For modality imbalance, we propose a Rebalanced Modality Gradient Modulation (ReGrad) strategy to rebalance the convergence speed of all modalities by adaptively adjusting their gradients. Besides, we provide the first large-scale benchmark for evaluating multi-modal FAS performance under domain generalization scenarios. Extensive experiments demonstrate that our method outperforms state-of-the-art methods. Source code and protocols will be released on https://github.com/OMGGGGG/mmdg.
翻訳日:2024-03-01 14:06:15 公開日:2024-02-29
# 進行食道腺癌に対する免疫療法の維持に適したTumour-Immune microenvironmentのAIによるデジタルスコア

An AI based Digital Score of Tumour-Immune Microenvironment Predicts Benefit to Maintenance Immunotherapy in Advanced Oesophagogastric Adenocarcinoma ( http://arxiv.org/abs/2402.19296v1 )

ライセンス: Link先を確認
Quoc Dang Vu, Caroline Fong, Anderley Gordon, Tom Lund, Tatiany L Silveira, Daniel Rodrigues, Katharina von Loga, Shan E Ahmed Raza, David Cunningham, Nasir Rajpoot(参考訳) 胃癌と食道癌(OG)は世界中でがん死亡の原因となっている。 og癌では、最近の研究では、pdl1免疫チェックポイント阻害剤(ici)と化学療法が患者の生存を改善できることが示されている。 しかし,og癌における腫瘍免疫マイクロ環境の理解は限られている。 本研究は,PLATFORM試験(NCT02678182)において一線性フルオロピリミジンおよびプラチナ系化学療法を施行した進行性食道胃腺癌(OGA)患者の多発性免疫蛍光(mIF)像を検査し,治療効果を予測し,維持デュラバマブ(PDL1阻害剤)に反応する患者の生物学的基盤を探るためである。 提案したAIマーカーは,非応答者 (p < 0.05) からの応答者を同定し,ICIの統計的意義 (p < 0.05) を有する可能性が示唆された。 foxp3を発現するt細胞は患者の治療反応や生存成績に大きく影響していると考えられる。 また,CD8+PD1+細胞はICIにかかわらず,OSおよびPSSの予後不良と一貫して関連していることがわかった。

Gastric and oesophageal (OG) cancers are the leading causes of cancer mortality worldwide. In OG cancers, recent studies have showed that PDL1 immune checkpoint inhibitors (ICI) in combination with chemotherapy improves patient survival. However, our understanding of the tumour immune microenvironment in OG cancers remains limited. In this study, we interrogate multiplex immunofluorescence (mIF) images taken from patients with advanced Oesophagogastric Adenocarcinoma (OGA) who received first-line fluoropyrimidine and platinum-based chemotherapy in the PLATFORM trial (NCT02678182) to predict the efficacy of the treatment and to explore the biological basis of patients responding to maintenance durvalumab (PDL1 inhibitor). Our proposed Artificial Intelligence (AI) based marker successfully identified responder from non-responder (p < 0.05) as well as those who could potentially benefit from ICI with statistical significance (p < 0.05) for both progression free and overall survival. Our findings suggest that T cells that express FOXP3 seem to heavily influence the patient treatment response and survival outcome. We also observed that higher levels of CD8+PD1+ cells are consistently linked to poor prognosis for both OS and PFS, regardless of ICI.
翻訳日:2024-03-01 14:05:46 公開日:2024-02-29
# 階層型ベイズモデルによる沖合風車構造物の異常検出

Anomaly Detection in Offshore Wind Turbine Structures using Hierarchical Bayesian Modelling ( http://arxiv.org/abs/2402.19295v1 )

ライセンス: Link先を確認
S. M. Smith, A. J. Hughes, T. A. Dardeno, L. A. Bull, N. Dervilis, K. Worden(参考訳) 人口ベース構造健康モニタリング(PBSHM)は、人口間で情報を共有することを目的としている。 オフショア風(ow)農場は名目上同一の風力タービン構造の人口と見なすことができた。 しかし、幾何学、海底条件、温度差など、メンバー間での良質な差異が存在する。 これらの因子は構造特性や動的応答に影響を与える可能性があるため、従来のSHM技術による構造問題の検出が困難になる。 本稿では, 既設および新規のタービンに対して, 異常検出を行うための基礎として, 人口および局地レベルの土壌剛性分布を推定するための階層ベイズモデルの利用について検討する。 これを実現するため、自然周波数の観測は風力タービンの少ない個体群から発生するかのように行われる。 地盤の硬さと測定ノイズの分布を仮定し, 地盤の深さを減少させることにより, 異常検出を行うことにより, 個々の観測値の違いがもたらされる。

Population-based structural health monitoring (PBSHM), aims to share information between members of a population. An offshore wind (OW) farm could be considered as a population of nominally-identical wind-turbine structures. However, benign variations exist among members, such as geometry, sea-bed conditions and temperature differences. These factors could influence structural properties and therefore the dynamic response, making it more difficult to detect structural problems via traditional SHM techniques. This paper explores the use of a hierarchical Bayesian model to infer expected soil stiffness distributions at both population and local levels, as a basis to perform anomaly detection, in the form of scour, for new and existing turbines. To do this, observations of natural frequency will be generated as though they are from a small population of wind turbines. Differences between individual observations will be introduced by postulating distributions over the soil stiffness and measurement noise, as well as reducing soil depth (to represent scour), in the case of anomaly detection.
翻訳日:2024-03-01 14:05:19 公開日:2024-02-29
# 未知障害モードにおける劣化モデルと予後解析

Degradation Modeling and Prognostic Analysis Under Unknown Failure Modes ( http://arxiv.org/abs/2402.19294v1 )

ライセンス: Link先を確認
Ying Fu, Ye Kwon Huh and Kaibo Liu(参考訳) 運用ユニットは複雑なシステムで様々な障害モードを経験し、異なる劣化経路につながる。 単一障害モードでトレーニングされた予測モデルに依存すると、複数の障害モードにわたる一般化性能が低下する可能性がある。 したがって、失敗モードを正確に識別することが重要である。 現在の確率論的アプローチは、劣化中の障害モードを無視したり、既知の障害モードラベルを仮定する。 また,センサ信号の高次元と複雑な関係は,故障モードを正確に識別することが困難である。 これらの問題に対処するために,UMAP (Uniform Manifold Approximation and Projection) と呼ばれる次元削減手法を用いて,各ユニットの劣化軌跡を低次元に投影・可視化する新しい故障モード診断手法を提案する。 そして,これらの劣化軌跡を用いて,トレーニングユニットの故障モードを特定する時系列クラスタリング手法を開発した。 最後に,単調拘束型予測モデルを導入し,得られた学習ユニットの故障モードを用いて,テストユニットの故障モードラベルとrulを同時に予測する。 提案した予測モデルは、連続時間ステップでRUL予測の単調性を保ちながら、障害モード固有のRUL予測を提供する。 提案モデルは,航空機用ガスタービンエンジンデータセットを用いたケーススタディを用いて評価する。

Operating units often experience various failure modes in complex systems, leading to distinct degradation paths. Relying on a prognostic model trained on a single failure mode may lead to poor generalization performance across multiple failure modes. Therefore, accurately identifying the failure mode is of critical importance. Current prognostic approaches either ignore failure modes during degradation or assume known failure mode labels, which can be challenging to acquire in practice. Moreover, the high dimensionality and complex relations of sensor signals make it challenging to identify the failure modes accurately. To address these issues, we propose a novel failure mode diagnosis method that leverages a dimension reduction technique called UMAP (Uniform Manifold Approximation and Projection) to project and visualize each unit's degradation trajectory into a lower dimension. Then, using these degradation trajectories, we develop a time series-based clustering method to identify the training units' failure modes. Finally, we introduce a monotonically constrained prognostic model to predict the failure mode labels and RUL of the test units simultaneously using the obtained failure modes of the training units. The proposed prognostic model provides failure mode-specific RUL predictions while preserving the monotonic property of the RUL predictions across consecutive time steps. We evaluate the proposed model using a case study with the aircraft gas turbine engine dataset.
翻訳日:2024-03-01 14:05:02 公開日:2024-02-29
# トレース保存全正写像の熱力学的トレードオフ関係と量子コンピュータ上の観測

Thermodynamic Trade-Off Relations in Trace-Preserving Completely Positive Maps and Its Observation on a Quantum Computer ( http://arxiv.org/abs/2402.19293v1 )

ライセンス: Link先を確認
Nobumasa Ishida and Yoshihiko Hasegawa(参考訳) 熱力学的トレードオフ関係は、量子情報処理に固有のコストを明らかにする。 トレース保存完全正写像の枠組みを用いて、任意の可観測物に適用可能な一般化された量子熱力学的不確実性関係を導出する。 この関係を展開し、熱力学的コストと精度、可観測物の進化、量子時間相関を結びつける複数のトレードオフを確立する。 量子コンピュータ上で超伝導量子ビットを用いたトレードオフ関係を実験的に検証した。 実験結果は、理論的な予測と顕著な一致を示しただけでなく、観測可能と量子時間コリレータの精度が熱力学的コストによって強く制約されていることも示している。 本研究は,現在の量子技術における熱力学的トレードオフ関係の関連性を明らかにするものである。

Thermodynamic trade-off relations reveal the costs inherent in quantum information processing. Using the framework of trace-preserving completely positive maps, we derive a generalized quantum thermodynamic uncertainty relation applicable to arbitrary observables. Exploiting this relation, we establish multiple trade-offs that connect thermodynamic costs with the precision, evolution of observables, and quantum time correlations. We experimentally demonstrate the trade-off relations using superconducting qubits on a quantum computer to verify the theory. The empirical results not only show remarkable agreement with the theoretical predictions but also reveal that the precision of an observable and the quantum time correlator are tightly constrained by the thermodynamic cost. Our findings highlight the relevance of the thermodynamic trade-off relations in current quantum technologies.
翻訳日:2024-03-01 14:04:24 公開日:2024-02-29
# 2次周期的信号の推定とデコンボリューション

Estimation and Deconvolution of Second Order Cyclostationary Signals ( http://arxiv.org/abs/2402.19290v1 )

ライセンス: Link先を確認
Igor Makienko, Michael Grebshtein, Eli Gildish(参考訳) 本手法は,センサへのトランスファー関数(TF)を伝送する雑音性二階シクロ定常(CS2)信号のブラインドデコンボリューションと時間波形の推定という2つの問題を解く。 我々は、デコンボリューションフィルタが存在することを証明し、時間とともに統計が変化する信号からtf効果を排除する。 この方法は盲目であり、信号やtfに関する事前の知識を必要としない。 シミュレーションは、様々な信号タイプ、tfs、snr(signal-to-noise ratios)において高い精度を示す。 本研究では,CS2信号ファミリーは決定論的周期関数と白色雑音の積に制限される。 さらに、同一のシステムからの信号の集約が異なるtfsで必要とされる機械学習モデルのトレーニングを改善する可能性を秘めている。

This method solves the dual problem of blind deconvolution and estimation of the time waveform of noisy second-order cyclo-stationary (CS2) signals that traverse a Transfer Function (TF) en route to a sensor. We have proven that the deconvolution filter exists and eliminates the TF effect from signals whose statistics vary over time. This method is blind, meaning it does not require prior knowledge about the signals or TF. Simulations demonstrate the algorithm high precision across various signal types, TFs, and Signal-to-Noise Ratios (SNRs). In this study, the CS2 signals family is restricted to the product of a deterministic periodic function and white noise. Furthermore, this method has the potential to improve the training of Machine Learning models where the aggregation of signals from identical systems but with different TFs is required.
翻訳日:2024-03-01 14:04:00 公開日:2024-02-29
# CAMixerSR:詳細は「注意」のみ

CAMixerSR: Only Details Need More "Attention" ( http://arxiv.org/abs/2402.19289v1 )

ライセンス: Link先を確認
Yan Wang, Shijie Zhao, Yi Liu, Junlin Li, Li Zhang(参考訳) 大画像(2k-8k)超解像度(sr)の急速に増加する要求を満たすため、一般的な方法は2つの独立したトラックに従う。 1)コンテンツ認識ルーティングによる既存ネットワークの高速化 2) トークンミキサー精製による高解像度ネットワークの設計 直接性にもかかわらず、それらは避けられない欠陥(例えば、柔軟性のない経路や非差別的な処理)に遭遇し、品質と複雑さのトレードオフをさらに改善する。 欠点を解消するために,コンテント・アウェア・ミキサー (CAMixer) を提案し,コンボリューションを単純なコンテキストに割り当てるとともに,余分なテクスチャに変形可能なウィンドウアテンションを追加することで,これらのスキームを統合する。 具体的には、CAMixerは学習可能な予測器を使用して複数のブートストラップを生成し、ウィンドウのワープのオフセット、ウィンドウの分類のためのマスク、動的特性との畳み込みを達成するための畳み込み注意、より有用なテクスチャを自己適応的に含み、畳み込みの表現能力を向上させる。 さらに,予測器の精度を向上させるために,グローバル分類損失を導入する。 カミキサーを積み重ねることで,大画像sr,軽量sr,全方位画像srにおいて優れた性能を実現するカミキサーを得る。

To satisfy the rapidly increasing demands on the large image (2K-8K) super-resolution (SR), prevailing methods follow two independent tracks: 1) accelerate existing networks by content-aware routing, and 2) design better super-resolution networks via token mixer refining. Despite directness, they encounter unavoidable defects (e.g., inflexible route or non-discriminative processing) limiting further improvements of quality-complexity trade-off. To erase the drawbacks, we integrate these schemes by proposing a content-aware mixer (CAMixer), which assigns convolution for simple contexts and additional deformable window-attention for sparse textures. Specifically, the CAMixer uses a learnable predictor to generate multiple bootstraps, including offsets for windows warping, a mask for classifying windows, and convolutional attentions for endowing convolution with the dynamic property, which modulates attention to include more useful textures self-adaptively and improves the representation capability of convolution. We further introduce a global classification loss to improve the accuracy of predictors. By simply stacking CAMixers, we obtain CAMixerSR which achieves superior performance on large-image SR, lightweight SR, and omnidirectional-image SR.
翻訳日:2024-03-01 14:03:31 公開日:2024-02-29
# 都市コンピューティングにおけるクロスドメインデータ融合のための深層学習 : 分類学、進歩、展望

Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook ( http://arxiv.org/abs/2402.19348v1 )

ライセンス: Link先を確認
Xingchen Zou, Yibo Yan, Xixuan Hao, Yuehong Hu, Haomin Wen, Erdong Liu, Junbo Zhang, Yong Li, Tianrui Li, Yu Zheng, Yuxuan Liang(参考訳) 都市が成長を続けるにつれて、都市コンピューティングは様々な情報源(地理的、交通、ソーシャルメディア、環境データなど)とモダリティ(時空間、視覚、テキストなど)からのクロスドメインデータ融合の力を活用することで、持続可能な開発のための重要な分野として出現する。 近年,スマートシティにおけるドメイン間データ融合を促進するために,様々な深層学習手法が用いられている。 そこで本稿では,都市コンピューティングに適した深層学習に基づくデータ融合手法の最近の進歩を体系的にレビューする最初の調査を提案する。 具体的には、まずデータの観点から、各モーダリティとデータソースの役割を理解する。 次に,提案手法を特徴ベース,アライメントベース,コントラストベース,生成ベース融合の4つのカテゴリに分類する。 第3に, 都市計画, 交通, 経済, 公共安全, 社会, 環境, エネルギーの7つのタイプに分類される。 これまでの調査と比較して,都市コンピューティングアプリケーションを用いた深層学習手法のシナジーに重点を置いている。 さらに,Large Language Models (LLM) と都市コンピューティングの相互作用に光を当て,この分野に革命をもたらす可能性のある今後の研究方向を示唆した。 我々は,我々の調査で明らかにされた分類,進歩,展望が,研究コミュニティを著しく豊かにする可能性があると強く信じている。 包括的で最新のペーパーリストの要約はhttps://github.com/yoshall/Awesome-Multimodal-Urban-Computingで見ることができる。

As cities continue to burgeon, Urban Computing emerges as a pivotal discipline for sustainable development by harnessing the power of cross-domain data fusion from diverse sources (e.g., geographical, traffic, social media, and environmental data) and modalities (e.g., spatio-temporal, visual, and textual modalities). Recently, we are witnessing a rising trend that utilizes various deep-learning methods to facilitate cross-domain data fusion in smart cities. To this end, we propose the first survey that systematically reviews the latest advancements in deep learning-based data fusion methods tailored for urban computing. Specifically, we first delve into data perspective to comprehend the role of each modality and data source. Secondly, we classify the methodology into four primary categories: feature-based, alignment-based, contrast-based, and generation-based fusion methods. Thirdly, we further categorize multi-modal urban applications into seven types: urban planning, transportation, economy, public safety, society, environment, and energy. Compared with previous surveys, we focus more on the synergy of deep learning methods with urban computing applications. Furthermore, we shed light on the interplay between Large Language Models (LLMs) and urban computing, postulating future research directions that could revolutionize the field. We firmly believe that the taxonomy, progress, and prospects delineated in our survey stand poised to significantly enrich the research community. The summary of the comprehensive and up-to-date paper list can be found at https://github.com/yoshall/Awesome-Multimodal-Urban-Computing.
翻訳日:2024-03-01 13:59:26 公開日:2024-02-29
# instagramの#poetsofinstagram:instagramの初心者詩人のプラクティスと課題をナビゲート

#PoetsOfInstagram: Navigating The Practices And Challenges Of Novice Poets On Instagram ( http://arxiv.org/abs/2402.19347v1 )

ライセンス: Link先を確認
Ankolika De, Zhicong Lu(参考訳) 写真共有プラットフォームとしてスタートしたinstagramは、その後多面的になり、さまざまな芸術形態に適応し、詩が目立ったものとなった。 しかし、Instagramの詩コミュニティに関する学術的な理解は限られているが、その重要性は、主にビジュアルなソーシャルメディアプラットフォームを、詩を広めるための推奨アルゴリズムによって導かれる、特に初歩的な創造的な人口によって特徴づけられることから生じる。 我々は、instagramの詩コミュニティにおけるモチベーション、経験、アルゴリズムの影響を探求するために質的分析を用いています。 参加者は可視性のためにアルゴリズムの制約に従うことを優先するが、コミュニティの完全性と独創性の価値は維持し、アルゴリズムの成長と参加者の真正性の間の緊張関係を示す。 我々は,プロのクリエーターの優先順位付けに影響を及ぼし,創造的努力をプラットフォーム論理に適応させ,モチベーションと創造的アウトプットに影響を及ぼす非マネタイズなクリエイティビティユーザに特有な「アルゴリズム・メディア・クリエイティヴ・ワーク」の概念を紹介した。

Commencing as a photo-sharing platform, Instagram has since become multifaceted, accommodating diverse art forms, with poetry emerging as a prominent one. However, the academic understanding of Instagram's poetry community is limited, yet its significance emerges from its distinctive utilization of a primarily visual social media platform guided by recommendation algorithms for disseminating poetry, further characterized by a predominantly novice creative population. We employ qualitative analysis to explore motivations, experiences, and algorithmic influence within Instagram's poetry community. We demonstrate that participants prioritize conforming to algorithmic constraints for visibility, yet maintain their community's values of integrity and originality, illustrating the tension between algorithmic growth and participant authenticity. We introduce the concept of Algorithmically Mediated Creative Labor, a phenomenon specific to non-monetizing creative users who are impacted by the prioritization of professional creators and continually adapt their creative endeavors to align with platform logic, thereby affecting their motivation and creative outputs.
翻訳日:2024-03-01 13:58:56 公開日:2024-02-29
# 第6回ABAWコンペティションにおける影響行動分析

The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition ( http://arxiv.org/abs/2402.19344v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Panagiotis Tzirakis and Alan Cowen and Stefanos Zafeiriou and Chunchang Shao and Guanyu Hu(参考訳) 本稿では,IEEE CVPR 2024と共同で開催されているワークショップの一環として,第6回ABAWコンペティションについて述べる。 第6回ABAWコンペティションは、人間の感情や行動を理解するための現代的課題に対処する。 より詳しくは、コンペティションは関連するベンチマークタスクにフォーカスし、5つのサブチャレンジから構成される。 一 原子価覚醒度推定(原子価及び覚醒の2つの連続的な影響度を推定すること。) 二 表現認識(七つの基本表現の相互排他類と「他」との認識を目標とする。) 三 行動単位の検出(十二の行動単位の検出を目標とする。) 四 複合表現認識(目的は、相互に排他的な複合表現のクラスを区別すること)及び 五 感情的模倣強度の推定(六つの連続的な感情次元を推定すること。) 本稿では,これらの課題を提示し,それぞれのデータセットと課題プロトコル(評価指標の概要)を記述し,ベースラインシステムと得られた性能を提示する。 このコンペティションの詳細については、 \url{https://affective-behavior- analysis-in-the-wild.github.io/6th} を参照してください。

This paper describes the 6th Affective Behavior Analysis in-the-wild (ABAW) Competition, which is part of the respective Workshop held in conjunction with IEEE CVPR 2024. The 6th ABAW Competition addresses contemporary challenges in understanding human emotions and behaviors, crucial for the development of human-centered technologies. In more detail, the Competition focuses on affect related benchmarking tasks and comprises of five sub-challenges: i) Valence-Arousal Estimation (the target is to estimate two continuous affect dimensions, valence and arousal), ii) Expression Recognition (the target is to recognise between the mutually exclusive classes of the 7 basic expressions and 'other'), iii) Action Unit Detection (the target is to detect 12 action units), iv) Compound Expression Recognition (the target is to recognise between the 7 mutually exclusive compound expression classes), and v) Emotional Mimicry Intensity Estimation (the target is to estimate six continuous emotion dimensions). In the paper, we present these Challenges, describe their respective datasets and challenge protocols (we outline the evaluation metrics) and present the baseline systems as well as their obtained performance. More information for the Competition can be found in: \url{https://affective-behavior-analysis-in-the-wild.github.io/6th}.
翻訳日:2024-03-01 13:58:31 公開日:2024-02-29
# RoadRunner - 自動オフロード運転のためのトレーサビリティ推定学習

RoadRunner -- Learning Traversability Estimation for Autonomous Off-road Driving ( http://arxiv.org/abs/2402.19341v1 )

ライセンス: Link先を確認
Jonas Frey and Shehryar Khattak and Manthan Patel and Deegan Atha and Julian Nubert and Curtis Padgett and Marco Hutter and Patrick Spieler(参考訳) オフロード環境での高速での自律ナビゲーションは、オンボードセンシングのみを使用して、ロボットが周囲を包括的に理解する必要がある。 オフロード設定によって引き起こされる極端な条件は、ライティングや動きのぼやけによる画質低下や、高速運転時のLiDARセンシングから得られる限られた幾何学的情報を引き起こす可能性がある。 本研究では,カメラとlidarセンサの入力から直接,地形トラバーサビリティと標高マップを予測できる新しいフレームワーク roadrunnerを提案する。 RoadRunnerは、センサ情報を融合し、不確実性の扱い、低レイテンシで動作しながら地形の幾何学的およびトラバーサビリティに関するコンテキスト情報予測を生成することにより、信頼性の高い自律ナビゲーションを可能にする。 本手法は,手作りのセマンティッククラスを分類し,ヒューリスティックを用いてトラバーサビリティコストを予測する既存の手法とは対照的に,自己管理型でエンドツーエンドに学習する。 RoadRunnerネットワークアーキテクチャは、LiDARとカメラ情報を共通のBird’s Eye Viewの視点に埋め込む自動運転ドメインから、一般的なセンサーフュージョンネットワークアーキテクチャの上に構築されている。 既存のトラバーサビリティ推定スタックを利用して、実世界のオフロード駆動データセットからスケーラブルな方法でトレーニングデータを生成することで、トレーニングを可能にする。 さらに、RoadRunnerは、500msから140msまでの約4倍のシステムレイテンシを改善し、トラバーサビリティコストと標高マップ予測の精度を改善している。 我々は,非構造砂漠環境を通した複数の現実の運転シナリオにおいて,安全かつ信頼性の高いオフロードナビゲーションを実現する上で,ロードランナーの有効性を実証する。

Autonomous navigation at high speeds in off-road environments necessitates robots to comprehensively understand their surroundings using onboard sensing only. The extreme conditions posed by the off-road setting can cause degraded camera image quality due to poor lighting and motion blur, as well as limited sparse geometric information available from LiDAR sensing when driving at high speeds. In this work, we present RoadRunner, a novel framework capable of predicting terrain traversability and an elevation map directly from camera and LiDAR sensor inputs. RoadRunner enables reliable autonomous navigation, by fusing sensory information, handling of uncertainty, and generation of contextually informed predictions about the geometry and traversability of the terrain while operating at low latency. In contrast to existing methods relying on classifying handcrafted semantic classes and using heuristics to predict traversability costs, our method is trained end-to-end in a self-supervised fashion. The RoadRunner network architecture builds upon popular sensor fusion network architectures from the autonomous driving domain, which embed LiDAR and camera information into a common Bird's Eye View perspective. Training is enabled by utilizing an existing traversability estimation stack to generate training data in hindsight in a scalable manner from real-world off-road driving datasets. Furthermore, RoadRunner improves the system latency by a factor of roughly 4, from 500 ms to 140 ms, while improving the accuracy for traversability costs and elevation map predictions. We demonstrate the effectiveness of RoadRunner in enabling safe and reliable off-road navigation at high speeds in multiple real-world driving scenarios through unstructured desert environments.
翻訳日:2024-03-01 13:58:10 公開日:2024-02-29
# それらすべてを使用する1つのモデル:補完的なデータセットでセグメンテーションモデルをトレーニングする

One model to use them all: Training a segmentation model with complementary datasets ( http://arxiv.org/abs/2402.19340v1 )

ライセンス: Link先を確認
Alexander C. Jenke, Sebastian Bodenstedt, Fiona R. Kolbinger, Marius Distler, J\"urgen Weitz, Stefanie Speidel(参考訳) 手術シーンを理解することは、コンピュータ支援手術システムにとって、インテリジェントな補助機能を提供するために不可欠である。 このシーン理解を達成する1つの方法はシーンセグメンテーションであり、フレームのすべてのピクセルが分類され、可視構造と組織を識別する。 外科シーンの完全分割の進歩は機械学習を用いて行われている。 しかし、そのようなモデルは、関連するすべてのオブジェクトクラスの例を含む大量の注釈付きトレーニングデータを必要とします。 このような完全なアノテートデータセットは、フレーム内のすべてのピクセルを医療専門家によってアノテートする必要があるため、作成が困難である。 本研究では,補完アノテーションを提供する複数の部分注釈付きデータセットを1つのモデルに組み合わせ,シーンセグメンテーションの改善と利用可能な複数のデータセットの利用を可能にする手法を提案する。 本手法は,情報の最大化に相互排他的特性を活用することで,利用可能なデータと補完ラベルを組み合わせることを目的とする。 具体的には、他のクラスの正のアノテーションを負のサンプルとして使用し、アノテーションを含まないがモデルによって予測されるクラスを含むかどうかを判断できないため、バイナリアノテーションの背景ピクセルを除外することを提案する。 我々はDreesden surgery anatomy DatasetでDeepLabV3をトレーニングし,2分節解剖構造を複数サブセットする手法を評価した。 我々の手法は6つのクラスを1つのモデルにうまく組み合わせ、Dice Score全体の4.4%増加させました。 複数のクラスに関する情報を含めることで,胃と結腸の混乱を24%低減することができた。 本研究では,複数のデータセット上でモデルをトレーニングすることの実現可能性を示す。 これにより、将来的な作業が1つの大きな完全にセグメント化されたデータセットの必要性を緩和する道を開く。

Understanding a surgical scene is crucial for computer-assisted surgery systems to provide any intelligent assistance functionality. One way of achieving this scene understanding is via scene segmentation, where every pixel of a frame is classified and therefore identifies the visible structures and tissues. Progress on fully segmenting surgical scenes has been made using machine learning. However, such models require large amounts of annotated training data, containing examples of all relevant object classes. Such fully annotated datasets are hard to create, as every pixel in a frame needs to be annotated by medical experts and, therefore, are rarely available. In this work, we propose a method to combine multiple partially annotated datasets, which provide complementary annotations, into one model, enabling better scene segmentation and the use of multiple readily available datasets. Our method aims to combine available data with complementary labels by leveraging mutual exclusive properties to maximize information. Specifically, we propose to use positive annotations of other classes as negative samples and to exclude background pixels of binary annotations, as we cannot tell if they contain a class not annotated but predicted by the model. We evaluate our method by training a DeepLabV3 on the publicly available Dresden Surgical Anatomy Dataset, which provides multiple subsets of binary segmented anatomical structures. Our approach successfully combines 6 classes into one model, increasing the overall Dice Score by 4.4% compared to an ensemble of models trained on the classes individually. By including information on multiple classes, we were able to reduce confusion between stomach and colon by 24%. Our results demonstrate the feasibility of training a model on multiple datasets. This paves the way for future work further alleviating the need for one large, fully segmented datasets.
翻訳日:2024-03-01 13:57:38 公開日:2024-02-29
# ステッチングギャップ:高レベル画像分類のための視覚トランスフォーマーを用いた位置知覚知識の活用

Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision Transformers for High-Level Image Classification ( http://arxiv.org/abs/2402.19339v1 )

ライセンス: Link先を確認
Delfina Sol Martinez Pandiani, Nicolas Lazzari, Valentina Presutti(参考訳) 画像中の抽象概念(AC)を検出する場合,特に高レベル画像の自動理解の需要が高まっており,革新的で解釈可能なアプローチの必要性が浮き彫りになっている。 これらのアプローチは、人間が複雑なセマンティックレベルで画像の解釈に使っているニュアンスで文脈に依存した知識と、従来のディープビジョン手法を調和させる必要がある。 本研究では,文化イメージの知覚的知識を活用し,交流画像分類の性能と解釈性を高める。 画像から知覚意味単位を自動的に抽出し、Artstract Knowledge Graph(AKG)にモデル化して統合する。 このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。 さらに,高水準の言語フレームでakgを増強する。 kg組込みを計算し,これらの組込みと視覚トランスフォーマー組込みを融合させる相対表現とハイブリッドアプローチを実験する。 最後に, モデル類似性とトレーニングインスタンスとの関係を調べた後定性解析を行った。 我々のハイブリッドKGE-ViT法は,AC画像分類における既存の手法よりも優れていた。 ポストホック解析により,より抽象的でセマンティックなシーン要素を表現する上での手法の有効性とは対照的に,画素レベルの視覚特性を捉える際の視覚変換器の習熟度が明らかになった。 本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。 この研究は、下流の複雑な視覚的理解タスクにおいて、知識統合のためのニューロシンボリック手法と堅牢な画像表現の強い可能性を示している。 すべての資料とコードはオンラインで入手できる。

The increasing demand for automatic high-level image understanding, particularly in detecting abstract concepts (AC) within images, underscores the necessity for innovative and more interpretable approaches. These approaches need to harmonize traditional deep vision methods with the nuanced, context-dependent knowledge humans employ to interpret images at intricate semantic levels. In this work, we leverage situated perceptual knowledge of cultural images to enhance performance and interpretability in AC image classification. We automatically extract perceptual semantic units from images, which we then model and integrate into the ARTstract Knowledge Graph (AKG). This resource captures situated perceptual semantics gleaned from over 14,000 cultural images labeled with ACs. Additionally, we enhance the AKG with high-level linguistic frames. We compute KG embeddings and experiment with relative representations and hybrid approaches that fuse these embeddings with visual transformer embeddings. Finally, for interpretability, we conduct posthoc qualitative analyses by examining model similarities with training instances. Our results show that our hybrid KGE-ViT methods outperform existing techniques in AC image classification. The posthoc interpretability analyses reveal the visual transformer's proficiency in capturing pixel-level visual attributes, contrasting with our method's efficacy in representing more abstract and semantic scene elements. We demonstrate the synergy and complementarity between KGE embeddings' situated perceptual knowledge and deep visual model's sensory-perceptual understanding for AC image classification. This work suggests a strong potential of neuro-symbolic methods for knowledge integration and robust image representation for use in downstream intricate visual comprehension tasks. All the materials and code are available online.
翻訳日:2024-03-01 13:57:09 公開日:2024-02-29
# バックドアモデルとモデルマージを連携させる無料ランチ

Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge ( http://arxiv.org/abs/2402.19334v1 )

ライセンス: Link先を確認
Ansh Arora, Xuanli He, Maximilian Mozes, Srinibas Swain, Mark Dras, and Qiongkai Xu(参考訳) オープンソースのイニシアチブによる事前学習された言語モデルの民主化は急速に進歩し、最先端技術へのアクセスも拡大した。 しかし、このオープン性は、特定の入力によって隠れた悪意のある振る舞いが引き起こされるバックドア攻撃や、自然言語処理(NLP)システムの完全性と信頼性を損なうような、重大なセキュリティリスクをもたらす。 本稿では,バックドアモデルと他の均質モデルを統合することで,モデルが完全安全でない場合でもバックドア脆弱性を修復できることを示す。 実験では,BERT-Base,RoBERTa-Large,Llama2-7B,Mistral-7B)およびデータセット(SST-2,OLID,AG News,QNLI)について検討した。 複数の先進的な防御手法と比較して,本手法は,追加資源や特定の知識を使わずに,バックドア攻撃に対する効果的かつ効率的な推論ステージ防御を提供する。 我々のアプローチは、他の先進的なベースラインを一貫して上回っており、攻撃成功率は平均75%減少している。 モデルマージは、モデルパフォーマンスを改善するための確立されたアプローチであるため、防御に関する余分な利点は、コストのないボーナスと見なすことができる。

The democratization of pre-trained language models through open-source initiatives has rapidly advanced innovation and expanded access to cutting-edge technologies. However, this openness also brings significant security risks, including backdoor attacks, where hidden malicious behaviors are triggered by specific inputs, compromising natural language processing (NLP) system integrity and reliability. This paper suggests that merging a backdoored model with other homogeneous models can remediate backdoor vulnerabilities even if such models are not entirely secure. In our experiments, we explore various models (BERT-Base, RoBERTa-Large, Llama2-7B, and Mistral-7B) and datasets (SST-2, OLID, AG News, and QNLI). Compared to multiple advanced defensive approaches, our method offers an effective and efficient inference-stage defense against backdoor attacks without additional resources or specific knowledge. Our approach consistently outperforms the other advanced baselines, leading to an average of 75% reduction in the attack success rate. Since model merging has been an established approach for improving model performance, the extra advantage it provides regarding defense can be seen as a cost-free bonus.
翻訳日:2024-03-01 13:56:43 公開日:2024-02-29
# 離散音声ユニットプレトレーニングによるコンパクト音声翻訳モデル

Compact Speech Translation Models via Discrete Speech Units Pretraining ( http://arxiv.org/abs/2402.19333v1 )

ライセンス: Link先を確認
Tsz Kin Lam and Alexandra Birch and Barry Haddow(参考訳) モデル初期化として自己教師付き学習(ssl)を使うことは、音声翻訳(st)の強い結果を得るために一般的である。 しかし、それらは大きなメモリフットプリントを課し、デバイス上のデプロイメントを妨げる。 本稿では、離散音声ユニット(DSU)でより小さなモデルを事前学習することでSSLモデルを活用する。 エンコーダ・デコーダモデルを事前学習し 1)フィルタバンク〜dsu及び 2) dsu-to-translationデータおよびエンコーダ 1)デコーダとデコーダ 2) 新しいモデルを初期化し,限られた音声翻訳データに基づいて微調整する。 最終モデルは、DSUプリトレーニングを使用してSSLモデルの知識を消し去ることでコンパクトになる。 提案手法は,DSUをモデル入力として使用するよりも,短い推論パイプラインや(DSU)トークン化に対する堅牢性など,いくつかの利点がある。 ASRの事前トレーニングとは対照的に、スクリプトは必要とせず、低リソース設定に適用できる。 CoVoST-2 X-Enの評価結果から,本手法はSSLモデルを直接微調整するSTモデルよりも0.5$ BLEU 以上であることがわかった。

Using Self-Supervised Learning (SSL) as model initialization is now common to obtain strong results in Speech Translation (ST). However, they also impose a large memory footprint, hindering on-device deployment. In this paper, we leverage the SSL models by pretraining smaller models on their Discrete Speech Units (DSU). We pretrain encoder-decoder models on 1) Filterbank-to-DSU and 2) DSU-to-Translation data, and take the encoder from 1) and the decoder from 2) to initialise a new model, finetuning this on limited speech-translation data. The final model becomes compact by using the DSU pretraining to distil the knowledge of the SSL model. Our method has several benefits over using DSU as model inputs, such as shorter inference pipeline and robustness over (DSU) tokenization. In contrast to ASR pretraining, it does not require transcripts, making it applicable to low-resource settings. Evaluation on CoVoST-2 X-En shows that our method is >$0.5$ BLEU better than a ST model that directly finetune the SSL model, given only half the model size, and on a par with ASR pretraining.
翻訳日:2024-03-01 13:56:20 公開日:2024-02-29
# オンライン適応型混合潜在拡散モデルによる産業的欠陥発生への新しいアプローチ

A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation ( http://arxiv.org/abs/2402.19330v1 )

ライセンス: Link先を確認
Hanxi Li, Zhengxun Zhang, Hao Chen, Lin Wu, Bo Li, Deyin Liu, Mingwen Wang(参考訳) 産業異常検出(AD)の課題に効果的に対処するためには、欠陥サンプルの十分な供給が必要である。 本稿では,欠陥サンプルの増大とAD性能の向上を目的とした新しいアルゴリズムを提案する。 提案手法は, 欠陥サンプル生成のための混合潜在拡散モデルを構築し, 拡散モデルを用いて潜在空間における欠陥サンプルを生成する。 トリマップ」マスクとテキストプロンプトによって制御される特徴編集プロセスは、生成されたサンプルを洗練する。 画像生成推定プロセスは、自由拡散ステージ、編集拡散ステージ、オンラインデコーダ適応ステージの3段階に構成される。 この高度な推論戦略は、パターンの多様性に富んだ高品質な合成欠陥サンプルを生成し、拡張トレーニングセットに基づいてAD精度を著しく向上させる。 具体的には、広く知られているMVTec ADデータセットに基づいて、提案手法は、ADの最先端(SOTA)パフォーマンスを、ADメトリクスAP、IAP、IAP90に対してそれぞれ1.5%、1.9%、および3.1%向上させる。 この作業の実装コードはgithubリポジトリのhttps://github.com/grandpaxun242/adabldm.gitにある。

Effectively addressing the challenge of industrial Anomaly Detection (AD) necessitates an ample supply of defective samples, a constraint often hindered by their scarcity in industrial contexts. This paper introduces a novel algorithm designed to augment defective samples, thereby enhancing AD performance. The proposed method tailors the blended latent diffusion model for defect sample generation, employing a diffusion model to generate defective samples in the latent space. A feature editing process, controlled by a "trimap" mask and text prompts, refines the generated samples. The image generation inference process is structured into three stages: a free diffusion stage, an editing diffusion stage, and an online decoder adaptation stage. This sophisticated inference strategy yields high-quality synthetic defective samples with diverse pattern variations, leading to significantly improved AD accuracies based on the augmented training set. Specifically, on the widely recognized MVTec AD dataset, the proposed method elevates the state-of-the-art (SOTA) performance of AD with augmented data by 1.5%, 1.9%, and 3.1% for AD metrics AP, IAP, and IAP90, respectively. The implementation code of this work can be found at the GitHub repository https://github.com/GrandpaXun242/AdaBLDM.git
翻訳日:2024-03-01 13:56:00 公開日:2024-02-29
# social links vs. language barriers: ストリーミングコンテンツの世界的な拡散をデコードする

Social Links vs. Language Barriers: Decoding the Global Spread of Streaming Content ( http://arxiv.org/abs/2402.19329v1 )

ライセンス: Link先を確認
Seoyoung Park, Sanghyeok Park, Taekho You, Jinhyuk Yun(参考訳) インターネットの発達により、コンテンツのグローバル配信、メディアコミュニケーションの再定義、様々なストリーミングプラットフォームを通じた資産構造が可能となった。 これまでの研究では、各ストリーミングサービスのトレンドに影響を及ぼす要因を明らかにすることに成功したが、プラットフォーム間の類似性や相違は一般には明らかにされていない。 ここでは、Netflix、Spotify、YouTubeの3つの重要なストリーミングサービスの社会的側面を、各国のコンテンツの普及に重点を置いて検討する。 2年間のトレンドチャートデータセットを使用して、ストリーミングコンテンツは、ビデオ指向(Netflix)とオーディオ指向(Spotify)の2つのタイプに分けることができる。 この特徴は、ソーシャル・コネクティビティと言語的類似性(音声指向のコンテンツはソーシャル・リンクを経由するが、ビデオ指向のコンテンツは言語的に類似した国に広がる傾向にある。 興味深いことに、ユーザー生成コンテンツであるyoutubeは、視覚と聴覚の両方の特徴を統合し、プラットフォームが単にビデオとオーディオメディアの中間に位置するのではなく、ユニークなメディアへと進化していることを示している。

The development of the internet has allowed for the global distribution of content, redefining media communication and property structures through various streaming platforms. Previous studies successfully clarified the factors contributing to trends in each streaming service, yet the similarities and differences between platforms are commonly unexplored; moreover, the influence of social connections and cultural similarity is usually overlooked. We hereby examine the social aspects of three significant streaming services--Netflix, Spotify, and YouTube--with an emphasis on the dissemination of content across countries. Using two-year-long trending chart datasets, we find that streaming content can be divided into two types: video-oriented (Netflix) and audio-oriented (Spotify). This characteristic is differentiated by accounting for the significance of social connectedness and linguistic similarity: audio-oriented content travels via social links, but video-oriented content tends to spread throughout linguistically akin countries. Interestingly, user-generated contents, YouTube, exhibits a dual characteristic by integrating both visual and auditory characteristics, indicating the platform is evolving into unique medium rather than simply residing a midpoint between video and audio media.
翻訳日:2024-03-01 13:55:38 公開日:2024-02-29
# Soulmateを音声で探す:オンライン音声ベースのモバイルデートの約束と課題を理解する

Seeking Soulmate via Voice: Understanding Promises and Challenges of Online Synchronized Voice-Based Mobile Dating ( http://arxiv.org/abs/2402.19328v1 )

ライセンス: Link先を確認
Chenxinran Shen, Yan Xu, Ray LC, Zhicong Lu(参考訳) オンラインデートは、個人が潜在的にロマンチックなパートナーと繋がる一般的な方法となっている。 多くの出会い系アプリは、ヘッドショットや自己記述を含む個人プロフィールを使用しており、ユーザーが自分を見せたり、マッチを検索したりすることができる。 しかし、この伝統的なモデルは、しばしば制限がある。 本研究では、従来の音声ベースのデートアプリ「soul」について検討する。 プロファイル情報に大きく依存する従来のプラットフォームとは異なり、Soulは音声ベースのコミュニケーションを通じてユーザーインタラクションを促進する。 18名の専用ソウルユーザーと半構造化インタビューを行い、このユニークなデート環境において、プラットフォームとどのように関わり、自分自身や他の人たちを知覚するかを調査した。 その結果,モデレーターとしての音声の役割は印象管理に影響を与え,送信者と受信者の知覚を形作ることが示唆された。 さらに、同期音声ベースとコミュニティベースのデートモデルは、中国文化のコンテキストにおいてユーザーに利益をもたらす。 本研究は,中国におけるオンラインデートにおける音声対話によってもたらされる費用の理解に寄与する。

Online dating has become a popular way for individuals to connect with potential romantic partners. Many dating apps use personal profiles that include a headshot and self-description, allowing users to present themselves and search for compatible matches. However, this traditional model often has limitations. In this study, we explore a non-traditional voice-based dating app called "Soul". Unlike traditional platforms that rely heavily on profile information, Soul facilitates user interactions through voice-based communication. We conducted semi-structured interviews with 18 dedicated Soul users to investigate how they engage with the platform and perceive themselves and others in this unique dating environment. Our findings indicate that the role of voice as a moderator influences impression management and shapes perceptions between the sender and the receiver of the voice. Additionally, the synchronous voice-based and community-based dating model offers benefits to users in the Chinese cultural context. Our study contributes to understanding the affordances introduced by voice-based interactions in online dating in China.
翻訳日:2024-03-01 13:55:18 公開日:2024-02-29
# 細粒度視聴覚相互作用によるスライド画像分類の一般化

Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction ( http://arxiv.org/abs/2402.19326v1 )

ライセンス: Link先を確認
Hao Li, Ying Chen, Yifei Chen, Wenxian Yang, Bowen Ding, Yuchen Han, Liansheng Wang, Rongshan Yu(参考訳) 全体スライド画像(WSI)分類は、しばしば多重インスタンス学習(MIL)問題として定式化される。 近年,視覚言語モデル (VLM) はWSI分類において顕著な性能を示した。 しかし,既存の手法では,病原体画像の複雑な視覚的外観を捉えるには不十分であり,様々な下流タスクにおけるモデルの一般化を阻害する粗粒状病原体記述を利用する。 加えて、高解像度WSIの処理は計算コストがかかる。 本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction" (FiVE) フレームワークを提案する。 局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。 特に,厳密に設計されたクエリでは,まず大きな言語モデルを用いて,さまざまな非標準化された生レポートから詳細な病的記述を抽出する。 出力記述は、訓練に使用されるきめ細かいラベルに再構成される。 タスク固有きめ細かなセマンティックス(TFS)モジュールを導入することで、WSIにおいて重要な視覚情報をキャプチャし、表現学習を強化し、一般化能力を著しく強化する。 さらに,組織スライスに病理視覚パターンが冗長に分散していることを考えると,トレーニング中の視覚のサブセットをサンプリングする。 本手法は,tga肺がんデータセットにおいて,少なくとも9.19%の精度で比較し,ロバストな汎化性と強い転移性を示す。

Whole Slide Image (WSI) classification is often formulated as a Multiple Instance Learning (MIL) problem. Recently, Vision-Language Models (VLMs) have demonstrated remarkable performance in WSI classification. However, existing methods leverage coarse-grained pathogenetic descriptions for visual representation supervision, which are insufficient to capture the complex visual appearance of pathogenetic images, hindering the generalizability of models on diverse downstream tasks. Additionally, processing high-resolution WSIs can be computationally expensive. In this paper, we propose a novel "Fine-grained Visual-Semantic Interaction" (FiVE) framework for WSI classification. It is designed to enhance the model's generalizability by leveraging the interplay between localized visual patterns and fine-grained pathological semantics. Specifically, with meticulously designed queries, we start by utilizing a large language model to extract fine-grained pathological descriptions from various non-standardized raw reports. The output descriptions are then reconstructed into fine-grained labels used for training. By introducing a Task-specific Fine-grained Semantics (TFS) module, we enable prompts to capture crucial visual information in WSIs, which enhances representation learning and augments generalization capabilities significantly. Furthermore, given that pathological visual patterns are redundantly distributed across tissue slices, we sample a subset of visual instances during training. Our method demonstrates robust generalizability and strong transferability, dominantly outperforming the counterparts on the TCGA Lung Cancer dataset with at least 9.19% higher accuracy in few-shot experiments.
翻訳日:2024-03-01 13:55:01 公開日:2024-02-29
# ネットワーク上の計測に基づく量子計算のためのフォールトトレラント構造

Fault-tolerant structures for measurement-based quantum computation on a network ( http://arxiv.org/abs/2402.19323v1 )

ライセンス: Link先を確認
Yves van Montfort, S\'ebastian de Bone, and David Elkouss(参考訳) 本研究では, 耐故障性測定に基づく量子計算(MBQC)アーキテクチャを構築し, 各種ネットワーク上での性能を数値的に推定する手法を提案する。 そのようなパラダイムの可能な応用は分散量子計算であり、別の計算ノードが絡み合うことでフォールトトレラントな計算を行う。 回路レベルとネットワークノイズの両方に対するレジリエンスを調べるため,効率的な安定化器シミュレータを用いてアーキテクチャの誤差閾値を計測する。 モノリシックな(非分散的な)実装と分散実装の両方において、ダイヤモンド格子に基づくアーキテクチャが従来の立方格子を上回る可能性があることを示す。 さらに、非キュビック格子の高消去しきい値が分散環境でさらに利用され、その性能は、エラー復号過程における消去誤差に対する絡み合いの成功率のトレーディングによる絡み合い蒸留によって向上される可能性がある。 これらの結果は、ネットワーク上のフォールトトレラントな測定に基づく量子コンピューティングの設計における格子幾何の重要性を強調し、堅牢でスケーラブルな分散量子コンピュータを構築する可能性を強調した。

In this work, we introduce a method to construct fault-tolerant measurement-based quantum computation (MBQC) architectures and numerically estimate their performance over various types of networks. A possible application of such a paradigm is distributed quantum computation, where separate computing nodes work together on a fault-tolerant computation through entanglement. We gauge error thresholds of the architectures with an efficient stabilizer simulator to investigate the resilience against both circuit-level and network noise. We show that, for both monolithic (i.e., non-distributed) and distributed implementations, an architecture based on the diamond lattice may outperform the conventional cubic lattice. Moreover, the high erasure thresholds of non-cubic lattices may be exploited further in a distributed context, as their performance may be boosted through entanglement distillation by trading in entanglement success rates against erasure errors during the error-decoding process. These results highlight the significance of lattice geometry in the design of fault-tolerant measurement-based quantum computing on a network, emphasizing the potential for constructing robust and scalable distributed quantum computers.
翻訳日:2024-03-01 13:54:37 公開日:2024-02-29
# ニューラルネットワークのグローバルロバスト性検証

Verification of Neural Networks' Global Robustness ( http://arxiv.org/abs/2402.19322v1 )

ライセンス: Link先を確認
Anan Kabaha, Dana Drachsler-Cohen(参考訳) ニューラルネットワークは様々なアプリケーションで成功しているが、逆境攻撃の影響を受けやすい。 ネットワーク分類器の安全性を示すために、与えられた摂動に対する入力の局所的ロバスト性を説明するために多くの検証器が導入された。 成功しても、局所ロバスト性は目に見えない入力に一般化できない。 いくつかの研究は、グローバルなロバスト性特性を分析するが、ネットワーク分類器がその分類を変更しない場合の正確な保証は得られない。 本研究では,分類器の局所的ロバスト性特性を自然に拡張する最小のグローバルロバスト境界を求めることを目的とした,分類器に対する新たなグローバルロバスト性特性を提案する。 我々は、この境界を計算するための任意の検証器であるVHAGaRを紹介する。 VHAGaRは、問題を混合整数プログラミングとして符号化し、摂動やネットワーク計算に起因する依存関係を特定し、未知の入力に敵攻撃を一般化することで、探索空間を刈り取るという3つの主要なアイデアに依存している。 我々は,VHAGaRを複数のデータセットと分類器で評価し,3時間のタイムアウトを条件に,VHAGaRが計算した最小大域的ロバスト境界上の下限と上限のギャップは1.9であり,既存の大域的ロバスト性検証器のギャップは154.7であることを示す。 さらに、vhagarはこの検証器より130.6x高速である。 以上の結果から,VHAGaR 78.6倍の高速化が期待できる。

Neural networks are successful in various applications but are also susceptible to adversarial attacks. To show the safety of network classifiers, many verifiers have been introduced to reason about the local robustness of a given input to a given perturbation. While successful, local robustness cannot generalize to unseen inputs. Several works analyze global robustness properties, however, neither can provide a precise guarantee about the cases where a network classifier does not change its classification. In this work, we propose a new global robustness property for classifiers aiming at finding the minimal globally robust bound, which naturally extends the popular local robustness property for classifiers. We introduce VHAGaR, an anytime verifier for computing this bound. VHAGaR relies on three main ideas: encoding the problem as a mixed-integer programming and pruning the search space by identifying dependencies stemming from the perturbation or network computation and generalizing adversarial attacks to unknown inputs. We evaluate VHAGaR on several datasets and classifiers and show that, given a three hour timeout, the average gap between the lower and upper bound on the minimal globally robust bound computed by VHAGaR is 1.9, while the gap of an existing global robustness verifier is 154.7. Moreover, VHAGaR is 130.6x faster than this verifier. Our results further indicate that leveraging dependencies and adversarial attacks makes VHAGaR 78.6x faster.
翻訳日:2024-03-01 13:54:17 公開日:2024-02-29
# 5Gネットワークにおけるモビリティ予測に対する攻撃

Attacks Against Mobility Prediction in 5G Networks ( http://arxiv.org/abs/2402.19319v1 )

ライセンス: Link先を確認
Syafiq Al Atiiq, Yachao Yuan, Christian Gehrmann, Jakob Sternby, Luis Barriga(参考訳) モバイルネットワークの5.^{th}$世代には、前世代には存在していなかった新しいネットワーク機能(nf)、すなわちネットワークデータ分析機能(nwdaf)が導入されている。 その主な目的は、ネットワーク内のさまざまなエンティティや、5gエコシステム内の外部アプリケーションサービスに対して、高度な分析サービスを提供することである。 NWDAFの重要なユースケースの1つはモビリティ・トラジェクトリー予測であり、これはネットワーク上でのユーザ機器(UE)の効率的なモビリティ管理を 'just in time' に必要なネットワークリソースを割り当てることによって正確に支援することを目的としている。 本稿では,これらの予測の精度を損なう可能性のあるモビリティ攻撃が存在することを示す。 1万のサブスクライバを持つ半現実的なシナリオでは、携帯端末をハイジャックしてクローンする能力を備えた敵は、わずか100のuesを使用して予測精度を75\%から40\%に大幅に低下させることができる。 防御機構は特定の領域における攻撃と移動タイプに大きく依存するが,基本的KMeansクラスタリングは正反対のUEを識別するのに有効であることを示す。

The $5^{th}$ generation of mobile networks introduces a new Network Function (NF) that was not present in previous generations, namely the Network Data Analytics Function (NWDAF). Its primary objective is to provide advanced analytics services to various entities within the network and also towards external application services in the 5G ecosystem. One of the key use cases of NWDAF is mobility trajectory prediction, which aims to accurately support efficient mobility management of User Equipment (UE) in the network by allocating ``just in time'' necessary network resources. In this paper, we show that there are potential mobility attacks that can compromise the accuracy of these predictions. In a semi-realistic scenario with 10,000 subscribers, we demonstrate that an adversary equipped with the ability to hijack cellular mobile devices and clone them can significantly reduce the prediction accuracy from 75\% to 40\% using just 100 adversarial UEs. While a defense mechanism largely depends on the attack and the mobility types in a particular area, we prove that a basic KMeans clustering is effective in distinguishing legitimate and adversarial UEs.
翻訳日:2024-03-01 13:53:51 公開日:2024-02-29
# 無限温度ハバード鎖における損失誘起量子情報ジェット

Loss-induced quantum information jet in an infinite temperature Hubbard chain ( http://arxiv.org/abs/2402.19390v1 )

ライセンス: Link先を確認
Patrik Penc, C\u{a}t\u{a}lin Pa\c{s}cu Moca, \"Ors Legeza, Toma\v{z} Prosen, Gergely Zar\'and, and Mikl\'os Antal Werner(参考訳) 半無限鎖の終端に散逸粒子が沈む1次元無限温度ハバードモデルにおける情報伝達について検討した。 強相互作用限界において、2点相互情報と操作者の絡み合いエントロピーは、2つの伝搬情報前面と重畳干渉縞を有するリッチな構造を示す。 古典的可逆的なセルオートマトンモデルは、相関の輸送と遅くて古典的な部分を定量的にキャプチャするが、急速に伝播する情報ジェットを記述できない。 高速量子ジェットはコヒーレントな自由粒子伝播に似ており、多体背景の短距離スピン相関によって指数関数的に減衰する長距離干渉縞が伴っている。

Information propagation in the one-dimensional infinite temperature Hubbard model with a dissipative particle sink at the end of a semi-infinite chain is studied. In the strongly interacting limit, the two-site mutual information and the operator entanglement entropy exhibit a rich structure with two propagating information fronts and superimposed interference fringes. A classical reversible cellular automaton model quantitatively captures the transport and the slow, classical part of the correlations, but fails to describe the rapidly propagating information jet. The fast quantum jet resembles coherent free particle propagation, with the accompanying long-ranged interference fringes that are exponentially damped by short-ranged spin correlations in the many-body background.
翻訳日:2024-03-01 13:47:59 公開日:2024-02-29
# CSS コード[8,1,4] のフォールトトレランス

Fault-tolerance of the [[8,1,4]] non-CSS code ( http://arxiv.org/abs/2402.19389v1 )

ライセンス: Link先を確認
Pranav Maheshwari and Ankur Raina(参考訳) 既知の[[8,1,4]]非CSSコードのフォールトトレランスを示し、コードの論理的エラー率について検討する。 そこで,Brown \emph{et al。 } Gottesman氏が提供した安定化コードのためのエンコーディング手順を選択し、CSS以外のコードのクラスの設定に適合するように修正する。 本研究は, 復号化雑音と異方性雑音の2種類のノイズモデルについて検討し, 復号化における論理誤差率について考察した。

We show the fault-tolerance of the not-so-well known [[8,1,4]] non-CSS code and study the logical error rates of the code. To do so, we adopt the procedure of the bare ancilla method presented by Brown \emph{et al.} We choose the encoding procedure for stabilizer codes given by Gottesman and modify it to suit the setting of a class of non-CSS codes. We consider two types of noise models for this study, namely the depolarizing noise and anisotropic noise to depict the logical error rates obtained in decoding.
翻訳日:2024-03-01 13:47:46 公開日:2024-02-29
# 画像超解像のための意味認識識別装置SeD

SeD: Semantic-Aware Discriminator for Image Super-Resolution ( http://arxiv.org/abs/2402.19387v1 )

ライセンス: Link先を確認
Bingchen Li, Xin Li, Hanxin Zhu, Yeying Jin, Ruoyu Feng, Zhizheng Zhang, Zhibo Chen(参考訳) Generative Adversarial Networks (GAN) は画像超解像(SR)タスクの鮮やかなテクスチャを復元するために広く利用されている。 特に、1つの判別器を用いて、SRネットワークは、現実の高品質な画像の分布を敵の訓練方法で学習することができる。 しかし、分布学習は粗い粒度であり、仮想テクスチャに影響され、反直感的な生成結果を引き起こす。 そこで本研究では,画像のセマンティクスを条件として導入することにより,SRネットワークの粒度分布の学習を促す,シンプルで効果的なセマンティクス対応識別器を提案する。 具体的には、よく訓練された意味抽出器から画像のセマンティクスを抽出することを目的とする。 異なる意味論の下では、判別器は実造像を個別かつ適応的に識別することができ、SRネットワークを誘導してよりきめ細かな意味認識テクスチャを学習する。 正確で豊富なセマンティクスを得るために、最近普及したpvms(pretrained vision models)を広範囲なデータセットで活用し、そのセマンティクス機能をよく設計された空間的相互接続モジュールを通じて識別器に組み込む。 このようにして,提案する意味認識判別器は,srネットワークに,より写実的かつ心地よい画像を生成する権限を与えた。 SRとReal SRの2つの典型的な課題に対する大規模な実験により,提案手法の有効性が示された。

Generative Adversarial Networks (GANs) have been widely used to recover vivid textures in image super-resolution (SR) tasks. In particular, one discriminator is utilized to enable the SR network to learn the distribution of real-world high-quality images in an adversarial training manner. However, the distribution learning is overly coarse-grained, which is susceptible to virtual textures and causes counter-intuitive generation results. To mitigate this, we propose the simple and effective Semantic-aware Discriminator (denoted as SeD), which encourages the SR network to learn the fine-grained distributions by introducing the semantics of images as a condition. Concretely, we aim to excavate the semantics of images from a well-trained semantic extractor. Under different semantics, the discriminator is able to distinguish the real-fake images individually and adaptively, which guides the SR network to learn the more fine-grained semantic-aware textures. To obtain accurate and abundant semantics, we take full advantage of recently popular pretrained vision models (PVMs) with extensive datasets, and then incorporate its semantic features into the discriminator through a well-designed spatial cross-attention module. In this way, our proposed semantic-aware discriminator empowered the SR network to produce more photo-realistic and pleasing images. Extensive experiments on two typical tasks, i.e., SR and Real SR have demonstrated the effectiveness of our proposed methods.
翻訳日:2024-03-01 13:47:34 公開日:2024-02-29
# 安全で信頼性の高い自律運転に向けて:動的作業セット予測

Towards Safe and Reliable Autonomous Driving: Dynamic Occupancy Set Prediction ( http://arxiv.org/abs/2402.19385v1 )

ライセンス: Link先を確認
Wenbo Shao, Jiahui Xu, Wenhao Yu, Jun Li, Hong Wang(参考訳) 自律運転の急速に発展する分野では、正確な軌道予測が車体の安全のために重要である。 しかし、軌道予測はしばしば実際の経路から逸脱し、特に複雑で困難な環境では重大なエラーを引き起こす。 この問題に対処するため,本稿では,軌道予測能力の向上を図った,DOS(Dynamic Occupancy Set)予測手法を提案する。 本手法は,既存のモデルの欠点を克服し,高度軌跡予測ネットワークとDOS予測モジュールを効果的に結合する。 トラフィック参加者の潜在的占有セットを予測するための、包括的で適応可能なフレームワークを提供する。 本研究の主な貢献は以下のとおりである。 1) 従来の軌道予測を増強する複雑なシナリオに適した新しいDOS予測モデル 2)ユニークなDOS表現と評価指標の開発 3) 実験による広範囲な検証、性能向上と適応性実証。 本研究は、より安全で効率的な車両・輸送システムの進歩に寄与する。

In the rapidly evolving field of autonomous driving, accurate trajectory prediction is pivotal for vehicular safety. However, trajectory predictions often deviate from actual paths, particularly in complex and challenging environments, leading to significant errors. To address this issue, our study introduces a novel method for Dynamic Occupancy Set (DOS) prediction, enhancing trajectory prediction capabilities. This method effectively combines advanced trajectory prediction networks with a DOS prediction module, overcoming the shortcomings of existing models. It provides a comprehensive and adaptable framework for predicting the potential occupancy sets of traffic participants. The main contributions of this research include: 1) A novel DOS prediction model tailored for complex scenarios, augmenting traditional trajectory prediction; 2) The development of unique DOS representations and evaluation metrics; 3) Extensive validation through experiments, demonstrating enhanced performance and adaptability. This research contributes to the advancement of safer and more efficient intelligent vehicle and transportation systems.
翻訳日:2024-03-01 13:47:09 公開日:2024-02-29
# 信頼性ネットワーク量子通信における符号化理論の活用

Harnessing Coding Theory for Reliable Network Quantum Communication ( http://arxiv.org/abs/2402.19383v1 )

ライセンス: Link先を確認
Ching-Yi Lai and Kao-Yueh Kuo(参考訳) 本稿では,フォールトトレラント量子計算における符号化技術の応用について検討し,その利用をフォールトトレラント量子通信に拡張する。 我々は、特に量子テレポーテーションの文脈において、符号化理論とフォールトトレラント量子演算の役割を強調し、リピータベースの量子ネットワークをレビューする。 ベル測定のフォールトトレラントな実装は,量子ゲートの普遍的な集合を必要とせずに,信頼性の高い量子通信を可能にする。 最後に、高い伝送速度を達成するための様々な量子コード候補について議論する。

This article explores the application of coding techniques for fault-tolerant quantum computation and extends their usage to fault-tolerant quantum communication. We review repeater-based quantum networks, emphasizing the roles of coding theory and fault-tolerant quantum operations, particularly in the context of quantum teleportation. We highlight that fault-tolerant implementation of the Bell measurement enables reliable quantum communication without requiring a universal set of quantum gates. Finally, we discuss various quantum code candidates for achieving higher transmission rates.
翻訳日:2024-03-01 13:46:57 公開日:2024-02-29
# シリコン群衆の知恵:llmアンサンブル予測能力は人間の群衆の正確さに合致する

Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Match Human Crowd Accuracy ( http://arxiv.org/abs/2402.19379v1 )

ライセンス: Link先を確認
Philipp Schoenegger, Indre Tuminauskaite, Peter S. Park, Philip E. Tetlock(参考訳) 実際に人間の予測精度は、個々の予測者の群集を集約することで将来の出来事についての予測を大幅に改善する「群衆のウィズド」効果に依存している。 大規模言語モデル(LLM)の予測能力に関する過去の研究は、フロンティアのLLMは、個人予測家として、人間の群衆予測トーナメントアグリゲーションのゴールドスタンダードに比べて性能が劣っていることを示唆している。 研究1では、12個のLLMの群集からなるLLMアンサンブルアプローチを用いて、この研究を拡大する。 我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントの925人の予測者の群集と比較した。 分析の結果,LLM群集は単純な非情報ベンチマークよりも優れており,統計的にヒト群集と同等であることがわかった。 また, 正解と負解がほぼ均等に分かれているにもかかわらず, 平均モデル予測が50%以上であるような収差効果も観測した。 さらに,研究2では,人間の認知的アウトプットに基づいてLCM予測(GPT-4とClaude 2)を改善することができるかどうかを検証した。 モデルによる予測精度は、情報として人間予測の中央値に曝露することによる利点があり、17%から28%の精度向上が期待できる。 以上の結果から, LLMは, 簡易かつ実用的な予測集計手法により, 人体予測トーナメントに匹敵する予測精度を達成できることが示唆された。 これはLLMの「群集の知恵」効果を再現し、社会全体で様々な用途に利用することができる。

Human forecasting accuracy in practice relies on the 'wisdom of the crowd' effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is statistically equivalent to the human crowd. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models' forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the 'wisdom of the crowd' effect for LLMs, and opens up their use for a variety applications throughout society.
翻訳日:2024-03-01 13:46:47 公開日:2024-02-29
# 窒素空孔中心を用いた小型磁界センサ

A miniaturized magnetic field sensor based on nitrogen-vacancy centers ( http://arxiv.org/abs/2402.19372v1 )

ライセンス: Link先を確認
Stefan Dix, Dennis L\"onard, Isabel Cardoso Barbosa, Jonas Gutsche, Jonas Witzenrath, and Artur Widera(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、量子センシング技術の主要な候補である。 常に小型のセンサーが優れた測定性能を維持するため、小型化が進められている。 ここでは、マイクロ波パワーが50\,\mathrm{mw}$、光学パワーが2.15\,\mathrm{mw}$の15\,\mathrm{\mu m}$ のマイクロダイアモンドを用いて、磁場感度が5.9\,\mathrm{nt}/ \sqrt{\mathrm{hz}}$の完全な機械的にロバストな内視鏡センサを提案する。 直接レーザーによる筆記法を用いて、NVを含むダイヤモンドを繊維の芯の上にポリマー構造で局在させる。 この構造は、異なる光ファイバにおける安定した光アクセスと励起と蛍光光の独立誘導を可能にする。 この分離は、光ファイバの励起光からの自己蛍光の寄与を強く減少させる。 さらに、ファイバのフェストの横に金属直接レーザーによるアンテナ構造が形成され、nvセンターのスピンをマイクロ波で操作できる。 製造された内視鏡センサーは、先端直径が1.25\,\mathrm{mm}$の頑丈なプラットフォームを提供する。 この装置は、遠隔の光学およびマイクロ波アクセスにより、nvセンターで15\,\mathrm{\mu m}$の空間分解能で、全範囲のコヒーレントスピン測定を行うことができる。 我々は、最先端の超低温量子ガス実験で用いられる磁場におけるベクトル磁場測定の能力を実証し、高分解能と高感度を必要とするポテンシャル場を開く。

The nitrogen-vacancy (NV) center in diamond is a prime candidate for quantum sensing technologies. Ongoing miniaturization calls for ever-smaller sensors maintaining good measurement performance. Here, we present a fully integrated mechanically robust fiber-based endoscopic sensor capable of $5.9\,\mathrm{nT}/ \sqrt{\mathrm{Hz}}$ magnetic field sensitivity utilizing $15\,\mathrm{\mu m}$ sized microdiamonds at a microwave power of $50\,\mathrm{mW}$ and optical power of $2.15\,\mathrm{mW}$. A direct laser writing process is used to localize a diamond containing NV centers above the fiber's core by a polymer structure. This structure enables stable optical access and independent guiding of excitation and fluorescent light in different optical fibers. This separation strongly reduces the contribution of autofluorescence from the excitation light in the optical fiber. Moreover, a metallic direct laser written antenna structure is created next to the fibers' facet, allowing microwave manipulation of the NV centers' spins. The fabricated endoscopic sensor provides a robust platform with a tip diameter of $1.25\,\mathrm{mm}$. The device enables remote optical and microwave access to perform the full range of coherent spin measurements with NV centers at a spatial resolution of $15\,\mathrm{\mu m}$. We demonstrate the capability of vector magnetic field measurements in a magnetic field as used in state-of-the-art ultracold quantum gas experiments, opening a potential field in which high resolution and high sensitivity are necessary.
翻訳日:2024-03-01 13:46:19 公開日:2024-02-29
# OpenMedLM: Prompt Engineeringは、オープンソースの大規模言語モデルによる医学的質問応答における微調整を上回る

OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models ( http://arxiv.org/abs/2402.19371v1 )

ライセンス: Link先を確認
Jenish Maharjan, Anurag Garikipati, Navan Preet Singh, Leo Cyrus, Mayank Sharma, Madalina Ciobanu, Gina Barnes, Rahul Thapa, Qingqing Mao, Ritankar Das(参考訳) LLMは、様々な専門的なタスクを達成できるようになり、医療知識への公平なアクセスを拡大するために利用することができる。 ほとんどの医療用LSMは、広範囲な微調整を行い、専門的な医療データを活用し、計算能力の大幅な、すなわち費用がかかる。 トップパフォーマンスのLSMの多くはプロプライエタリであり、そのアクセスはごく少数の研究グループに限られている。 しかしながら、オープンソース(os)モデルは、パフォーマンスの大幅な向上と、医療に必要な透明性とコンプライアンスを提供する固有の能力のために、医療llmにとって重要な成長分野である。 我々は,医療ベンチマーク上でOS LLMの最先端(SOTA)パフォーマンスを実現するプロンプトプラットフォームであるOpenMedLMを提案する。 MedQA, MedMCQA, PubMedQA, MMLU 医療サブセットの4つのベンチマークで OS 基盤 LLM (7B-70B) の範囲を評価した。 我々はゼロショット、少数ショット、チェーン・オブ・マインド(ランダム選択とkn選択)、アンサンブル/セルフコンシスタンス投票を含む一連のプロンプト戦略を採用した。 We found that OpenMedLM delivers OS SOTA results on three common medical LLM benchmarks, and over the previous best performing OS model that leverageed computerly costly extensive fine-tuning。 このモデルは、MedQAベンチマークで72.6%の精度を提供し、以前のSOTAよりも2.4%向上し、MMLU医療サブセットで81.7%の精度を達成し、このベンチマークで80%を超える最初のOS LLMとなった。 本研究は,OS LLMの創発的特性について,まだ文書化されていない点に注目し,医療用LLMの性能向上のために,さらなる迅速な工学的活用のメリットを示すものである。

LLMs have become increasingly capable at accomplishing a range of specialized-tasks and can be utilized to expand equitable access to medical knowledge. Most medical LLMs have involved extensive fine-tuning, leveraging specialized medical data and significant, thus costly, amounts of computational power. Many of the top performing LLMs are proprietary and their access is limited to very few research groups. However, open-source (OS) models represent a key area of growth for medical LLMs due to significant improvements in performance and an inherent ability to provide the transparency and compliance required in healthcare. We present OpenMedLM, a prompting platform which delivers state-of-the-art (SOTA) performance for OS LLMs on medical benchmarks. We evaluated a range of OS foundation LLMs (7B-70B) on four medical benchmarks (MedQA, MedMCQA, PubMedQA, MMLU medical-subset). We employed a series of prompting strategies, including zero-shot, few-shot, chain-of-thought (random selection and kNN selection), and ensemble/self-consistency voting. We found that OpenMedLM delivers OS SOTA results on three common medical LLM benchmarks, surpassing the previous best performing OS models that leveraged computationally costly extensive fine-tuning. The model delivers a 72.6% accuracy on the MedQA benchmark, outperforming the previous SOTA by 2.4%, and achieves 81.7% accuracy on the MMLU medical-subset, establishing itself as the first OS LLM to surpass 80% accuracy on this benchmark. Our results highlight medical-specific emergent properties in OS LLMs which have not yet been documented to date elsewhere, and showcase the benefits of further leveraging prompt engineering to improve the performance of accessible LLMs for medical applications.
翻訳日:2024-03-01 13:45:48 公開日:2024-02-29
# 拡散モデルの構造保存

Structure Preserving Diffusion Models ( http://arxiv.org/abs/2402.19369v1 )

ライセンス: Link先を確認
Haoye Lu, Spencer Szabados, Yaoliang Yu(参考訳) 近年,拡散モデルが主要な分布学習法となっている。 本稿では,拡散遷移ステップがそれらの対称性を保存する理論的条件を発達させることにより,群対称性などの付加構造を持つ分布を学習するための拡散過程の族である構造保存拡散過程を導入する。 また、同変データサンプリングトラジェクトリを有効にしながら、本質的に対称な分布を学習できる異なる対称性同変拡散モデルのコレクションを開発することで、これらの結果を実証する。 合成および実世界の両方のデータセットに関する実証研究は、提案理論に準拠するモデルの有効性を検証するために用いられ、サンプル平等の観点から既存の手法よりも優れた性能を達成することができる。 また,提案モデルを用いて,画像配向の事前知識を必要とせず,理論的に保証された同変雑音低減を実現する方法を示す。

Diffusion models have become the leading distribution-learning method in recent years. Herein, we introduce structure-preserving diffusion processes, a family of diffusion processes for learning distributions that possess additional structure, such as group symmetries, by developing theoretical conditions under which the diffusion transition steps preserve said symmetry. While also enabling equivariant data sampling trajectories, we exemplify these results by developing a collection of different symmetry equivariant diffusion models capable of learning distributions that are inherently symmetric. Empirical studies, over both synthetic and real-world datasets, are used to validate the developed models adhere to the proposed theory and are capable of achieving improved performance over existing methods in terms of sample equality. We also show how the proposed models can be used to achieve theoretically guaranteed equivariant image noise reduction without prior knowledge of the image orientation.
翻訳日:2024-03-01 13:45:10 公開日:2024-02-29
# SoK:デジタル法科学調査効率向上のための大規模言語モデルの可能性を探る

SoK: Exploring the Potential of Large Language Models for Improving Digital Forensic Investigation Efficiency ( http://arxiv.org/abs/2402.19366v1 )

ライセンス: Link先を確認
Akila Wickramasekara and Frank Breitinger and Mark Scanlon(参考訳) デジタル法医学的分析を必要とするケースが増えていることで、警察当局が迅速に捜査を行う能力に関する懸念が高まっている。 その結果、知識論文の体系化は、これらの課題に対処するために、大規模言語モデル(LLM)をデジタル法医学的調査に統合する可能性と有効性に根ざしている。 既存のデジタル法学モデル,ツール,LLM,ディープラーニング技術,LLMの活用など,詳細な文献レビューが実施されている。 このレビューでは、既存のデジタル法科学プロセスにおける現在の課題を特定し、LCMの導入の障害と可能性について検討する。 結論として、デジタル法医学におけるLLMの採用は、適切な制約を伴って、調査効率を高め、トレーサビリティを改善し、法執行機関が直面する技術的および司法的障壁を軽減する可能性を秘めている。

The growing number of cases requiring digital forensic analysis raises concerns about law enforcement's ability to conduct investigations promptly. Consequently, this systemisation of knowledge paper delves into the potential and effectiveness of integrating Large Language Models (LLMs) into digital forensic investigation to address these challenges. A thorough literature review is undertaken, encompassing existing digital forensic models, tools, LLMs, deep learning techniques, and the utilisation of LLMs in investigations. The review identifies current challenges within existing digital forensic processes and explores both the obstacles and possibilities of incorporating LLMs. In conclusion, the study asserts that the adoption of LLMs in digital forensics, with appropriate constraints, holds the potential to enhance investigation efficiency, improve traceability, and alleviate technical and judicial barriers faced by law enforcement entities.
翻訳日:2024-03-01 13:44:56 公開日:2024-02-29
# DiRe 委員会の効率的な計算について

On Efficient Computation of DiRe Committees ( http://arxiv.org/abs/2402.19365v1 )

ライセンス: Link先を確認
Kunal Relia(参考訳) 委員会による選挙を考える (i)サイズ \emph{atmost} 2の各々の任意のグループに分けられる候補の組と、各グループから1つの候補が選ばれることを規定する多様性制約 (二) 任意の人口に分けた有権者の集合で、それぞれが2人の候補者を承認し、かつ、承認された候補者の非無効な集団から1人の候補者を選ぶことを規定した表現制約。 DiRe (Diverse + Representative) 委員会実現可能性問題(すなわち、非重み付き無向グラフ上の最小頂点被覆問題)は、与えられた制約を満たす最小サイズの委員会の決定に関するものである。 そこで本研究では,最大マッチング,幅優先探索,最大マッチング,局所最小化の融合である非条件決定論的多項式時間アルゴリズムを提案する。

Consider a committee election consisting of (i) a set of candidates who are divided into arbitrary groups each of size \emph{at most} two and a diversity constraint that stipulates the selection of \emph{at least} one candidate from each group and (ii) a set of voters who are divided into arbitrary populations each approving \emph{at most} two candidates and a representation constraint that stipulates the selection of \emph{at least} one candidate from each population who has a non-null set of approved candidates. The DiRe (Diverse + Representative) committee feasibility problem (a.k.a. the minimum vertex cover problem on unweighted undirected graphs) concerns the determination of the smallest size committee that satisfies the given constraints. Here, for this problem, we discover an unconditional deterministic polynomial-time algorithm that is an amalgamation of maximum matching, breadth-first search, maximal matching, and local minimization.
翻訳日:2024-03-01 13:44:41 公開日:2024-02-29
# 大規模言語モデルにおける透かし盗み

Watermark Stealing in Large Language Models ( http://arxiv.org/abs/2402.19361v1 )

ライセンス: Link先を確認
Nikola Jovanovi\'c, Robin Staab, Martin Vechev(参考訳) LLMウォーターマーキングはAI生成コンテンツを検出する有望な方法として注目されており、現在のスキームがデプロイメントにすでに適合している可能性を示唆する研究もある。 本稿では、これらのスキームの根本的な脆弱性として、透かし盗み(WS)を識別するこの主張について議論する。 透かし付きLLMのAPIをほぼリバースエンジニアリングに問い合わせると、透かしは以前の研究で示唆されたように、実用的な密封攻撃を可能にするが、以前は気づかなかったスクラブ攻撃を大幅に促進する。 私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。 50ドル未満では、攻撃者は以前安全と考えられていた最先端のスキームを、80%以上の成功率で盗み取ることができる。 LLM透かしに関する一般的な信念に挑戦し、より堅牢なスキームの必要性を強調した。 すべてのコードと追加の例をhttps://watermark-stealing.org.comで公開しています。

LLM watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying watermark stealing (WS) as a fundamental vulnerability of these schemes. We show that querying the API of the watermarked LLM to approximately reverse-engineer a watermark enables practical spoofing attacks, as suggested in prior work, but also greatly boosts scrubbing attacks, which was previously unnoticed. We are the first to propose an automated WS algorithm and use it in the first comprehensive study of spoofing and scrubbing in realistic settings. We show that for under $50 an attacker can both spoof and scrub state-of-the-art schemes previously considered safe, with average success rate of over 80%. Our findings challenge common beliefs about LLM watermarking, stressing the need for more robust schemes. We make all our code and additional examples available at https://watermark-stealing.org.
翻訳日:2024-03-01 13:44:25 公開日:2024-02-29
# 話者識別に対するアンラベリング対応事例 -攻撃検出技術とVictim Model分類-

Unraveling Adversarial Examples against Speaker Identification -- Techniques for Attack Detection and Victim Model Classification ( http://arxiv.org/abs/2402.19355v1 )

ライセンス: Link先を確認
Sonal Joshi, Thomas Thebaud, Jes\'us Villalba, Najim Dehak(参考訳) 敵対的な例は話者識別システムを脅かすことを証明しており、それに対するいくつかの対策が提案されている。 本稿では,敵対的事例の存在を検出する手法,すなわち良性事例と逆性事例を区別する二項分類器を提案する。 新しいアーキテクチャを探求することで、攻撃タイプ分類に関する以前の作業を構築し、拡張します。 さらに,敵の攻撃を行う被害者モデルを特定する手法を提案する。 これを実現するために、様々な犠牲者モデルに対して行われた複数の攻撃を含む新しいデータセットを生成する。 攻撃検出のためのaucは0.982であり、未知の攻撃に対する性能は0.03未満である。 攻撃分類精度(良性を除く)は、LightResNet34アーキテクチャを使って8種類の攻撃タイプで86.48%、犠牲者モデルの分類精度は4つの犠牲者モデルで72.28%に達した。

Adversarial examples have proven to threaten speaker identification systems, and several countermeasures against them have been proposed. In this paper, we propose a method to detect the presence of adversarial examples, i.e., a binary classifier distinguishing between benign and adversarial examples. We build upon and extend previous work on attack type classification by exploring new architectures. Additionally, we introduce a method for identifying the victim model on which the adversarial attack is carried out. To achieve this, we generate a new dataset containing multiple attacks performed against various victim models. We achieve an AUC of 0.982 for attack detection, with no more than a 0.03 drop in performance for unknown attacks. Our attack classification accuracy (excluding benign) reaches 86.48% across eight attack types using our LightResNet34 architecture, while our victim model classification accuracy reaches 72.28% across four victim models.
翻訳日:2024-03-01 13:44:06 公開日:2024-02-29
# 読解プロセスに基づくマルチホップ質問応答のための明示的・暗黙的知識の提案

Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process ( http://arxiv.org/abs/2402.19350v1 )

ライセンス: Link先を確認
Guangming Huang, Yunfei Long, Cunjin Luo, Jiaxing Shen, Xia Sun(参考訳) 事前学習された言語モデル(PLM)は、チェーン・オブ・シント(CoT)を利用して人間の推論と推論プロセスをシミュレートし、マルチホップQAにおける熟練した性能を達成する。 しかし、plmの推論能力と複雑な問題に取り組む人間の能力との間にはギャップが残っている。 心理学的研究は、通過中の明示的な情報と読書中の人間の事前知識の間に重要なつながりがあることを示唆している。 しかしながら、現在の研究は、人間の認知研究の観点から、入力パスとPLMの事前学習に基づく知識のリンクに十分な注意を払っている。 本研究では,マルチホップqaのためのヒューマンリーディングプロセスと協調して,明示的知識と暗黙的知識を接続するためのプロンプトを用いる \textbf{p}rompting \textbf{e}xplicit と \textbf{i}mplicit knowledge (pei) フレームワークを提案する。 我々は、入力文を明示的な知識とみなし、統一的な素早い推論を通して暗黙的な知識を引き出す。 さらに,本モデルでは,暗黙的知識の形式であるプロンプトによる型固有の推論を取り入れている。 実験の結果,PEIはHotpotQAの最先端と同等に動作することがわかった。 アブレーション研究は, 明示的および暗黙的知識の統合と橋渡しにおけるモデルの有効性を確認した。

Pre-trained language models (PLMs) leverage chains-of-thought (CoT) to simulate human reasoning and inference processes, achieving proficient performance in multi-hop QA. However, a gap persists between PLMs' reasoning abilities and those of humans when tackling complex problems. Psychological studies suggest a vital connection between explicit information in passages and human prior knowledge during reading. Nevertheless, current research has given insufficient attention to linking input passages and PLMs' pre-training-based knowledge from the perspective of human cognition studies. In this study, we introduce a \textbf{P}rompting \textbf{E}xplicit and \textbf{I}mplicit knowledge (PEI) framework, which uses prompts to connect explicit and implicit knowledge, aligning with human reading process for multi-hop QA. We consider the input passages as explicit knowledge, employing them to elicit implicit knowledge through unified prompt reasoning. Furthermore, our model incorporates type-specific reasoning via prompts, a form of implicit knowledge. Experimental results show that PEI performs comparably to the state-of-the-art on HotpotQA. Ablation studies confirm the efficacy of our model in bridging and integrating explicit and implicit knowledge.
翻訳日:2024-03-01 13:43:49 公開日:2024-02-29
# 非可換マヨアナ観測量推定のための最適フェルミオン接合測定

Optimal Fermionic Joint Measurements for Estimating Non-Commuting Majorana Observables ( http://arxiv.org/abs/2402.19349v1 )

ライセンス: Link先を確認
Daniel McNulty, Susane Calegari and Micha{\l} Oszmaniec(参考訳) フェルミオン部分トモグラフィーや化学ハミルトニアンのエネルギー準位推定といったタスクに関連するフェルミオンオブザーバブルの重要なクラスは、反可換マヨラナ作用素の積から得られる二値測定である。 本研究では, 古典的後処理後, 十分非シャープな(ノイズの多い)マヨラナ観測値をすべて偶数度で得る共同計測に基づいて, これらの観測値の効率的な推定戦略について検討する。 ブレイド群によって記述されたマヨルダナ観測器の対称性特性を利用することにより、結合計測性に必要な最小の古典的雑音が、サハデヴ・イェ・キタエフ(syk)モデルのスペクトル特性に関係していることを示す。 特に、$n$モードフェルミオン系の場合、すべての次数の不整合性--$2k$Majorana observables は $\Theta(n^{-k/2})$ for $k\leq 5$ を満たす。 さらに, 少数のフェルミオン型ガウス型ユニタリによって実装された漸近的最適雑音を達成し, 全てのMajoranaモノミアルの集合からサンプリングする共同測定手法を提案する。 我々の関節計測は射影測定のランダム化によって行うことができ、フェルミオンの観測可能量とフェルミオンの古典的な影を推定するための厳密な性能保証を提供する。

An important class of fermionic observables, relevant in tasks such as fermionic partial tomography and estimating energy levels of chemical Hamiltonians, are the binary measurements obtained from the product of anti-commuting Majorana operators. In this work, we investigate efficient estimation strategies of these observables based on a joint measurement which, after classical post-processing, yields all sufficiently unsharp (noisy) Majorana observables of even-degree. By exploiting the symmetry properties of the Majorana observables, as described by the braid group, we show that the incompatibility robustness, i.e., the minimal classical noise necessary for joint measurability, relates to the spectral properties of the Sachdev-Ye-Kitaev (SYK) model. In particular, we show that for an $n$ mode fermionic system, the incompatibility robustness of all degree--$2k$ Majorana observables satisfies $\Theta(n^{-k/2})$ for $k\leq 5$. Furthermore, we present a joint measurement scheme achieving the asymptotically optimal noise, implemented by a small number of fermionic Gaussian unitaries and sampling from the set of all Majorana monomials. Our joint measurement, which can be performed via a randomization over projective measurements, provides rigorous performance guarantees for estimating fermionic observables comparable with fermionic classical shadows.
翻訳日:2024-03-01 13:43:26 公開日:2024-02-29
# インタラクティブセグメンテーションにおけるAIの活用と専門家によるアノテーションの改訂 - 継続的チューニングか、あるいは完全なトレーニングか?

Leveraging AI Predicted and Expert Revised Annotations in Interactive Segmentation: Continual Tuning or Full Training? ( http://arxiv.org/abs/2402.19423v1 )

ライセンス: Link先を確認
Tiezheng Zhang, Xiaoxi Chen, Chongyu Qu, Alan Yuille, Zongwei Zhou(参考訳) インタラクティブセグメンテーション(interactive segmentation)は、aiアルゴリズムと人間の専門知識の統合であり、医療における大規模で詳細な注釈付きデータセットのキュレーションの正確性と効率を向上させる。 人間の専門家はAIによって予測されるアノテーションを改訂し、その結果、AIはこれらの改訂されたアノテーションから学習することで予測を改善する。 このインタラクティブなプロセスは、専門家による大幅な改訂が不要になるまで、アノテーションの品質を向上し続けます。 重要な課題は、AI予測と専門家による改訂されたアノテーションを活用して、AIを反復的に改善する方法だ。 1) 壊滅的な忘れのリスク--aiは、専門家が修正したクラスを使って再訓練するだけであれば、事前に学習したクラスを忘れがちである。(2)aiが予測したアノテーションと専門家が修正したアノテーションの両方を使ってaiを再トレーニングする場合の計算効率の非効率。さらに、データセット内のaiが予測するアノテーションを考えると、aiトレーニングのごくわずかな部分に対して、新しく改訂されたアノテーションの貢献は限定的である。 本稿では,ネットワーク設計とデータ再利用という2つの視点からこの問題に対処する継続的チューニングを提案する。 まず,各クラスを対象とした共有ネットワークを設計し,それに続くクラス固有のネットワークを設計する。 忘れを緩和するために、以前学習したクラスで共有ネットワークを凍結し、修正されたクラスでのみクラス固有のネットワークを更新する。 次に、オーバーコンピューティングを避けるために、以前のアノテーションでわずかなデータを再利用します。 このようなデータの選択は、各データの重要度推定に依存する。 重要性スコアは、AI予測の不確実性と一貫性を組み合わせることで計算される。 我々の実験では、連続チューニングは、パフォーマンスを損なうことなく、スクラッチから繰り返しAIを訓練するよりも16倍の速度を達成することを示した。

Interactive segmentation, an integration of AI algorithms and human expertise, premises to improve the accuracy and efficiency of curating large-scale, detailed-annotated datasets in healthcare. Human experts revise the annotations predicted by AI, and in turn, AI improves its predictions by learning from these revised annotations. This interactive process continues to enhance the quality of annotations until no major revision is needed from experts. The key challenge is how to leverage AI predicted and expert revised annotations to iteratively improve the AI. Two problems arise: (1) The risk of catastrophic forgetting--the AI tends to forget the previously learned classes if it is only retrained using the expert revised classes. (2) Computational inefficiency when retraining the AI using both AI predicted and expert revised annotations; moreover, given the dominant AI predicted annotations in the dataset, the contribution of newly revised annotations--often account for a very small fraction--to the AI training remains marginal. This paper proposes Continual Tuning to address the problems from two perspectives: network design and data reuse. Firstly, we design a shared network for all classes followed by class-specific networks dedicated to individual classes. To mitigate forgetting, we freeze the shared network for previously learned classes and only update the class-specific network for revised classes. Secondly, we reuse a small fraction of data with previous annotations to avoid over-computing. The selection of such data relies on the importance estimate of each data. The importance score is computed by combining the uncertainty and consistency of AI predictions. Our experiments demonstrate that Continual Tuning achieves a speed 16x greater than repeatedly training AI from scratch without compromising the performance.
翻訳日:2024-03-01 13:40:24 公開日:2024-02-29
# PEM:画像セグメンテーションのためのプロトタイプベース効率的なマスクフォーマ

PEM: Prototype-based Efficient MaskFormer for Image Segmentation ( http://arxiv.org/abs/2402.19422v1 )

ライセンス: Link先を確認
Niccol\`o Cavagnero, Gabriele Rosi, Claudia Ruttano, Francesca Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli(参考訳) 最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの分野で素晴らしい結果を示している。 柔軟性のおかげで、単一の統一フレームワークの下で、semanticやpanopticといった複数のセグメンテーションタスクにおいて、優れたパフォーマンスを得ることができます。 このような印象的な性能を達成するために、これらのアーキテクチャは、特にエッジデバイスでは利用できない大規模な計算資源を必要とする。 このギャップを埋めるために、複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。 PEMは、視覚的特徴の冗長性を利用して計算を制限し、性能を損なうことなく効率を向上する、新しいプロトタイプベースのクロスアテンションを提案する。 さらに、PEMは、変形可能な畳み込みとコンテキストベースの自己変調の組み合わせにより、高い意味的内容を持つ特徴を効率的に抽出できる効率的なマルチスケール特徴ピラミッドネットワークを導入している。 提案したPEMアーキテクチャをセマンティックとパン光学セグメンテーションの2つのタスクでベンチマークし、CityscapesとADE20Kの2つの異なるデータセットで評価した。 PEMは、すべてのタスクとデータセットで優れたパフォーマンスを示し、タスク固有のアーキテクチャよりも優れ、計算に精通するベースラインよりも同等で、さらに優れている。

Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as semantic and panoptic, under a single unified framework. To achieve such impressive performance, these architectures employ intensive operations and require substantial computational resources, which are often not available, especially on edge devices. To fill this gap, we propose Prototype-based Efficient MaskFormer (PEM), an efficient transformer-based architecture that can operate in multiple segmentation tasks. PEM proposes a novel prototype-based cross-attention which leverages the redundancy of visual features to restrict the computation and improve the efficiency without harming the performance. In addition, PEM introduces an efficient multi-scale feature pyramid network, capable of extracting features that have high semantic content in an efficient way, thanks to the combination of deformable convolutions and context-based self-modulation. We benchmark the proposed PEM architecture on two tasks, semantic and panoptic segmentation, evaluated on two different datasets, Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task and dataset, outperforming task-specific architectures while being comparable and even better than computationally-expensive baselines.
翻訳日:2024-03-01 13:39:47 公開日:2024-02-29
# crafting knowledge: チャットベースの検索エンジンの創造的メカニズムを探求する

Crafting Knowledge: Exploring the Creative Mechanisms of Chat-Based Search Engines ( http://arxiv.org/abs/2402.19421v1 )

ライセンス: Link先を確認
Lijia Ma, Xingchen Xu, Yong Tan(参考訳) デジタル情報拡散の分野では、検索エンジンは情報探索者と提供者を結ぶ重要なコンデュートとして機能する。 大規模言語モデル(llms)と検索拡張生成(rag)を利用したチャットベースの検索エンジンの出現は、bing chatの例だが、検索エコシステムにおける進化的な飛躍を示している。 ウェブ情報を解釈し、人間のような理解と創造性で反応するメタ認知能力を示す。 それでも、LLMの複雑な性質は、その「認知的」プロセスが不透明であり、デザイナーの理解にも挑戦する。 本研究の目的は、LLMを利用したチャットベースの検索エンジン、特にBing Chatが応答に関する情報ソースを選択するメカニズムを解明することである。 この目的のために、New Bingとのエンゲージメントを通じて広範なデータセットがコンパイルされ、従来の検索エンジンにリストアップされたウェブサイトと共に引用されるウェブサイトが記録されている。 自然言語処理(NLP)技術を用いて、Bing Chatは読みやすく、形式的に構造化されたコンテンツを好むだけでなく、低いパープレキシティレベルを示し、基礎となるLLMによって予測可能なテキストへの独自の傾きを示す。 さらに分析を充実させ,GAT-4ベースの知識検索APIとのインタラクションを通じて,RAG APIとBing Chatの一致したテキスト嗜好を明らかにすることで,新たなデータセットを取得する。 この合意は、これらのテキストの好みがBing Chatの開発者によって明示的に作成されるのではなく、本質的に基盤となる言語モデルから現れることを示唆している。 さらに,rag 技術が引用する web サイトと,従来の検索エンジンで上位の web サイトとの類似度が高かった。

In the domain of digital information dissemination, search engines act as pivotal conduits linking information seekers with providers. The advent of chat-based search engines utilizing Large Language Models (LLMs) and Retrieval Augmented Generation (RAG), exemplified by Bing Chat, marks an evolutionary leap in the search ecosystem. They demonstrate metacognitive abilities in interpreting web information and crafting responses with human-like understanding and creativity. Nonetheless, the intricate nature of LLMs renders their "cognitive" processes opaque, challenging even their designers' understanding. This research aims to dissect the mechanisms through which an LLM-powered chat-based search engine, specifically Bing Chat, selects information sources for its responses. To this end, an extensive dataset has been compiled through engagements with New Bing, documenting the websites it cites alongside those listed by the conventional search engine. Employing natural language processing (NLP) techniques, the research reveals that Bing Chat exhibits a preference for content that is not only readable and formally structured, but also demonstrates lower perplexity levels, indicating a unique inclination towards text that is predictable by the underlying LLM. Further enriching our analysis, we procure an additional dataset through interactions with the GPT-4 based knowledge retrieval API, unveiling a congruent text preference between the RAG API and Bing Chat. This consensus suggests that these text preferences intrinsically emerge from the underlying language models, rather than being explicitly crafted by Bing Chat's developers. Moreover, our investigation documents a greater similarity among websites cited by RAG technologies compared to those ranked highest by conventional search engines.
翻訳日:2024-03-01 13:39:21 公開日:2024-02-29
# 多エージェント強化学習による反復型コンビネートオークション設計の理解

Understanding Iterative Combinatorial Auction Designs via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.19420v1 )

ライセンス: Link先を確認
Greg d'Eon, Neil Newman, Kevin Leyton-Brown(参考訳) 反復組合せオークションはスペクトルオークションのような高利得設定で広く使用されている。 このようなオークションは分析的に理解することが困難であり、入札者はどのように振る舞うかを決め、デザイナーは高い収入や福祉などの望ましい結果を保証するためにオークションルールを最適化することが困難である。 本稿では,マルチエージェント強化学習(marl)アルゴリズムが反復的組合せオークションの理解に有用かどうかについて検討する。 marlはオークション分析に役立つが、効果的にデプロイすることは自明ではない。 まず、不完全な情報や入札者間の非対称性といった重要な特徴を犠牲にすることなく、結果が引き起こされるような決定をモデル化することから始める。 また、様々なMARLアルゴリズムの落とし穴をナビゲートする方法、収束検証の課題を克服する方法、多重平衡の生成と解釈方法についても論じる。 提案手法は,クロックオークションに対する特定のルール変更を評価し,入札者の行動の複雑な変化により,実質的に異なるオークション結果を見出すことによって実現される。

Iterative combinatorial auctions are widely used in high stakes settings such as spectrum auctions. Such auctions can be hard to understand analytically, making it difficult for bidders to determine how to behave and for designers to optimize auction rules to ensure desirable outcomes such as high revenue or welfare. In this paper, we investigate whether multi-agent reinforcement learning (MARL) algorithms can be used to understand iterative combinatorial auctions, given that these algorithms have recently shown empirical success in several other domains. We find that MARL can indeed benefit auction analysis, but that deploying it effectively is nontrivial. We begin by describing modelling decisions that keep the resulting game tractable without sacrificing important features such as imperfect information or asymmetry between bidders. We also discuss how to navigate pitfalls of various MARL algorithms, how to overcome challenges in verifying convergence, and how to generate and interpret multiple equilibria. We illustrate the promise of our resulting approach by using it to evaluate a specific rule change to a clock auction, finding substantially different auction outcomes due to complex changes in bidders' behavior.
翻訳日:2024-03-01 13:38:52 公開日:2024-02-29
# 光励起状態における電子-フォノンカップリングによる固体欠陥量子ビットの核スピン緩和

Nuclear spin relaxation in solid state defect quantum bits via electron-phonon coupling in their optical excited state ( http://arxiv.org/abs/2402.19418v1 )

ライセンス: Link先を確認
Gerg\H{o} Thiering and Adam Gali(参考訳) 光アクセス可能な固体欠陥スピンは量子情報処理の主要なプラットフォームであり、電子スピンとアンシラ核スピンの緊密な制御が操作に重要である。 我々は, 窒素核スピンのスピンフォノン緩和速度が, 欠陥の光励起状態における強い電子-フォノンカップリングにより, 数桁の精度で増強されるという, グループ理論と密度汎関数理論によるダイヤモンド中の模範的窒素-空孔(NV)色中心を実証した。 この機構は、nv中心と類似の光励起状態を共有する他の固体欠陥スピンに共通している。

Optically accessible solid state defect spins are primary platform for quantum information processing where tight control of the electron spin and ancilla nuclear spins is pivotal for the operation. We demonstrate on the exemplary nitrogen-vacancy (NV) color center in diamond by means of a combined group theory and density functional theory study that spin-phonon relaxation rate of the nitrogen nuclear spin is with several orders of magnitude enhanced by the strong electron-phonon coupling in the optical excited state of the defect. The mechanism is common to other solid state defect spins sharing similar optical excited states with that of the NV center.
翻訳日:2024-03-01 13:38:32 公開日:2024-02-29
# システムの絡み合いは量子測定の読み出し効率を気にするだろうか?

Does the system entanglement care about the readout efficiency of quantum measurement? ( http://arxiv.org/abs/2402.19412v1 )

ライセンス: Link先を確認
Christian Carisch, Oded Zilberberg, Alessandro Romito(参考訳) 監視された量子系は、系の状態に関する観測者の知識と相関する確率軌道に沿って進化する。 このような力学の下では、絡み合いのような特定の量子資源は観測者の知識の状態に依存する可能性がある。 ここでは,1次元量子ランダムウォーク上の粒子の絡み合いを,混合状態絡み合い測定器(構成コヒーレンス)を用いて非効率な監視下で定量化する。 測定による量子-古典的交叉におけるシステムの最大平均絡み合いは、測定強度と非効率性によって異なる方法で抑制される。 原則として、強い測定は絡み合いの量を無限に減少させる。 しかし、ある測定強度において、効率的な読み出しはシステムの絡み合いを著しく増加させ、高忠実度検出器が量子コンピューティングの成功に必須となる。

Monitored quantum systems evolve along stochastic trajectories correlated with the observer's knowledge of the system's state. Under such dynamics, certain quantum resources like entanglement may depend on the observer's state of knowledge. Here, we quantify the entanglement for a particle on a 1d quantum random walk under inefficient monitoring using a mixed state-entanglement measure -- the configuration coherence. We find that the system's maximal mean entanglement at the measurement-induced quantum-to-classical crossover is suppressed in different ways by the measurement strength and inefficiency. In principle, strong measurements can lower the amount of entanglement indefinitely. However, at a given measurement strength, efficient readout can crucially increase the system entanglement, making high-fidelity detectors essential for successful quantum computing.
翻訳日:2024-03-01 13:38:21 公開日:2024-02-29
# paecter: citation-informed transformersを用いた特許レベルの表現学習

PaECTER: Patent-level Representation Learning using Citation-informed Transformers ( http://arxiv.org/abs/2402.19411v1 )

ライセンス: Link先を確認
Mainak Ghosh, Sebastian Erhardt, Michael E. Rose, Erik Buunk, Dietmar Harhoff(参考訳) PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。 我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。 PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。 より具体的には、我々のモデルは、2つの異なるランク評価指標に関する特許引用予測テストデータセットにおいて、次の最良特許特定事前訓練言語モデル(BERT for Patents)より優れている。 PaECTERは、25の非関連特許と比較した場合、平均1.32のランクで少なくとも1つの類似した特許を予測する。 PaECTERが特許文書から生成した数値表現は、分類、知識フローのトレース、意味的類似性探索などの下流タスクに利用できる。 意味的類似性探索は、発明家と特許審査官の両方の先行技術探索の文脈において特に関係している。 PaECTERはHugging Faceで利用できる。

PaECTER is a publicly available, open-source document-level encoder specific for patents. We fine-tune BERT for Patents with examiner-added citation information to generate numerical representations for patent documents. PaECTER performs better in similarity tasks than current state-of-the-art models used in the patent domain. More specifically, our model outperforms the next-best patent specific pre-trained language model (BERT for Patents) on our patent citation prediction test dataset on two different rank evaluation metrics. PaECTER predicts at least one most similar patent at a rank of 1.32 on average when compared against 25 irrelevant patents. Numerical representations generated by PaECTER from patent text can be used for downstream tasks such as classification, tracing knowledge flows, or semantic similarity search. Semantic similarity search is especially relevant in the context of prior art search for both inventors and patent examiners. PaECTER is available on Hugging Face.
翻訳日:2024-03-01 13:38:08 公開日:2024-02-29
# 言語モデルにおける地理的表現のスケーリング則について

On the Scaling Laws of Geographical Representation in Language Models ( http://arxiv.org/abs/2402.19406v1 )

ライセンス: Link先を確認
Nathan Godey, \'Eric de la Clergerie, Beno\^it Sagot(参考訳) 言語モデルは長い間、その隠れた表現に地理情報を埋め込むことが示されている。 この一連の作業は、最近、この結果をLarge Language Models (LLMs)に拡張することで再考された。 本稿では,言語モデルのスケーリングにおいて,地理的知識がどのように発達するかを観察することで,確立された文献と最近の文献のギャップを埋めることを提案する。 地理的知識は小さなモデルでも観測可能であり、モデルのサイズが大きくなるにつれて一貫して拡張可能であることを示す。 特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。

Language models have long been shown to embed geographical information in their hidden representations. This line of work has recently been revisited by extending this result to Large Language Models (LLMs). In this paper, we propose to fill the gap between well-established and recent literature by observing how geographical knowledge evolves when scaling language models. We show that geographical knowledge is observable even for tiny models, and that it scales consistently as we increase the model size. Notably, we observe that larger language models cannot mitigate the geographical bias that is inherent to the training data.
翻訳日:2024-03-01 13:37:54 公開日:2024-02-29
# 意図しない活動の推論のための幻覚の誘導

Navigating Hallucinations for Reasoning of Unintentional Activities ( http://arxiv.org/abs/2402.19405v1 )

ライセンス: Link先を確認
Shresth Grover, Vibhav Vineet, Yogesh S Rawat(参考訳) 本稿では,意図しない人間の行動をビデオで理解する新しいタスクを提案する。 我々はこの問題をゼロショットシナリオの下での推論タスクとして定式化しており、意図しない活動の動画を見て、なぜ意図的から意図的へ移行したのかを知りたい。 まず,この推論課題に対する最先端の大規模マルチモーダルモデルの有効性を評価し,幻覚に苦しむことを観察する。 さらに,より優れた推論を実現するために,モデルが幻覚的思考をナビゲートできる新たなプロンプト手法であるdream of thoughts (dot)を提案する。 このタスクの性能を評価するために,モデル推論能力の定量化を目的とした3つの専門指標を導入する。 我々は、oopsとutf-crimesという2つの異なるデータセットで実験を行い、dotプロンプト技術が標準プロンプトよりも優れ、幻覚を最小化できることを示した。

In this work we present a novel task of understanding unintentional human activities in videos. We formalize this problem as a reasoning task under zero-shot scenario, where given a video of an unintentional activity we want to know why it transitioned from intentional to unintentional. We first evaluate the effectiveness of current state-of-the-art Large Multimodal Models on this reasoning task and observe that they suffer from hallucination. We further propose a novel prompting technique,termed as Dream of Thoughts (DoT), which allows the model to navigate through hallucinated thoughts to achieve better reasoning. To evaluate the performance on this task, we also introduce three different specialized metrics designed to quantify the models reasoning capability. We perform our experiments on two different datasets, OOPs and UCF-Crimes, and our findings show that DOT prompting technique is able to outperform standard prompting, while minimizing hallucinations.
翻訳日:2024-03-01 13:37:44 公開日:2024-02-29
# ニュース画像キャプションのためのエンティティ対応マルチモーダルアライメントフレームワーク

Entity-Aware Multimodal Alignment Framework for News Image Captioning ( http://arxiv.org/abs/2402.19404v1 )

ライセンス: Link先を確認
Junzhe Zhang and Huixuan Zhang and Xiaojun Wan(参考訳) ニュース画像キャプションタスクは、ニュース画像と関連するニュース記事とのより情報的なキャプションを生成するモデルを必要とする画像キャプションタスクの一種である。 近年,マルチモーダル大規模言語モデルは急速に発展し,ニュース画像キャプションタスクに期待されている。 しかし,実験によれば,共通MLLMはゼロショット設定でエンティティを生成するのが得意ではない。 エンティティ情報を扱う能力は、単にニュース画像キャプションデータセットを微調整した後に制限される。 マルチモーダルエンティティ情報を扱うためのより強力なモデルを得るため、2つのマルチモーダルエンティティ・アウェアアライメントタスクと、モデルをアライメントしてニュース画像キャプションを生成するアライメントフレームワークを設計する。 提案手法は,GoodNewsデータセットにおけるCIDErスコア(72.33 -> 86.29),NYTimes800kデータセットにおける(70.83 -> 85.61)よりも優れた結果が得られる。

News image captioning task is a variant of image captioning task which requires model to generate a more informative caption with news image and the associated news article. Multimodal Large Language models have developed rapidly in recent years and is promising in news image captioning task. However, according to our experiments, common MLLMs are not good at generating the entities in zero-shot setting. Their abilities to deal with the entities information are still limited after simply fine-tuned on news image captioning dataset. To obtain a more powerful model to handle the multimodal entity information, we design two multimodal entity-aware alignment tasks and an alignment framework to align the model and generate the news image captions. Our method achieves better results than previous state-of-the-art models in CIDEr score (72.33 -> 86.29) on GoodNews dataset and (70.83 -> 85.61) on NYTimes800k dataset.
翻訳日:2024-03-01 13:37:14 公開日:2024-02-29
# 需要予測のためのスケーラブルで転送可能な時系列予測フレームワーク

A Scalable and Transferable Time Series Prediction Framework for Demand Forecasting ( http://arxiv.org/abs/2402.19402v1 )

ライセンス: Link先を確認
Young-Jin Park, Donghyun Kim, Fr\'ed\'eric Odermatt, Juho Lee, Kyung-Min Kim(参考訳) 時系列予測は、需要予測や物流最適化を含む多くのビジネス問題において、最も不可欠でユビキタスなタスクの1つである。 しかし、従来の時系列予測手法は、精度を維持しながらモデルサイズをスケールアップすることが困難であるため、表現力に乏しい小型モデルを生み出している。 本稿では,様々な項目に対する将来の需要を正確に予測できる簡易かつ強力なフレームワークである予測オーケストラ(forchestra)を提案する。 モデルサイズが最大0.8億のパラメータに拡張可能であることを実証的に実証する。 提案手法は,既存の予測モデルをかなりのマージンで上回るだけでなく,ダウンストリームデータセット上でゼロショット方式で評価した場合,未認識のデータポイントを十分に一般化することができる。 最後に,提案モデルがベースラインモデルより優れ,従来の手法との違いを解析するために,定性的かつ定量的に検討した。 オリジナルの論文はICDM 2022でフルペーパーとして発表され、https://ieeexplore.ieee.org/document/10027662で公開されている。

Time series forecasting is one of the most essential and ubiquitous tasks in many business problems, including demand forecasting and logistics optimization. Traditional time series forecasting methods, however, have resulted in small models with limited expressive power because they have difficulty in scaling their model size up while maintaining high accuracy. In this paper, we propose Forecasting orchestra (Forchestra), a simple but powerful framework capable of accurately predicting future demand for a diverse range of items. We empirically demonstrate that the model size is scalable to up to 0.8 billion parameters. The proposed method not only outperforms existing forecasting models with a significant margin, but it could generalize well to unseen data points when evaluated in a zero-shot fashion on downstream datasets. Last but not least, we present extensive qualitative and quantitative studies to analyze how the proposed model outperforms baseline models and differs from conventional approaches. The original paper was presented as a full paper at ICDM 2022 and is available at: https://ieeexplore.ieee.org/document/10027662.
翻訳日:2024-03-01 13:36:42 公開日:2024-02-29
# ニューラルネットワークの視覚的連続的破壊ロバスト性の評価

Assessing Visually-Continuous Corruption Robustness of Neural Networks Relative to Human Performance ( http://arxiv.org/abs/2402.19401v1 )

ライセンス: Link先を確認
Huakun Shen and Boyue Caroline Hu and Krzysztof Czarnecki and Lina Marsso and Marsha Chechik(参考訳) ニューラルネットワーク(NN)はイメージネット上の画像分類において人間の精度を上回っているが、画像の破損に対する堅牢性、すなわち腐敗の堅牢性に欠けることが多い。 しかし、そのような頑丈さは人間の知覚に不利に見える。 本稿では,人間の知覚的品質(原画像から認識されるすべての視覚情報の完全な歪みまで)に対応する広範囲かつ連続的な変化を評価できるように,視覚的に連続的な汚職堅牢性(VCR)を拡張し,NN評価のための新たな2つの評価指標とともに提案する。 NNのVCRと人間の知覚を比較するために,7,718人の被験者と,異なるトレーニング目標(標準,敵対的,汚職の堅牢性など),異なるアーキテクチャ(畳み込みNN,視覚変換器など),さまざまなトレーニングデータ拡張を備えた最先端の頑健なNNモデルを用いた14種類の画像破壊実験を行った。 私たちの研究はそれを示しました 1) 継続的腐敗に対する堅牢性の評価は、既存のベンチマークで検出されていない不十分な堅牢性を明らかにすることができる。 2) NNと人間の頑健さのギャップは, 従来よりも大きく, そして最後に 3) 画像の腐敗は人間の知覚に同様の影響を与え, 費用対効果の高い堅牢性評価の機会を与えている。 私たちの検証セットには14の画像破損、人間のロバスト性データ、評価コードはツールボックスとベンチマークとして提供されます。

While Neural Networks (NNs) have surpassed human accuracy in image classification on ImageNet, they often lack robustness against image corruption, i.e., corruption robustness. Yet such robustness is seemingly effortless for human perception. In this paper, we propose visually-continuous corruption robustness (VCR) -- an extension of corruption robustness to allow assessing it over the wide and continuous range of changes that correspond to the human perceptive quality (i.e., from the original image to the full distortion of all perceived visual information), along with two novel human-aware metrics for NN evaluation. To compare VCR of NNs with human perception, we conducted extensive experiments on 14 commonly used image corruptions with 7,718 human participants and state-of-the-art robust NN models with different training objectives (e.g., standard, adversarial, corruption robustness), different architectures (e.g., convolution NNs, vision transformers), and different amounts of training data augmentation. Our study showed that: 1) assessing robustness against continuous corruption can reveal insufficient robustness undetected by existing benchmarks; as a result, 2) the gap between NN and human robustness is larger than previously known; and finally, 3) some image corruptions have a similar impact on human perception, offering opportunities for more cost-effective robustness assessments. Our validation set with 14 image corruptions, human robustness data, and the evaluation code is provided as a toolbox and a benchmark.
翻訳日:2024-03-01 13:36:06 公開日:2024-02-29
# ジョセフソン走行波パラメトリック増幅器の磁場依存性と高磁場設定への積分

Magnetic-field dependence of a Josephson traveling-wave parametric amplifier and integration into a high-field setup ( http://arxiv.org/abs/2402.19398v1 )

ライセンス: Link先を確認
L. M. Janssen, G. Butseraen, J. Krause, A. Coissard, L. Planat, N. Roch, G. Catelani, Yoichi Ando, C. Dickel(参考訳) フォトニック結晶ジョセフソン走行波パラメトリック増幅器(TWPA)における磁場の影響について検討した。 超伝導ギャップのフラウンホーファー効果と閉体によるtwpaのジョセフソン接合(jjs)における臨界電流の抑制を考慮して,twpaのフォトニックバンドギャップとプラズマ周波数の変化をモデル化できることを示した。 JJ幾何学の会計は、場の依存を理解するために重要である。 一方の面内方向では、TWPAバンドギャップを最大60mTのフィールドで2GHzシフトでき、利得や帯域幅を損なうことなく、SQUIDのないTWPAをフィールド調整できることを示す。 他の平面方向では、磁場はジョセフソン接合のより大きな側と垂直であり、フラウンホーファー効果はより小さい周期である。 JJのこの大きな側面は、バンドギャップを作成するために変調される。 フィールドはより大きなジャンクションとより強く相互作用し、その結果、twpaバンドギャップは、フィールドが増加するにつれて閉じて再オープンし、twpaは既に2mtで深刻な損傷を受け、twpaの応答がヒステリックである平面外フィールドにおいてわずかに高い5mtの動作限界が見つかる。 これらの測定により,試料の高磁場を必要とする実験において,TWPAの使用に必要な磁気シールドの必要性が明らかとなった。

We investigate the effect of magnetic field on a photonic-crystal Josephson traveling-wave parametric amplifier (TWPA). We show that the observed change in photonic bandgap and plasma frequency of the TWPA can be modeled by considering the suppression of the critical current in the Josephson junctions (JJs) of the TWPA due to the Fraunhofer effect and closing of the superconducting gap. Accounting for the JJ geometry is crucial for understanding the field dependence. In one in-plane direction, the TWPA bandgap can be shifted by 2 GHz using up to 60 mT of field, without losing gain or bandwidth, showing that TWPAs without SQUIDs can be field tunable. In the other in-plane direction, the magnetic field is perpendicular to the larger side of the Josephson junctions, so the Fraunhofer effect has a smaller period. This larger side of the JJs is modulated to create the bandgap. The field interacts more strongly with the larger junctions, and as a result, the TWPA bandgap closes and reopens as the field increases, causing the TWPA to become severely compromised already at 2 mT. A slightly higher operating limit of 5 mT is found in out-of-plane field, for which the TWPA's response is hysteretic. These measurements reveal the requirements for magnetic shielding needed to use TWPAs in experiments where high fields at the sample are required; we show that with magnetic shields we can operate the TWPA while applying over 2 T to the sample.
翻訳日:2024-03-01 13:35:19 公開日:2024-02-29
# 可変小型オンチップ超伝導スイッチ

Tunable compact on-chip superconducting switch ( http://arxiv.org/abs/2402.19394v1 )

ライセンス: Link先を確認
Julia Zotova, Alexander Semenov, Rui Wang, Yu Zhou, Oleg Astafiev and Jaw-Shen Tsai(参考訳) 我々は4.8GHz-7.3GHzの範囲で可変動作周波数の小型4ポート超伝導スイッチを開発した。 チャネル間の分離は、数百メガヘルツの帯域で20〜dBを超え、ある周波数で40dBを超える。 デバイスのフットプリントは80\times420~\mu$m。 波長可変性は、永久磁石やマイクロ電気機械構造を伴わない大域的な磁束バイアスのみを必要とする。 スイッチが超伝導であるため、動作中の放熱は無視できる。 このデバイスは最大-80~dBmで動作可能で、2.5\times 10^6$ Photonsと6GHz/マイクロ秒で等しい。 この装置は、調整可能な分割比でビームスプリッタとして操作できる可能性を示す。

We develop a compact four-port superconducting switch with a tunable operating frequency in the range of 4.8 GHz -- 7.3 GHz. Isolation between channel exceeds 20~dB over a bandwidth of several hundred megahertz, exceeding 40 dB at some frequencies. The footprint of the device is $80\times420~\mu$m. The tunability requires only a global flux bias without either permanent magnets or micro-electromechanical structures. As the switch is superconducting, the heat dissipation during operation is negligible. The device can operate at up to -80~dBm, which is equal to $2.5\times 10^6$ photons at 6 GHz per microsecond. The device show a possibility to be operated as a beamsplitter with tunable splitting ratio.
翻訳日:2024-03-01 13:34:31 公開日:2024-02-29
# シリコン中のリン原子配列の単一電子状態

Single-electron states of phosphorus-atom arrays in silicon ( http://arxiv.org/abs/2402.19392v1 )

ライセンス: Link先を確認
Maicol A. Ochoa, Keyi Liu, Micha{\l} Zieli\'nski, Garnett W. Bryant(参考訳) シリコン中の2, 3, 4個のリン原子を持つ配列の単一電子エネルギーと波動関数構造を原子間密結合計算を実装し, 波動関数の重なりを解析し, 配列をハイブリダイズする単一ドーパント状態を特定する。 これらの配列のドーパント分離の関数としてのエネルギースペクトルと波動関数の重なりの変動は、ハイブリダイゼーションがほとんど同じタイプの単一ドーパント状態の間で起こり、短い分離で起こる$a_1$ と $e$ のクロスハイブリダイゼーションがあることを示している。 また、不純物分離の関数として、異なるタイプのハイブリッド状態間のエネルギー交差も観察する。 次に、状態エネルギーを位置表現のホッピングハミルトンにマッピングすることで、異なるドーパント中の電子のトンネル速度を抽出する。 有意な特徴は,対角線と近距離のトンネル速度が正方形配列で大小に類似していることである。 我々の分析は、他のドーパントの核ポテンシャルから生じる各リン原子のオンサイトエネルギーの変化も考慮している。 このアプローチは、電子エネルギーと波動関数の構造をこれらのデバイスでアナログ量子シミュレーションを実装し検証するのに必要なフェルミ・ハバード・ハミルトニアンにマッピングするための固体プロトコルを構成する。

We characterize the single-electron energies and the wavefunction structure of arrays with two, three, and four phosphorus atoms in silicon by implementing atomistic tight-binding calculations and analyzing wavefunction overlaps to identify the single-dopant states that hybridize to make the array states. The energy spectrum and wavefunction overlap variation as a function of dopant separation for these arrays shows that hybridization mostly occurs between single-dopant states of the same type, with some cross-hybridization between $A_1$ and $E$ states occurring at short separations. We also observe energy crossings between hybrid states of different types as a function of impurity separation. We then extract tunneling rates for electrons in different dopants by mapping the state energies into hopping Hamiltonians in the site representation. Significantly, we find that diagonal and nearest neighbor tunneling rates are similar in magnitude in a square array. Our analysis also accounts for the shift of the on-site energy at each phosphorus atom resulting from the nuclear potential of the other dopants. This approach constitutes a solid protocol to map the electron energies and wavefunction structure into Fermi-Hubbard Hamiltonians needed to implement and validate analog quantum simulations in these devices.
翻訳日:2024-03-01 13:34:18 公開日:2024-02-29
# 不確かさのベンチマーク:特定課題の特定不確実性

Benchmarking Uncertainty Disentanglement: Specialized Uncertainties for Specialized Tasks ( http://arxiv.org/abs/2402.19460v1 )

ライセンス: Link先を確認
B\'alint Mucs\'anyi and Michael Kirchhof and Seong Joon Oh(参考訳) 不確かさの定量化は、かつては特異なタスクであったが、断続的な予測、分布外検出、アリュータ的不確かさの定量化など、様々なタスクへと進化してきた。 最新の目標は、複数の推定器の構築であり、それぞれが1つのタスクと1つのタスクに調整されている。 したがって、様々な意図を持つ最近の進歩は、しばしば実践的な行動から完全に逸脱することが多い。 本稿では,ImageNet上の様々なタスクにおける多数の不確実性推定器の包括的評価を行う。 有望な理論的な努力にもかかわらず、実際にはまだ解離は達成されていない。 さらに,特定のタスクを抽出する不確実性推定器がどのタスクを抽出するかを明らかにし,実践者への洞察を与え,タスク中心および不整合性推定手法の今後の研究を導く。 私たちのコードはhttps://github.com/bmucsanyi/bud.comで利用可能です。

Uncertainty quantification, once a singular task, has evolved into a spectrum of tasks, including abstained prediction, out-of-distribution detection, and aleatoric uncertainty quantification. The latest goal is disentanglement: the construction of multiple estimators that are each tailored to one and only one task. Hence, there is a plethora of recent advances with different intentions - that often entirely deviate from practical behavior. This paper conducts a comprehensive evaluation of numerous uncertainty estimators across diverse tasks on ImageNet. We find that, despite promising theoretical endeavors, disentanglement is not yet achieved in practice. Additionally, we reveal which uncertainty estimators excel at which specific tasks, providing insights for practitioners and guiding future research toward task-centric and disentangled uncertainty estimation methods. Our code is available at https://github.com/bmucsanyi/bud.
翻訳日:2024-03-01 13:30:24 公開日:2024-02-29
# texttt{cosmic}$:タスクに依存しない要約評価のための相互情報

$\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization Evaluation ( http://arxiv.org/abs/2402.19457v1 )

ライセンス: Link先を確認
Maxime Darrin, Philippe Formont, Jackie Chi Kit Cheung, Pablo Piantanida(参考訳) 要約の質を評価することは大きな課題となる。 そこで本研究では,タスク成果を保ちつつ,下流タスクに有用な要約を生成する能力に基づいて要約者を評価する新しいタスク指向評価手法を提案する。 理論的には、これらのタスクのエラー確率と、ソーステキストと生成した要約の相互情報との直接関係を確立する。 我々は,この指標の実践的実装として$\texttt{COSMIC}$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を示した。 確立されたメトリクスに対する比較分析: $\texttt{bertscore}$と$\texttt{rouge}$は、$\texttt{cosmic}$の競争力を強調する。

Assessing the quality of summarizers poses significant challenges. In response, we propose a novel task-oriented evaluation approach that assesses summarizers based on their capacity to produce summaries that are useful for downstream tasks, while preserving task outcomes. We theoretically establish a direct relationship between the resulting error probability of these tasks and the mutual information between source texts and generated summaries. We introduce $\texttt{COSMIC}$ as a practical implementation of this metric, demonstrating its strong correlation with human judgment-based metrics and its effectiveness in predicting downstream task performance. Comparative analyses against established metrics like $\texttt{BERTScore}$ and $\texttt{ROUGE}$ highlight the competitive performance of $\texttt{COSMIC}$.
翻訳日:2024-03-01 13:30:07 公開日:2024-02-29
# 量子近似最適化アルゴリズムによるスパイクテンソルモデルの統計的推定

Statistical Estimation in the Spiked Tensor Model via the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2402.19456v1 )

ライセンス: Link先を確認
Leo Zhou, Joao Basso, Song Mei(参考訳) 量子近似最適化アルゴリズム(QAOA)は組合せ最適化のための汎用アルゴリズムである。 本稿では,統計的推定問題,すなわち,古典的に統計計算のギャップを示すスパイクテンソルモデルにおいて,QAOAの性能を解析する。 我々は,1ドルステップのQAOAの弱い回復閾値が1ドルステップのテンソルパワーの繰り返しと一致することを証明した。 追加のヒューリスティックな計算は、$p$-step qaoaの弱い回復しきい値が$p$が固定定数であるときに$p$-stepテンソルパワーイテレーションのそれと一致することを示唆している。 これはさらに、テンソル展開を伴うマルチステップQAOAが、スパイクされた$q$-tensorsに対して古典的な計算しきい値$\Theta(n^{(q-2)/4})$を達成できることを示している。 一方, p$-step qaoa に対する漸近的重なり分布を特徴付け, シミュレーションにより検証された興味深い正弦-ガウス則を見いだした。 幾らかの$p$と$q$に対して、QAOAはテンソルパワーの繰り返しの重なりよりも定数係数が大きい重なりが得られる。 本手法は, 固定構造を持たないスピングラスモデルにおいて, 従来のQAOA解析と異なり, 難解な組合せ和を扱うためにフーリエ変換を用いる。

The quantum approximate optimization algorithm (QAOA) is a general-purpose algorithm for combinatorial optimization. In this paper, we analyze the performance of the QAOA on a statistical estimation problem, namely, the spiked tensor model, which exhibits a statistical-computational gap classically. We prove that the weak recovery threshold of $1$-step QAOA matches that of $1$-step tensor power iteration. Additional heuristic calculations suggest that the weak recovery threshold of $p$-step QAOA matches that of $p$-step tensor power iteration when $p$ is a fixed constant. This further implies that multi-step QAOA with tensor unfolding could achieve, but not surpass, the classical computation threshold $\Theta(n^{(q-2)/4})$ for spiked $q$-tensors. Meanwhile, we characterize the asymptotic overlap distribution for $p$-step QAOA, finding an intriguing sine-Gaussian law verified through simulations. For some $p$ and $q$, the QAOA attains an overlap that is larger by a constant factor than the tensor power iteration overlap. Of independent interest, our proof techniques employ the Fourier transform to handle difficult combinatorial sums, a novel approach differing from prior QAOA analyses on spin-glass models without planted structure.
翻訳日:2024-03-01 13:29:54 公開日:2024-02-29
# 騒音に耳を傾ける:ギブズ拡散によるブラインドデノイング

Listening to the Noise: Blind Denoising with Gibbs Diffusion ( http://arxiv.org/abs/2402.19455v1 )

ライセンス: Link先を確認
David Heurtel-Depeiges, Charles C. Margossian, Ruben Ohana, Bruno R\'egaldo-Saint Blancard(参考訳) 近年,深層生成モデルの開発により,デノイジングの問題が絡み合っている。 特に拡散モデルはデノイザーのように訓練され、それらがモデル化する分布はベイズ図におけるデノイジング先行と一致する。 しかし、拡散に基づく後部サンプリングではノイズレベルと共分散が知られなければならず、視覚障害が防止される。 本稿では,Gibs Diffusion(GDiff)という信号と雑音パラメータの両方の後方サンプリングを行う一般的な手法を導入することで,この制限を克服する。 任意のパラメトリックガウス雑音を仮定し、雑音分布の族に先立って信号のマッピングを訓練した条件拡散モデルと、雑音パラメータを推定するモンテカルロ・サンプラーとからサンプリングステップを交互に行うgibbsアルゴリズムを開発した。 理論解析では, 潜在的な落とし穴に着目し, 診断法を指導し, 拡散モデルによるgibbs定常分布の誤差を定量化する。 我々の方法を紹介します 1)未知の振幅とスペクトル指数を有する色付き雑音を含む自然画像のブラインドノイズ化 2)宇宙論の問題、すなわち宇宙マイクロ波背景データの解析では、ベイジアンが「ノイズ」パラメータを推定することは宇宙の進化の制約モデルを意味する。

In recent years, denoising problems have become intertwined with the development of deep generative models. In particular, diffusion models are trained like denoisers, and the distribution they model coincide with denoising priors in the Bayesian picture. However, denoising through diffusion-based posterior sampling requires the noise level and covariance to be known, preventing blind denoising. We overcome this limitation by introducing Gibbs Diffusion (GDiff), a general methodology addressing posterior sampling of both the signal and the noise parameters. Assuming arbitrary parametric Gaussian noise, we develop a Gibbs algorithm that alternates sampling steps from a conditional diffusion model trained to map the signal prior to the family of noise distributions, and a Monte Carlo sampler to infer the noise parameters. Our theoretical analysis highlights potential pitfalls, guides diagnostic usage, and quantifies errors in the Gibbs stationary distribution caused by the diffusion model. We showcase our method for 1) blind denoising of natural images involving colored noises with unknown amplitude and spectral index, and 2) a cosmology problem, namely the analysis of cosmic microwave background data, where Bayesian inference of "noise" parameters means constraining models of the evolution of the Universe.
翻訳日:2024-03-01 13:29:30 公開日:2024-02-29
# 推論性能のロバスト評価のための機能ベンチマークと推論ギャップ

Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap ( http://arxiv.org/abs/2402.19450v1 )

ライセンス: Link先を確認
Saurabh Srivastava, Annarose M B, Anto P V, Shashank Menon, Ajay Sukumar, Adwaith Samod T, Alan Philipose, Stevin Prince and Sooraj Thomas(参考訳) 本稿では,言語モデルの推論能力の頑健な評価を行うためのフレームワークを提案する。 推論テストを解決するモデルは、機能的な変異のスナップショットと比較して、問題の静的バージョンよりもパフォーマンスに差がない。 我々は、MATHベンチマークの関連するフラグメントを、他のベンチマークの機能化とともに、その機能変種MATH()に書き換えた。 MATH()のスナップショットで現在の最先端モデルを評価すると、推論ギャップ -- 静的と関数的アキュラシーのパーセンテージの違い -- が見つかります。 私たちは、静的ベンチマークでうまく機能する最先端のクローズドおよびオープンウェイトモデルのうち、58.35%から80.31%の理由付けギャップを見つけました。 ここでは,実世界のタスクよりも合理的な推論性能を持つモデルが,より低いギャップを定量化できることを示し,gap 0 モデル構築のオープン問題を動機付ける。 評価のためのコードと新しい評価データセット、3つのMATH()スナップショットがhttps://github.com/consequentai/fneval/で公開されている。

We propose a framework for robust evaluation of reasoning capabilities of language models, using functional variants of benchmarks. Models that solve a reasoning test should exhibit no difference in performance over the static version of a problem compared to a snapshot of the functional variant. We have rewritten the relevant fragment of the MATH benchmark into its functional variant MATH(), with functionalization of other benchmarks to follow. When evaluating current state-of-the-art models over snapshots of MATH(), we find a reasoning gap -- the percentage difference between the static and functional accuracies. We find reasoning gaps from 58.35% to 80.31% among the state-of-the-art closed and open weights models that perform well on static benchmarks, with the caveat that the gaps are likely to be smaller with more sophisticated prompting strategies. Here we show that models which anecdotally have good reasoning performance over real-world tasks, have quantifiable lower gaps, motivating the open problem of building "gap 0" models. Code for evaluation and new evaluation datasets, three MATH() snapshots, are publicly available at https://github.com/consequentai/fneval/.
翻訳日:2024-03-01 13:29:08 公開日:2024-02-29
# 重機型クラス不均衡とAdamが言語モデルでグラディエント・ダイスを上回る理由

Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models ( http://arxiv.org/abs/2402.19449v1 )

ライセンス: Link先を確認
Frederik Kunstner, Robin Yadav, Alan Milligan, Mark Schmidt, Alberto Bietti(参考訳) アダムは、大きな言語変換器を経験的に最適化し、他のタスクよりも大きなマージンで勾配勾配よりも優れていることが示されているが、なぜそうなるのかは不明である。 言語モデリングタスクで見られる重み付きクラス不均衡は、最適化のダイナミクスに困難をもたらすことを示す。 勾配降下訓練では、頻度の低い単語による損失は、頻繁な単語による損失よりも遅くなる。 ほとんどのサンプルは、比較的低い単語から来るため、平均損失は勾配降下とともにゆっくりと減少する。 一方、Adamと手話に基づく手法はこの問題に悩まされず、全てのクラスの予測を改善する。 この振る舞いが実際にクラスの不均衡によって引き起こされることを示すために、言語トランスフォーマー、視覚cnn、線形モデルにおいて、異なるアーキテクチャとデータ型を通して持続することを示す。 さらに,クロスエントロピー損失を伴う線形分類におけるこの現象について検討し,重鎖クラス不均衡が悪条件化を招き,adamが使用する正規化がそれと反作用することを示した。

Adam has been shown to outperform gradient descent in optimizing large language transformers empirically, and by a larger margin than on other tasks, but it is unclear why this happens. We show that the heavy-tailed class imbalance found in language modeling tasks leads to difficulties in the optimization dynamics. When training with gradient descent, the loss associated with infrequent words decreases slower than the loss associated with frequent ones. As most samples come from relatively infrequent words, the average loss decreases slowly with gradient descent. On the other hand, Adam and sign-based methods do not suffer from this problem and improve predictions on all classes. To establish that this behavior is indeed caused by class imbalance, we show empirically that it persist through different architectures and data types, on language transformers, vision CNNs, and linear models. We further study this phenomenon on a linear classification with cross-entropy loss, showing that heavy-tailed class imbalance leads to ill-conditioning, and that the normalization used by Adam can counteract it.
翻訳日:2024-03-01 13:28:45 公開日:2024-02-29
# 量子問題の構造

The Structure of Quantum Questions ( http://arxiv.org/abs/2402.19448v1 )

ライセンス: Link先を確認
Yang Yu and Philip Goyal(参考訳) 古典物理学では、単一の測定でシステムの状態を明らかにすることができる。 しかし、量子論は物理系上で多くの非等価な測定を許可し、それぞれが状態に関する限られた情報しか提供しない。 この量子系上の様々な測定の集合は、豊富な内部構造を示す。 測定結果を有限個の結果を持つ質問として概念化することにより,この構造を個人システムと複合システムの両方に照らし出す。 我々は,これらの質問から得られた知識を表わす重要なツールとして,情報の概念を用いて,基礎となる性質を探求する数学的質問構造を構築した。 その後、量子ビット上の測定から観測される特性に基づく情報仮定を提案し、これを高次元システムへ一般化する。 我々の情報的仮定は、古典論理ゲートとして象徴されるサブシステム間の相関を形作る。 興味深いことに、素数次元を持つ系はユニークな性質を持つ: 論理ゲートはモジュラー算術の下で線型方程式として単純に表現できる。 また、量子論において量子問題の構造に対応する構造を同定する。 例えば、システムを決定する質問は一般化されたパウリ行列に対応し、サブシステム内の質問を接続する論理ゲートは、テンソル積合成作用素に直接関係する。 これらの対応に基づいて、システムの進化と量子問題と量子力学の両方における情報の変化に関する2つの等価なシナリオを示す。

In classical physics, a single measurement can in principle reveal the state of a system. However, quantum theory permits numerous non-equivalent measurements on a physical system, each providing only limited information about the state. This set of various measurements on a quantum system indicates a rich internal structure. We illuminate this structure for both individual and composite systems by conceptualizing measurements as questions with a finite number of outcomes. We create a mathematical question structure to explore the underlying properties, employing the concept of information as a key tool representing our knowledge gained from asking these questions. We subsequently propose informational assumptions based on properties observed from measurements on qubits, generalizing these to higher dimensional systems. Our informational assumptions shape the correlations between subsystems, which are symbolized as classical logical gates. Interestingly, systems with prime number dimensions exhibit unique property: the logical gate can be expressed simply as a linear equation under modular arithmetic. We also identify structures in quantum theory that correspond to those in the structure of quantum questions. For instance, the questions determining the system correspond to generalized Pauli matrices, and the logical gate connecting questions in subsystems is directly related to the tensor product combining operators. Based on these correspondences, we present two equivalent scenarios regarding the evolution of systems and the change of information within both quantum questions and quantum mechanics.
翻訳日:2024-03-01 13:28:25 公開日:2024-02-29
# ArCHer:階層型マルチターンRLによる言語モデルエージェントの訓練

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL ( http://arxiv.org/abs/2402.19446v1 )

ライセンス: Link先を確認
Yifei Zhou, Andrea Zanette, Jiayi Pan, Sergey Levine, Aviral Kumar(参考訳) 大きな言語モデル(LLMs)の幅広いユースケースは、ゴール指向の意思決定タスク(または「エージェント」タスク)において、LLMは与えられたプロンプトの完了を単に生成するだけでなく、タスクを達成するためにマルチターンインタラクション(例えば、Webとの対話、ツールの使用、カスタマーサポートの提供など)に対してインテリジェントな決定を行う必要がある。 強化学習(RL)は、そのようなエージェントタスクに対処するための一般的なパラダイムを提供するが、LLMの現在のRLメソッドは、主にシングルターン報酬の最適化に焦点を当てている。 構築によって、ほとんどのシングルターンRLメソッドは、複数のターンで情報をインテリジェントに探したり、クレジットの割り当てを行ったり、過去のアクションについて推論する能力を持つLLMを養うことはできない。 LLMのための効率的かつ効率的なマルチターンRLアルゴリズムをどうやって設計できるのか? 本稿では,LLMに対する単一ターンRL法の柔軟性を保ちつつ,複数ターン,長い地平線,遅延報酬を効果的に調整しながら,マルチターンRLアルゴリズムを微調整LLM向けに構築するためのフレームワークを開発する。 これを実現するために,我々のフレームワークは階層的RLアプローチを採用し,高レベルなオフポリティ値に基づくRLアルゴリズムと,高レベルなRLアルゴリズムを用いて各発話やターン内でトークンポリシーを訓練する低レベルなRLアルゴリズムを並列に実行している。 我々の階層的フレームワークであるActor-Critic Framework with a Hierarchical Structure (ArCHer)は、他のRLメソッドももたらします。 経験的に、アーチャーはエージェントタスクの効率とパフォーマンスを大幅に改善し、既存の方法の約100倍のサンプル効率を実現し、さらにより大きなモデルキャパシティ(テストした70億スケールまで)で改善できることが分かりました。

A broad use case of large language models (LLMs) is in goal-directed decision-making tasks (or "agent" tasks), where an LLM needs to not just generate completions for a given prompt, but rather make intelligent decisions over a multi-turn interaction to accomplish a task (e.g., when interacting with the web, using tools, or providing customer support). Reinforcement learning (RL) provides a general paradigm to address such agent tasks, but current RL methods for LLMs largely focus on optimizing single-turn rewards. By construction, most single-turn RL methods cannot endow LLMs with the ability to intelligently seek information over multiple turns, perform credit assignment, or reason about their past actions -- all of which are critical in agent tasks. This raises the question: how can we design effective and efficient multi-turn RL algorithms for LLMs? In this paper, we develop a framework for building multi-turn RL algorithms for fine-tuning LLMs, that preserves the flexibility of existing single-turn RL methods for LLMs (e.g., proximal policy optimization), while accommodating multiple turns, long horizons, and delayed rewards effectively. To do this, our framework adopts a hierarchical RL approach and runs two RL algorithms in parallel: a high-level off-policy value-based RL algorithm to aggregate reward over utterances, and a low-level RL algorithm that utilizes this high-level value function to train a token policy within each utterance or turn. Our hierarchical framework, Actor-Critic Framework with a Hierarchical Structure (ArCHer), can also give rise to other RL methods. Empirically, we find that ArCHer significantly improves efficiency and performance on agent tasks, attaining a sample efficiency of about 100x over existing methods, while also improving with larger model capacity (upto the 7 billion scale that we tested on).
翻訳日:2024-03-01 13:28:04 公開日:2024-02-29
# 音声認識システムのニューラルベース音響モデルに符号化された情報探索

Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems ( http://arxiv.org/abs/2402.19443v1 )

ライセンス: Link先を確認
Quentin Raymondaud, Mickael Rouvier, Richard Dufour(参考訳) ディープラーニングアーキテクチャは、多くの研究領域でパフォーマンス面で大きな進歩を遂げている。 したがって、自動音声認識(ASR)分野は、これらの科学的および技術的進歩、特に音響モデリングにおいて、ディープニューラルネットワークアーキテクチャの統合の恩恵を受けている。 しかし、これらのパフォーマンス向上は、これらのブラックボックスアーキテクチャを通じて学習および伝達される情報に関する複雑さを増大させる。 本稿では、ニューラルネットワークの解釈可能性に関する多くの研究に続いて、asr音響モデル(am)における情報の位置と位置を決定するプロトコルを提案する。 そこで我々は, 中間表現(以下, 異なる層レベルで)を用いて, 決定されたタスク群におけるam性能を評価することを提案する。 性能の変動や目標とするタスクに関して、異なるアーキテクチャのステップでどの情報が強化されるか、あるいは摂動されるかという仮説を生成できる。 話者検証, 音響環境分類, 性別分類, テンポ歪検出システム, および音声の感情・感情識別について実験を行った。 分析の結果、神経ベースのamsは感情、感情、話者のアイデンティティといった音素認識とは驚くほど無関係な異種情報を持っていることがわかった。 低レベルの隠蔽層は情報の構造化に有用であり、上位層は音素認識のための無駄な情報を削除する傾向にある。

Deep learning architectures have made significant progress in terms of performance in many research areas. The automatic speech recognition (ASR) field has thus benefited from these scientific and technological advances, particularly for acoustic modeling, now integrating deep neural network architectures. However, these performance gains have translated into increased complexity regarding the information learned and conveyed through these black-box architectures. Following many researches in neural networks interpretability, we propose in this article a protocol that aims to determine which and where information is located in an ASR acoustic model (AM). To do so, we propose to evaluate AM performance on a determined set of tasks using intermediate representations (here, at different layer levels). Regarding the performance variation and targeted tasks, we can emit hypothesis about which information is enhanced or perturbed at different architecture steps. Experiments are performed on both speaker verification, acoustic environment classification, gender classification, tempo-distortion detection systems and speech sentiment/emotion identification. Analysis showed that neural-based AMs hold heterogeneous information that seems surprisingly uncorrelated with phoneme recognition, such as emotion, sentiment or speaker identity. The low-level hidden layers globally appears useful for the structuring of information while the upper ones would tend to delete useless information for phoneme recognition.
翻訳日:2024-03-01 13:27:28 公開日:2024-02-29
# インコンテキスト学習のためのマルチヘッドソフトマックス注意のトレーニングダイナミクス:創発性、収束性、最適性

Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality ( http://arxiv.org/abs/2402.19442v1 )

ライセンス: Link先を確認
Siyu Chen, Heejune Sheen, Tianhao Wang, Zhuoran Yang(参考訳) マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。 適切な初期化の選択の下で勾配流のグローバル収束を確立する。 さらに,マルチタスクモデルの1タスクの解き方に着目した勾配流れのダイナミクスにおいて,興味深い「タスク割当」現象が発生することを証明した。 具体的には、勾配流れのダイナミクスを3つのフェーズに分割可能であること、すなわち、損失が緩やかに減少し、アテンションヘッドが徐々に個々のタスクへの傾きを強めるウォームアップフェーズ、各ヘッドが1つのタスクを選択して損失が急速に減少する出現フェーズ、そしてアテンションパラメータが限界に収束するコンバージェンスフェーズである。 さらに, 勾配流によって学習される限界モデルが, 最善のマルチヘッドソフトマックス注意モデルと同程度であるという意味で, 勾配流の最適性を証明する。 また,単頭注意モデルと多頭注意モデルの間でのiclの予測精度について,厳密な分離を行った。 我々の収束解析の鍵となる手法は、パラメータ空間の勾配流れのダイナミクスをスペクトル領域の常微分方程式の集合にマッピングすることであり、そこでは注意重みの半特異値の相対等級がタスク割り当てを決定する。 我々の最善の知識として、我々の研究はマルチヘッドソフトマックス注意モデルの最初の収束結果を提供する。

We study the dynamics of gradient flow for training a multi-head softmax attention model for in-context learning of multi-task linear regression. We establish the global convergence of gradient flow under suitable choices of initialization. In addition, we prove that an interesting "task allocation" phenomenon emerges during the gradient flow dynamics, where each attention head focuses on solving a single task of the multi-task model. Specifically, we prove that the gradient flow dynamics can be split into three phases -- a warm-up phase where the loss decreases rather slowly and the attention heads gradually build up their inclination towards individual tasks, an emergence phase where each head selects a single task and the loss rapidly decreases, and a convergence phase where the attention parameters converge to a limit. Furthermore, we prove the optimality of gradient flow in the sense that the limiting model learned by gradient flow is on par with the best possible multi-head softmax attention model up to a constant factor. Our analysis also delineates a strict separation in terms of the prediction accuracy of ICL between single-head and multi-head attention models. The key technique for our convergence analysis is to map the gradient flow dynamics in the parameter space to a set of ordinary differential equations in the spectral domain, where the relative magnitudes of the semi-singular values of the attention weights determines task allocation. To our best knowledge, our work provides the first convergence result for the multi-head softmax attention model.
翻訳日:2024-03-01 13:27:05 公開日:2024-02-29
# 個人別リスク最小化

Differentially Private Worst-group Risk Minimization ( http://arxiv.org/abs/2402.19437v1 )

ライセンス: Link先を確認
Xinyu Zhou, Raef Bassily(参考訳) 我々は,最低グループリスク最小化の体系的研究を,$(\epsilon, \delta)$-differential privacy (DP)の下で開始する。 目的は、異なる分布を持つ$p$サブポピュレーション (groups) にまたがる最大リスクをほぼ最小化するモデルをプライベートに見つけることであり、各群分布はサンプルのオラクルを通してアクセスされる。 まず,すべての群から抽出されたサンプルの総数として$K$,$d$が問題次元である場合,$\tilde{O}(\frac{p\sqrt{d}}{K\epsilon} + \sqrt {\frac{p}{K}})$という超過最悪の集団集団リスクを実現するアルゴリズムを提案する。 我々の速度は、各分布がK/p$の固定サイズのデータセットによって観測されるときにほぼ最適である。 この結果は、一般化誤差に対する新しい安定性に基づく解析に基づいている。 特に、$\delta$-uniform の引数安定性は$\tilde{o}(\delta + \frac{1}{\sqrt{n}})$ 一般化エラー w.r.t を暗示している。 次に,DPオンライン凸最適化アルゴリズムをサブルーチンとして用いた,最悪の集団リスク最小化のためのアルゴリズムフレームワークを提案する。 したがって、別の余剰リスクは$\tilde{O}\left( \sqrt {\frac{d^{1/2}}{\epsilon K}} +\sqrt {\frac{p}{K\epsilon^2}} \right)$である。 典型的な$\epsilon=\theta(1)$ の設定を仮定すると、このバウンドは、k$ と $d$ の関数として、ある範囲の$p$ の最初のバウンドよりも有利である。 最後に、各グループ分布を固定サイズデータセットで観測するオフライン環境での個人的最悪のグループ経験的リスク最小化について検討する。 我々は,$\tilde{o}(\frac{p\sqrt{d}}{k\epsilon})$の最適超過リスクを持つ新しいアルゴリズムを提案する。

We initiate a systematic study of worst-group risk minimization under $(\epsilon, \delta)$-differential privacy (DP). The goal is to privately find a model that approximately minimizes the maximal risk across $p$ sub-populations (groups) with different distributions, where each group distribution is accessed via a sample oracle. We first present a new algorithm that achieves excess worst-group population risk of $\tilde{O}(\frac{p\sqrt{d}}{K\epsilon} + \sqrt{\frac{p}{K}})$, where $K$ is the total number of samples drawn from all groups and $d$ is the problem dimension. Our rate is nearly optimal when each distribution is observed via a fixed-size dataset of size $K/p$. Our result is based on a new stability-based analysis for the generalization error. In particular, we show that $\Delta$-uniform argument stability implies $\tilde{O}(\Delta + \frac{1}{\sqrt{n}})$ generalization error w.r.t. the worst-group risk, where $n$ is the number of samples drawn from each sample oracle. Next, we propose an algorithmic framework for worst-group population risk minimization using any DP online convex optimization algorithm as a subroutine. Hence, we give another excess risk bound of $\tilde{O}\left( \sqrt{\frac{d^{1/2}}{\epsilon K}} +\sqrt{\frac{p}{K\epsilon^2}} \right)$. Assuming the typical setting of $\epsilon=\Theta(1)$, this bound is more favorable than our first bound in a certain range of $p$ as a function of $K$ and $d$. Finally, we study differentially private worst-group empirical risk minimization in the offline setting, where each group distribution is observed by a fixed-size dataset. We present a new algorithm with nearly optimal excess risk of $\tilde{O}(\frac{p\sqrt{d}}{K\epsilon})$.
翻訳日:2024-03-01 13:26:40 公開日:2024-02-29
# 簡易、高飽和、量子制限、RF SQUIDアレイを用いたジョセフソンパラメトリック増幅器

Simple, High Saturation Power, Quantum-limited, RF SQUID Array-based Josephson Parametric Amplifiers ( http://arxiv.org/abs/2402.19435v1 )

ライセンス: Link先を確認
Ryan Kaufman, Chenxu Liu, Katarina Cicak, Boris Mesits, Mingkang Xia, Chao Zhou, Maria Nowicki, Jos\'e Aumentado, David Pekker, Michael Hatridge(参考訳) 高忠実性量子非劣化量子ビット測定は、大規模量子コンピューティングにおける誤り訂正と迅速な量子ビットフィードバックに不可欠である。 高忠実度読み出しには、qubitの読み出し共振器に短パルスと強いパルスを通す必要があり、これは十分に高い帯域幅、高い飽和電力、量子制限増幅器によって処理される。 我々は,非接触装置のハミルトニアンの時間領域シミュレーション,製造制約,飽和電力の最大化を組み合わせた設計パイプラインを開発した。 信号ポート上のディプレクサを介して供給される高出力電圧ポンプを駆動する低Q共振器内に埋め込まれた25個の高周波超電導QUantum Interference Devices (rf SQUIDs) のアレイを利用する改良NIST三層Nb製造スイートに基づく増幅器を実現した。 ポンプの強度にもかかわらず、デバイスは量子効率が高く、トランスモンの状態遷移によって制限される高忠実度測定が可能である。 本研究では,20dbゲインの91.2dbm入力飽和電力,28mhzの瞬時帯域幅,および62%の量子効率で位相保存量子ビット測定を行った。

High-fidelity quantum non-demolition qubit measurement is critical to error correction and rapid qubit feedback in large-scale quantum computing. High-fidelity readout requires passing a short and strong pulse through the qubit's readout resonator, which is then processed by a sufficiently high bandwidth, high saturation power, and quantum-limited amplifier. We have developed a design pipeline that combines time-domain simulation of the un-truncated device Hamiltonian, fabrication constraints, and maximization of saturation power. We have realized an amplifier based on a modified NIST tri-layer Nb fabrication suite which utilizes an array of 25 radio frequency Superconducting QUantum Interference Devices (rf SQUIDs) embedded within a low-Q resonator powered by a high-power voltage pump delivered via a diplexer on the signal port. We show that, despite the intensity of the pump, the device is quantum-efficient and capable of high-fidelity measurement limited by state transitions in the transmon. We present experimental data demonstrating up to -91.2 dBm input saturation power with 20 dB gain, up to 28 MHz instantaneous bandwidth, and phase-preserving qubit measurements with 62% quantum efficiency.
翻訳日:2024-03-01 13:26:01 公開日:2024-02-29
# ライブラリ指向コード生成のためのコンポジションAPIレコメンデーション

Compositional API Recommendation for Library-Oriented Code Generation ( http://arxiv.org/abs/2402.19431v1 )

ライセンス: Link先を確認
Zexiong Ma, Shengnan An, Bing Xie, Zeqi Lin(参考訳) 大規模言語モデル(LLM)はコード生成において例外的な性能を達成した。 しかし、ライブラリ指向のコードを生成する場合、特にLLMのトレーニングデータに存在しないライブラリでは、パフォーマンスは相変わらず不満足である。 これまでの作業では、APIレコメンデーション技術を使用して、LLMがライブラリを使用するのを支援する。 しかし、開発要件は粗くなり、複数のきめ細かいAPIを組み合わせる必要がある。 この粒度の矛盾は、APIレコメンデーションを困難なタスクにする。 そこで我々は,粒度の粗い要件に対してapiを推奨する "ディビジョン・アンド・コンクェリ" 戦略を採用する capir (compositional api recommendation) を提案する。 具体的には、CAPIRはLLMベースのDecomposerを使用して、粗い粒度のタスク記述をいくつかの詳細なサブタスクに分解する。 次にcapirは組み込みベースのレトリバーを適用し、各サブタスクに対応する関連するapiを識別する。 さらに、CAPIRはLLMベースのRerankerを利用して冗長APIをフィルタリングし、最終的な推奨を提供する。 粗粒度要求に対するAPIレコメンデーション手法の評価を容易にするため,RAPID(ドキュメントに基づく推奨API)とLOCG(ライブラリ指向コード生成)という2つの挑戦的なベンチマークを提示する。 これらのベンチマーク実験の結果,既存のベースラインと比較してCAPIRの有効性が示された。 具体的には、RAPIDのTorchdata-ARデータセットにおいて、最先端のAPIレコメンデーションアプローチと比較して、CAPIRはリコール@5を18.7%から43.2%、精度@5を15.5%から37.1%に改善している。 locgのtorchdata-codeデータセットでは、api推奨のないコード生成と比較して、capirはpass@100を16.0%から28.0%に改善した。

Large language models (LLMs) have achieved exceptional performance in code generation. However, the performance remains unsatisfactory in generating library-oriented code, especially for the libraries not present in the training data of LLMs. Previous work utilizes API recommendation technology to help LLMs use libraries: it retrieves APIs related to the user requirements, then leverages them as context to prompt LLMs. However, developmental requirements can be coarse-grained, requiring a combination of multiple fine-grained APIs. This granularity inconsistency makes API recommendation a challenging task. To address this, we propose CAPIR (Compositional API Recommendation), which adopts a "divide-and-conquer" strategy to recommend APIs for coarse-grained requirements. Specifically, CAPIR employs an LLM-based Decomposer to break down a coarse-grained task description into several detailed subtasks. Then, CAPIR applies an embedding-based Retriever to identify relevant APIs corresponding to each subtask. Moreover, CAPIR leverages an LLM-based Reranker to filter out redundant APIs and provides the final recommendation. To facilitate the evaluation of API recommendation methods on coarse-grained requirements, we present two challenging benchmarks, RAPID (Recommend APIs based on Documentation) and LOCG (Library-Oriented Code Generation). Experimental results on these benchmarks, demonstrate the effectiveness of CAPIR in comparison to existing baselines. Specifically, on RAPID's Torchdata-AR dataset, compared to the state-of-the-art API recommendation approach, CAPIR improves recall@5 from 18.7% to 43.2% and precision@5 from 15.5% to 37.1%. On LOCG's Torchdata-Code dataset, compared to code generation without API recommendation, CAPIR improves pass@100 from 16.0% to 28.0%.
翻訳日:2024-03-01 13:25:39 公開日:2024-02-29
# 光キャビティにおける集合xyzスピンモデルのハミルトン工学:一軸ねじれから二軸逆ねじれモデルへ

Hamiltonian Engineering of collective XYZ spin models in an optical cavity: From one-axis twisting to two-axis counter twisting models ( http://arxiv.org/abs/2402.19429v1 )

ライセンス: Link先を確認
Chengyi Luo, Haoqing Zhang, Anjun Chu, Chitose Maruko, Ana Maria Rey, and James K. Thompson(参考訳) 合成量子システムを用いた量子シミュレーションは、多体物理学におけるオープン問題と有用な絡み合った状態の生成の経路を探索するユニークな機会を提供する。 それでも、これまで多くの量子シミュレーターは、それらが模倣できるモデルに根本的に制限されてきた。 ここで、任意の二次ハミルトニアンあるいは実質的に無限範囲の可変ハイゼンベルクxyzモデルとのすべての相互作用を実現することができる。 これは、700のルビジウム原子間の工学的な空洞による4光子相互作用によって達成され、そこでは1対の運動量状態が効果的な擬スピンまたはクビット自由度として利用される。 この能力を利用することで、ハイゼンベルク極限を飽和させるスピンスクイーズ状態を生成することができる象徴的なXYZ集合スピンモデルであるいわゆる2軸逆回転モデルが初めて実現できる。 2つ以上の関連する運動量状態を含むプラットフォームの汎用性と、キャビティトーンの付加によるシミュレーションハミルトニアンの柔軟性が相まって、物質波干渉計や光時計や磁力計などの量子センサにおける量子シミュレーションや量子センシングの機会が豊富なのです。

Quantum simulation using synthetic quantum systems offers unique opportunities to explore open questions in many-body physics and a path for the generation of useful entangled states. Nevertheless, so far many quantum simulators have been fundamentally limited in the models they can mimic. Here, we are able to realize an all-to-all interaction with arbitrary quadratic Hamiltonian or effectively an infinite range tunable Heisenberg XYZ model. This is accomplished by engineering cavity-mediated four-photon interactions between 700 rubidium atoms in which we harness a pair of momentum states as the effective pseudo spin or qubit degree of freedom. Using this capability we realize for the first time the so-called two-axis counter-twisting model, an iconic XYZ collective spin model that can generate spin-squeezed states that saturate the Heisenberg limit bound. The versatility of our platform to include more than two relevant momentum states, combined with the flexibility of the simulated Hamiltonians by adding cavity tones opens rich opportunities for quantum simulation and quantum sensing in matter-wave interferometers and other quantum sensors such as optical clocks and magnetometers.
翻訳日:2024-03-01 13:25:05 公開日:2024-02-29
# griffin: 効率的な言語モデルのための局所的注意を伴う混合ゲート線形回帰

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models ( http://arxiv.org/abs/2402.19427v1 )

ライセンス: Link先を確認
Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, Albert Gu, Ruba Haroun, Leonard Berrada, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, Arnaud Doucet, David Budden, Yee Whye Teh, Razvan Pascanu, Nando De Freitas and Caglar Gulcehre(参考訳) リカレントニューラルネットワーク(RNN)は、高速な推論を持ち、長いシーケンスで効率的にスケールするが、トレーニングが難しく、スケールが難しい。 我々は、ゲート線形再帰を持つRNNのHawkと、ゲート線形再帰と局所的な注意を混合したハイブリッドモデルGriffinを提案する。 ホークはダウンストリームタスクでのmambaのパフォーマンスを上回り、グリフィンは6倍以上のトークンで訓練されたにもかかわらずllama-2のパフォーマンスに匹敵する。 また、Griffinはトレーニング中に見られるものよりもはるかに長いシーケンスを外挿できることを示す。 我々のモデルはトレーニング中のTransformerのハードウェア効率と一致し、推論時にレイテンシが低く、スループットが大幅に向上します。 Griffinを14Bパラメータまで拡張し、効率的な分散トレーニングのためにモデルをシャーディングする方法を説明します。

Recurrent neural networks (RNNs) have fast inference and scale efficiently on long sequences, but they are difficult to train and hard to scale. We propose Hawk, an RNN with gated linear recurrences, and Griffin, a hybrid model that mixes gated linear recurrences with local attention. Hawk exceeds the reported performance of Mamba on downstream tasks, while Griffin matches the performance of Llama-2 despite being trained on over 6 times fewer tokens. We also show that Griffin can extrapolate on sequences significantly longer than those seen during training. Our models match the hardware efficiency of Transformers during training, and during inference they have lower latency and significantly higher throughput. We scale Griffin up to 14B parameters, and explain how to shard our models for efficient distributed training.
翻訳日:2024-03-01 13:24:42 公開日:2024-02-29
# Distrifusion:高分解能拡散モデルのための分散並列推論

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models ( http://arxiv.org/abs/2402.19481v1 )

ライセンス: Link先を確認
Muyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming-Yu Liu, Kai Li and Song Han(参考訳) 拡散モデルは高品質な画像の合成において大きな成功を収めた。 しかし、拡散モデルによる高分解能画像の生成は、膨大な計算コストのため依然として困難であり、インタラクティブなアプリケーションでは制限的なレイテンシーをもたらす。 本稿では,複数のGPUにまたがる並列性を活用することで,この問題に対処するDistriFusionを提案する。 提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。 しかし,このようなアルゴリズムの実装はパッチ間の相互作用を壊し,忠実さを損なう一方で,そのようなインタラクションを組み込むことで通信オーバーヘッドが大幅に増大する。 このジレンマを克服するために,隣接する拡散ステップからの入力間の高い類似性を観察し,従来の時間ステップから予め計算された特徴マップを再利用して現在のステップのコンテキストを提供する拡散プロセスの逐次的性質を生かしたパッチ並列性を提案する。 そこで本手法は,計算によってパイプライン化可能な非同期通信をサポートする。 広範な実験により,最近の安定拡散xlに品質劣化を伴わずに適用でき,nvidia a100s8台で6.1$\times$のスピードアップを達成できた。 私たちのコードはhttps://github.com/mit-han-lab/distrifuser.comで公開されています。

Diffusion models have achieved great success in synthesizing high-quality images. However, generating high-resolution images with diffusion models is still challenging due to the enormous computational costs, resulting in a prohibitive latency for interactive applications. In this paper, we propose DistriFusion to tackle this problem by leveraging parallelism across multiple GPUs. Our method splits the model input into multiple patches and assigns each patch to a GPU. However, na\"{\i}vely implementing such an algorithm breaks the interaction between patches and loses fidelity, while incorporating such an interaction will incur tremendous communication overhead. To overcome this dilemma, we observe the high similarity between the input from adjacent diffusion steps and propose displaced patch parallelism, which takes advantage of the sequential nature of the diffusion process by reusing the pre-computed feature maps from the previous timestep to provide context for the current step. Therefore, our method supports asynchronous communication, which can be pipelined by computation. Extensive experiments show that our method can be applied to recent Stable Diffusion XL with no quality degradation and achieve up to a 6.1$\times$ speedup on eight NVIDIA A100s compared to one. Our code is publicly available at https://github.com/mit-han-lab/distrifuser.
翻訳日:2024-03-01 13:18:05 公開日:2024-02-29
# panda-70m: マルチモダリティ教師による70万ビデオのキャプション

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers ( http://arxiv.org/abs/2402.19479v1 )

ライセンス: Link先を確認
Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov(参考訳) データの品質とアノテーションは、下流モデルの品質を上限にします。 大きなテキストコーパスと画像テキストペアが存在するが、高品質なビデオテキストデータは収集するのがずっと難しい。 まず第一に、手動ラベリングはビデオ全体を見るのにアノテーションを必要とするため、より時間がかかる。 第2に、ビデオは時間次元を持ち、複数のシーンが積み重ねられ、複数のアクションを示す。 そこで,高品質なキャプションを持つ映像データセットを構築するために,テキストによるビデオ記述や字幕,個々のビデオフレームといったマルチモーダル入力を利用した自動手法を提案する。 具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。 そして、それらを意味的に一貫したビデオクリップに分割し、複数のモダリティの教師モデルを適用して各ビデオのキャプションを得る。 次に、各動画の最高のキャプションを手動で選択した小さなサブセットで検索モデルを微調整し、データセット全体のモデルを採用して、最適なキャプションをアノテーションとして選択する。 こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。 私たちはデータセットをpanda-70mとダビングします。 提案したデータセットの価値は,映像キャプション,ビデオとテキストの検索,テキストによる映像生成の3つのダウンストリームタスクで示す。 提案されたデータに基づいてトレーニングされたモデルは、すべてのタスクのメトリクスの大部分で大幅に改善された。

The quality of the data and annotation upper-bounds the quality of a downstream model. While there exist large text corpora and image-text pairs, high-quality video-text data is much harder to collect. First of all, manual labeling is more time-consuming, as it requires an annotator to watch an entire video. Second, videos have a temporal dimension, consisting of several scenes stacked together, and showing multiple actions. Accordingly, to establish a video dataset with high-quality captions, we propose an automatic approach leveraging multimodal inputs, such as textual video description, subtitles, and individual video frames. Specifically, we curate 3.8M high-resolution videos from the publicly available HD-VILA-100M dataset. We then split them into semantically consistent video clips, and apply multiple cross-modality teacher models to obtain captions for each video. Next, we finetune a retrieval model on a small subset where the best caption of each video is manually selected and then employ the model in the whole dataset to select the best caption as the annotation. In this way, we get 70M videos paired with high-quality text captions. We dub the dataset as Panda-70M. We show the value of the proposed dataset on three downstream tasks: video captioning, video and text retrieval, and text-driven video generation. The models trained on the proposed data score substantially better on the majority of metrics across all the tasks.
翻訳日:2024-03-01 13:17:43 公開日:2024-02-29
# データから一般化された顔モデルを学ぶ

Learning a Generalized Physical Face Model From Data ( http://arxiv.org/abs/2402.19477v1 )

ライセンス: Link先を確認
Lingchen Yang, Gaspard Zoss, Prashanth Chandran, Markus Gross, Barbara Solenthaler, Eftychios Sifakis, Derek Bradley(参考訳) 物理的ベースのシミュレーションは、3d顔アニメーションにとって強力なアプローチであり、結果として生じる変形は物理的制約によって制御され、容易に自己衝突を解決し、外部の力に反応し、現実的な解剖学的編集を行うことができる。 今日の手法はデータ駆動であり、有限要素のアクチュエーションは捕獲された皮膚形状から推測される。 残念なことに、これらのアプローチは材料空間の初期化と各キャラクタの変形モデルを個別に学習する複雑さのために広く採用されていない。 本研究では,大規模な3d顔データセットからシミュレーションフリーで学習できる汎用的な顔モデルを提案することにより,物理ベースの顔アニメーションをより使いやすくすることを目的としている。 トレーニングが終わると、私たちのモデルはすぐに見当たらないアイデンティティに適合し、準備の整った物理顔モデルを自動的に生成できます。 フィッティングは、単一の3D顔スキャン、あるいは単一の顔画像を提供するのと同じくらい簡単です。 適合すると、直感的なアニメーションコントロールと、キャラクター間でアニメーションを再ターゲティングする機能を提供します。 その間、得られたアニメーションは衝突回避、重力、麻痺、骨の変形などの物理的効果を許容する。

Physically-based simulation is a powerful approach for 3D facial animation as the resulting deformations are governed by physical constraints, allowing to easily resolve self-collisions, respond to external forces and perform realistic anatomy edits. Today's methods are data-driven, where the actuations for finite elements are inferred from captured skin geometry. Unfortunately, these approaches have not been widely adopted due to the complexity of initializing the material space and learning the deformation model for each character separately, which often requires a skilled artist followed by lengthy network training. In this work, we aim to make physics-based facial animation more accessible by proposing a generalized physical face model that we learn from a large 3D face dataset in a simulation-free manner. Once trained, our model can be quickly fit to any unseen identity and produce a ready-to-animate physical face model automatically. Fitting is as easy as providing a single 3D face scan, or even a single face image. After fitting, we offer intuitive animation controls, as well as the ability to retarget animations across characters. All the while, the resulting animations allow for physical effects like collision avoidance, gravity, paralysis, bone reshaping and more.
翻訳日:2024-03-01 13:17:18 公開日:2024-02-29
# forfeit conundrum: コード言語モデルは、誤った世代のニュアンスを把握できるのでしょうか?

The Counterfeit Conundrum: Can Code Language Models Grasp the Nuances of Their Incorrect Generations? ( http://arxiv.org/abs/2402.19475v1 )

ライセンス: Link先を確認
Alex Gu, Wen-Ding Li, Naman Jain, Theo X. Olausson, Celine Lee, Koushik Sen, Armando Solar-Lezama(参考訳) 言語モデルはコード生成に精通する傾向にあるが、それでもしばしば誤ったプログラムを生成する。 これらのプログラムの多くは明らかに間違っているが、他のプログラムはより微妙で、コンパイルできるなど、より弱い正確性チェックを通す。 本研究では,これらの偽造例に注目した。言語モデルからサンプル化されたプログラム。 1) 適度な温度で発生する十分なログ確率を有し、かつ、 2)弱い補正チェックを通す。 全体として、ほとんどのモデルでは、3つの明確な障害モードを通じて偽造の理解が極めて浅いことが判明した。 まず、モデルを誤って正しいと分類する。 第二に、モデルは偽造行為の実行行動について推論し、その実行結果を正しいかのように予測する。 第三に、偽造の修正をモデルに依頼する場合、偽造の修復に成功する確率は、しばしば正しいプログラムをスクラッチからサンプリングする確率よりも低い。 第一に、モデルの解決が容易な問題に対する偽造プログラムは、必ずしも検出が簡単ではなく、実行と修正がわずかに容易である。 第二に、あるモデルからの偽造は、他のモデルと同様に、モデル自体を混乱させます。 最後に、強いモデルと弱いモデルの両方が、全てのモデルに等しく挑戦する偽造サンプルを生成することができる。 この結果を踏まえて,特に外部からのフィードバックが組み込まれていない場合には,モデルに頼って自身のサンプルを理解する場合には,注意と注意が必要であることを推奨する。

While language models are increasingly more proficient at code generation, they still frequently generate incorrect programs. Many of these programs are obviously wrong, but others are more subtle and pass weaker correctness checks such as being able to compile. In this work, we focus on these counterfeit samples: programs sampled from a language model that 1) have a high enough log-probability to be generated at a moderate temperature and 2) pass weak correctness checks. Overall, we discover that most models have a very shallow understanding of counterfeits through three clear failure modes. First, models mistakenly classify them as correct. Second, models are worse at reasoning about the execution behaviour of counterfeits and often predict their execution results as if they were correct. Third, when asking models to fix counterfeits, the likelihood of a model successfully repairing a counterfeit is often even lower than that of sampling a correct program from scratch. Counterfeits also have very unexpected properties: first, counterfeit programs for problems that are easier for a model to solve are not necessarily easier to detect and only slightly easier to execute and repair. Second, counterfeits from a given model are just as confusing to the model itself as they are to other models. Finally, both strong and weak models are able to generate counterfeit samples that equally challenge all models. In light of our findings, we recommend that care and caution be taken when relying on models to understand their own samples, especially when no external feedback is incorporated.
翻訳日:2024-03-01 13:16:59 公開日:2024-02-29
# all-seeing project v2: オープン世界の一般関係理解に向けて

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World ( http://arxiv.org/abs/2402.19474v1 )

ライセンス: Link先を確認
Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai(参考訳) 我々は,画像内のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるall-seeing project v2を提案する。 具体的には、テキスト生成、オブジェクトローカライゼーション、関係理解の定式化をRelation conversation (ReC)タスクに統合するAll-Seeing Model V2 (ASMv2)を提案する。 この統合タスクを活用することで、我々のモデルは画像内の全てのオブジェクトを認識・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れ、マルチモーダル大言語モデル(MLLM)でしばしば発生する関係幻覚を減少させる。 関係理解におけるMLLMのトレーニングと評価を容易にするため,我々は,標準命令チューニングデータの形式に適合した最初の高品質ReCデータセット({AS-V2)を作成した。 さらに,MLLMの関連理解能力を総合的に評価するための新しいベンチマークであるCircular-based Relation Probing Evaluation (CRPE)を設計した。 特に、我々のASMv2は、LLaVA-1.5の43.14よりも大きなマージンで、52.04の全体的な精度を実現している。 私たちの研究が今後の研究を刺激し、人工知能への進化に貢献できることを期待しています。 私たちのプロジェクトはhttps://github.com/OpenGVLab/all-seeing.comで公開されています。

We present the All-Seeing Project V2: a new model and dataset designed for understanding object relations in images. Specifically, we propose the All-Seeing Model V2 (ASMv2) that integrates the formulation of text generation, object localization, and relation comprehension into a relation conversation (ReC) task. Leveraging this unified task, our model excels not only in perceiving and recognizing all objects within the image but also in grasping the intricate relation graph between them, diminishing the relation hallucination often encountered by Multi-modal Large Language Models (MLLMs). To facilitate training and evaluation of MLLMs in relation understanding, we created the first high-quality ReC dataset ({AS-V2) which is aligned with the format of standard instruction tuning data. In addition, we design a new benchmark, termed Circular-based Relation Probing Evaluation (CRPE) for comprehensively evaluating the relation comprehension capabilities of MLLMs. Notably, our ASMv2 achieves an overall accuracy of 52.04 on this relation-aware benchmark, surpassing the 43.14 of LLaVA-1.5 by a large margin. We hope that our work can inspire more future research and contribute to the evolution towards artificial general intelligence. Our project is released at https://github.com/OpenGVLab/all-seeing.
翻訳日:2024-03-01 13:16:34 公開日:2024-02-29
# AI生成コンテンツの検索拡張生成:サーベイ

Retrieval-Augmented Generation for AI-Generated Content: A Survey ( http://arxiv.org/abs/2402.19473v1 )

ライセンス: Link先を確認
Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao Zhang, Bin Cui(参考訳) aigc(artificial intelligence generated content)の開発は、モデルアルゴリズムの進歩、スケーラブルな基盤モデルアーキテクチャ、豊富な高品質データセットの可用性によって促進されている。 AIGCは目覚ましいパフォーマンスを達成したが、最新知識と長期知識の維持の難しさ、データ漏洩のリスク、トレーニングと推論に関連する高コストなど、依然として課題に直面している。 Retrieval-Augmented Generation (RAG) はそのような課題に対処するためのパラダイムとして最近登場した。 特に、RAGは情報検索プロセスを導入し、関連するオブジェクトを利用可能なデータストアから取得することでAIGC結果を強化し、精度と堅牢性を高める。 本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。 まず、RAGファウンデーションを、レトリバーがジェネレータをどのように拡張するかに応じて分類する。 各種レトリバーおよびジェネレータのための拡張手法の基礎的抽象化を蒸留する。 この統合された視点は、すべてのRAGシナリオを包含し、将来の進歩に役立つ進歩と重要な技術を示します。 また、RAGシステムの効率的なエンジニアリングと実装を容易にするため、RAGのさらなる拡張手法についても要約する。 また,異なるモダリティやタスクにまたがるragの実践的応用について検討し,研究者や実践者に貴重な資料を提供する。 さらに、RAGのベンチマークを導入し、現在のRAGシステムの限界について議論し、今後の研究の方向性を提案する。 プロジェクト:https://github.com/hymie122/RAG-Survey

The development of Artificial Intelligence Generated Content (AIGC) has been facilitated by advancements in model algorithms, scalable foundation model architectures, and the availability of ample high-quality datasets. While AIGC has achieved remarkable performance, it still faces challenges, such as the difficulty of maintaining up-to-date and long-tail knowledge, the risk of data leakage, and the high costs associated with training and inference. Retrieval-Augmented Generation (RAG) has recently emerged as a paradigm to address such challenges. In particular, RAG introduces the information retrieval process, which enhances AIGC results by retrieving relevant objects from available data stores, leading to greater accuracy and robustness. In this paper, we comprehensively review existing efforts that integrate RAG technique into AIGC scenarios. We first classify RAG foundations according to how the retriever augments the generator. We distill the fundamental abstractions of the augmentation methodologies for various retrievers and generators. This unified perspective encompasses all RAG scenarios, illuminating advancements and pivotal technologies that help with potential future progress. We also summarize additional enhancements methods for RAG, facilitating effective engineering and implementation of RAG systems. Then from another view, we survey on practical applications of RAG across different modalities and tasks, offering valuable references for researchers and practitioners. Furthermore, we introduce the benchmarks for RAG, discuss the limitations of current RAG systems, and suggest potential directions for future research. Project: https://github.com/hymie122/RAG-Survey
翻訳日:2024-03-01 13:16:12 公開日:2024-02-29
# Lifelong Benchmarks: 迅速な進歩の時代における効率的なモデル評価

Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress ( http://arxiv.org/abs/2402.19472v1 )

ライセンス: Link先を確認
Ameya Prabhu, Vishaal Udandarao, Philip Torr, Matthias Bethge, Adel Bibi, Samuel Albanie(参考訳) 標準化されたベンチマークは、機械学習の進歩を促進する。 しかし、繰り返しテストを行うと、アルゴリズムのオーバープロイトベンチマークのイディオ同期によって過剰フィッティングのリスクが増大する。 私たちの研究では、Lifelong Benchmarksと呼ばれる大規模なベンチマークをコンパイルすることで、この課題を緩和しようとしています。 このアプローチの例として、Lifelong-CIFAR10とLifelong-ImageNetを作成し、それぞれ1.69Mと1.98Mのテストサンプルを含む。 オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。 この課題に対処するために、動的なプログラミングアルゴリズムを利用してテストサンプルのランク付けとサブセレクトを行い、コスト効率の良い生涯ベンチマークを可能にする、s&s(sort \& search)という効率的な評価フレームワークも導入する。 31,000モデルにわたる大規模な実験的な評価により、S&Sは高精度な精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間(1000倍の削減)に削減し、近似誤差を低くすることができる。 そのため、生涯ベンチマークは「ベンチマーク枯渇」問題に対する堅牢で実用的な解決策を提供する。

Standardized benchmarks drive progress in machine learning. However, with repeated testing, the risk of overfitting grows as algorithms over-exploit benchmark idiosyncrasies. In our work, we seek to mitigate this challenge by compiling ever-expanding large-scale benchmarks called Lifelong Benchmarks. As exemplars of our approach, we create Lifelong-CIFAR10 and Lifelong-ImageNet, containing (for now) 1.69M and 1.98M test samples, respectively. While reducing overfitting, lifelong benchmarks introduce a key challenge: the high cost of evaluating a growing number of models across an ever-expanding sample set. To address this challenge, we also introduce an efficient evaluation framework: Sort \& Search (S&S), which reuses previously evaluated models by leveraging dynamic programming algorithms to selectively rank and sub-select test samples, enabling cost-effective lifelong benchmarking. Extensive empirical evaluations across 31,000 models demonstrate that S&S achieves highly-efficient approximate accuracy measurement, reducing compute cost from 180 GPU days to 5 GPU hours (1000x reduction) on a single A100 GPU, with low approximation error. As such, lifelong benchmarks offer a robust, practical solution to the "benchmark exhaustion" problem.
翻訳日:2024-03-01 13:15:48 公開日:2024-02-29
# 難解なLIPSシンク船:言語インフォームドプログラムサンプリングによる戦艦の質問

Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling ( http://arxiv.org/abs/2402.19471v1 )

ライセンス: Link先を確認
Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum(参考訳) 質問は、我々の言語習得と、不確実性に関する推論のための顕著な設備を組み合わせる。 認知資源に制限のある情報的疑問を提起するために、人々はどのように巨大な仮説空間をナビゲートするか? これらのトレードオフをボードゲームバトルシップに基づいた古典的な接地質問課題で検討する。 言語インフォームド・プログラム・サンプリング (LIPS) モデルでは,大きな言語モデル (LLM) を用いて自然言語の質問を生成し,それらをシンボリック・プログラムに変換する。 この単純なモンテカルロ最適化戦略は、驚くほど控えめなリソース予算で、バトルシップボードの様々なシナリオで人間のパフォーマンスを反映する情報的疑問をもたらす。 対照的に、LCMのみのベースラインは、板状状態の問題を解き明かすのに苦労しており、特にGPT-4Vは、非視覚ベースラインよりも改善しない。 以上の結果から,ベイジアンモデルが言語統計を活用すれば,人間の先行を捉えることができることを示すとともに,純粋LLMの欠点を根拠とした推論手法として強調する。

Questions combine our mastery of language with our remarkable facility for reasoning about uncertainty. How do people navigate vast hypothesis spaces to pose informative questions given limited cognitive resources? We study these tradeoffs in a classic grounded question-asking task based on the board game Battleship. Our language-informed program sampling (LIPS) model uses large language models (LLMs) to generate natural language questions, translate them into symbolic programs, and evaluate their expected information gain. We find that with a surprisingly modest resource budget, this simple Monte Carlo optimization strategy yields informative questions that mirror human performance across varied Battleship board scenarios. In contrast, LLM-only baselines struggle to ground questions in the board state; notably, GPT-4V provides no improvement over non-visual baselines. Our results illustrate how Bayesian models of question-asking can leverage the statistics of language to capture human priors, while highlighting some shortcomings of pure LLMs as grounded reasoners.
翻訳日:2024-03-01 13:15:26 公開日:2024-02-29
# 腫瘍合成の一般化に向けて

Towards Generalizable Tumor Synthesis ( http://arxiv.org/abs/2402.19470v1 )

ライセンス: Link先を確認
Qi Chen, Xiaoxi Chen, Haorui Song, Zhiwei Xiong, Alan Yuille, Chen Wei, Zongwei Zhou(参考訳) 腫瘍合成は、医療画像における人工腫瘍の作成を可能にし、腫瘍の検出とセグメンテーションのためのAIモデルのトレーニングを容易にする。 しかし、腫瘍合成の成功は、複数の臓器にまたがって一般化可能な視覚的に現実的な腫瘍を作り出すこと、さらに、異なる領域(例えば病院)から得られた画像中の実際の腫瘍を検出できるAIモデルが成功している。 肝・膵・腎臓に起源を呈する早期腫瘍 (2cm) はCT(Computed tomography) に類似した画像像を呈する傾向がみられた。 我々は、生成型aiモデル(例えば拡散モデル)が、1つの臓器から限られた数の腫瘍例を訓練しても、様々な臓器に一般化された現実的な腫瘍を生成できることを確認した。 さらに、これらの合成腫瘍を訓練したaiモデルは、ctボリュームから実際の腫瘍を検出・分離するために一般化され、患者層、画像プロトコル、医療施設の幅広い範囲をカバーすることが示されている。

Tumor synthesis enables the creation of artificial tumors in medical images, facilitating the training of AI models for tumor detection and segmentation. However, success in tumor synthesis hinges on creating visually realistic tumors that are generalizable across multiple organs and, furthermore, the resulting AI models being capable of detecting real tumors in images sourced from different domains (e.g., hospitals). This paper made a progressive stride toward generalizable tumor synthesis by leveraging a critical observation: early-stage tumors (< 2cm) tend to have similar imaging characteristics in computed tomography (CT), whether they originate in the liver, pancreas, or kidneys. We have ascertained that generative AI models, e.g., Diffusion Models, can create realistic tumors generalized to a range of organs even when trained on a limited number of tumor examples from only one organ. Moreover, we have shown that AI models trained on these synthetic tumors can be generalized to detect and segment real tumors from CT volumes, encompassing a broad spectrum of patient demographics, imaging protocols, and healthcare facilities.
翻訳日:2024-03-01 13:15:06 公開日:2024-02-29
# 次点予測としてのヒューマノイド移動

Humanoid Locomotion as Next Token Prediction ( http://arxiv.org/abs/2402.19469v1 )

ライセンス: Link先を確認
Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik(参考訳) 実世界のヒューマノイド制御を次のトークン予測問題として、言語における次の単語の予測に例えた。 我々のモデルは 自己回帰予測で訓練された 因果トランスフォーマです データのマルチモーダル性を考慮して、モダリティアライメントによる予測を行い、各入力トークンに対して、次のトークンを同じモダリティから予測する。 この一般的な定式化により、アクションのないビデオトラジェクトリのような、欠落したモダリティを持つデータを活用することができる。 我々は、従来のニューラルネットワークポリシ、モデルベースのコントローラ、モーションキャプチャデータ、人間のYouTubeビデオから来るシミュレーションされた軌道の集合に基づいて、モデルをトレーニングする。 我々のモデルでは、フルサイズのヒューマノイドがサンフランシスコをゼロショットで歩くことができる。 私たちのモデルは、わずか27時間のウォーキングデータでトレーニングしても現実世界に転送でき、後方に歩くようなトレーニング中に見えないコマンドに一般化することができます。 これらの結果は, 感覚運動路生成モデルによる実世界制御課題の学習への有望な道筋を示唆する。

We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.
翻訳日:2024-03-01 13:14:46 公開日:2024-02-29
# TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning ( http://arxiv.org/abs/2402.19467v1 )

ライセンス: Link先を確認
Kate Sanders, Nathaniel Weir, Benjamin Van Durme(参考訳) テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。 これは、現在のビデオ言語モデルは単一のモダリティ推論に依存し、長い入力のパフォーマンスを低下させ、相互運用性が欠如しているためである。 我々は,最初のマルチモーダルエンターメントツリージェネレータであるTV-TREESを提案する。 tv-trees はビデオ理解のアプローチとして機能し、ビデオと高レベルな結論に直接関係する単純な前提間の関係を包含する木を作ることで、解釈可能な共同モダリティ推論を促進する。 次に,そのような手法の推論品質を評価するために,マルチモーダル包含木生成のタスクを導入する。 tvqaデータセットにおける本手法の実験結果から,全ビデオクリップにおける最先端のゼロショット性能が示され,ブラックボックス方式とは対照的な両世界の最良さが示された。

It is challenging to perform question-answering over complex, multimodal content such as television clips. This is in part because current video-language models rely on single-modality reasoning, have lowered performance on long inputs, and lack interpetability. We propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by producing trees of entailment relationships between simple premises directly entailed by the videos and higher-level conclusions. We then introduce the task of multimodal entailment tree generation to evaluate the reasoning quality of such methods. Our method's experimental results on the challenging TVQA dataset demonstrate intepretable, state-of-the-art zero-shot performance on full video clips, illustrating a best of both worlds contrast to black-box methods.
翻訳日:2024-03-01 13:14:29 公開日:2024-02-29
# 信頼度ダイナミクスの追跡に向けて:大規模言語モデルの事前学習期間を再考する

Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models ( http://arxiv.org/abs/2402.19465v1 )

ライセンス: Link先を確認
Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin, Yu Qiao, Yong Liu, Jing Shao(参考訳) 大きな言語モデル(LLM)の信頼性を確保することが重要である。 ほとんどの研究は、LLMの信頼性をよりよく理解し改善するために、完全に事前訓練されたLLMに集中している。 本稿では, 事前学習の可能性を明らかにするために, 信頼性, プライバシ, 毒性, 公正性, 堅牢性という5つの重要な側面に焦点をあてて, この期間におけるLLMの信頼性の探究を開拓した。 まず、線形探索をLLMに適用する。 早期事前学習における \textit{LLMs は、信頼度の各次元における概念を既に区別できることを示している。 そこで, 本研究は, LLMの信頼性を高めるために, LLMの事前学習チェックポイントからステアリングベクトルを抽出する。 最後に, 相互情報推定が線形探索精度によって境界づけられていることに着想を得て, 事前学習時の信頼性のダイナミクスを調べるために, 相互情報を用いたLEMを探索する。 我々は、同様の2相現象を初めて観測する: フィッティングと圧縮–\citep{shwartz2017opening} である。 この研究は、llm事前トレーニング中の信頼性モデリングの初期調査を提供し、新しい洞察を明らかにし、この分野のさらなる発展を促すことを目的としている。 コードは、 \url{https://github.com/ChnQ/TracingLLM}で公開します。

Ensuring the trustworthiness of large language models (LLMs) is crucial. Most studies concentrate on fully pre-trained LLMs to better understand and improve LLMs' trustworthiness. In this paper, to reveal the untapped potential of pre-training, we pioneer the exploration of LLMs' trustworthiness during this period, focusing on five key dimensions: reliability, privacy, toxicity, fairness, and robustness. To begin with, we apply linear probing to LLMs. The high probing accuracy suggests that \textit{LLMs in early pre-training can already distinguish concepts in each trustworthiness dimension}. Therefore, to further uncover the hidden possibilities of pre-training, we extract steering vectors from a LLM's pre-training checkpoints to enhance the LLM's trustworthiness. Finally, inspired by~\citet{choi2023understanding} that mutual information estimation is bounded by linear probing accuracy, we also probe LLMs with mutual information to investigate the dynamics of trustworthiness during pre-training. We are the first to observe a similar two-phase phenomenon: fitting and compression~\citep{shwartz2017opening}. This research provides an initial exploration of trustworthiness modeling during LLM pre-training, seeking to unveil new insights and spur further developments in the field. We will make our code publicly accessible at \url{https://github.com/ChnQ/TracingLLM}.
翻訳日:2024-03-01 13:14:12 公開日:2024-02-29
# 大言語モデルのための好奇心駆動型レッドチーム

Curiosity-driven Red-teaming for Large Language Models ( http://arxiv.org/abs/2402.19464v1 )

ライセンス: Link先を確認
Zhang-Wei Hong, Idan Shenfeld, Tsun-Hsuan Wang, Yung-Sung Chuang, Aldo Pareja, James Glass, Akash Srivastava, Pulkit Agrawal(参考訳) 大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めている。 LLMが望ましくないコンテンツを生成するとき、現在のパラダイムは、LLMから望ましくない応答を引き出す入力プロンプト(すなわちテストケース)を設計するために、人間のテスタの \textit{red team} を採用することである。 しかし、人間のテスターだけに頼るのは高価で時間がかかる。 最近の研究は、強化学習(RL)を用いて別々のレッドチームLLMを訓練してレッドチームを自動化することで、ターゲットのLLMから望ましくない応答を誘発する確率を最大化するテストケースを生成する。 しかし、現在のRL法では、少数の有効なテストケースしか生成できないため、ターゲットのLLMから望ましくない応答を誘発するプロンプトのスパンのカバレッジが低い。 この制限を克服するために、生成したテストケースのカバレッジを増加させる問題と、新規性のために最適化された好奇心駆動探索のよく研究されたアプローチとを関連づける。 提案手法は,既存手法と比較して有効性を維持し,あるいは向上させながら,テストケースのカバレッジを高める。 CRT法はLLaMA2モデルから有毒な応答を誘発し,ヒトの嗜好を微調整して有害な出力を回避した。 コードは \url{https://github.com/improbable-ai/curiosity_redteam} で入手できる。

Large language models (LLMs) hold great potential for many natural language applications but risk generating incorrect or toxic content. To probe when an LLM generates unwanted content, the current paradigm is to recruit a \textit{red team} of human testers to design input prompts (i.e., test cases) that elicit undesirable responses from LLMs. However, relying solely on human testers is expensive and time-consuming. Recent works automate red teaming by training a separate red team LLM with reinforcement learning (RL) to generate test cases that maximize the chance of eliciting undesirable responses from the target LLM. However, current RL methods are only able to generate a small number of effective test cases resulting in a low coverage of the span of prompts that elicit undesirable responses from the target LLM. To overcome this limitation, we draw a connection between the problem of increasing the coverage of generated test cases and the well-studied approach of curiosity-driven exploration that optimizes for novelty. Our method of curiosity-driven red teaming (CRT) achieves greater coverage of test cases while mantaining or increasing their effectiveness compared to existing methods. Our method, CRT successfully provokes toxic responses from LLaMA2 model that has been heavily fine-tuned using human preferences to avoid toxic outputs. Code is available at \url{https://github.com/Improbable-AI/curiosity_redteam}
翻訳日:2024-03-01 13:13:47 公開日:2024-02-29
# SeMoLi: 一緒に動くもの

SeMoLi: What Moves Together Belongs Together ( http://arxiv.org/abs/2402.19463v1 )

ライセンス: Link先を確認
Jenny Seidenschwarz, Aljo\v{s}a O\v{s}ep, Francesco Ferroni, Simon Lucey, Laura Leal-Taix\'e(参考訳) 動作手がかりに基づく半教師付き物体検出に取り組む。 近年の研究では,オブジェクトトラッカと連携してヒューリスティックベースのクラスタリング手法を,移動物体の擬似ラベルインスタンスとして使用し,それらを監視信号としてlidarデータの3dオブジェクト検出器を手作業による監視なしでトレーニングできることが示されている。 このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。 本研究では,シーンフロー推定の最近の進歩を活かし,長期的クラス非依存な動作パターンを抽出したポイントトラジェクタを得る。 メッセージパッシングネットワークのコンテキストにおける相関クラスタリングを再検討し、それらの動きパターンをクラスタポイントとオブジェクトインスタンスにグループ化する。 オブジェクトの全範囲を推定することにより、Lidarオブジェクト検出ネットワークを監督するために使用するスキャンごとの3Dバウンディングボックスを得る。 提案手法は,従来のヒューリスティックなアプローチ(57.5 AP,+14改善)に勝るだけでなく,データセット間で擬似ラベルとオブジェクト検出の訓練を行うことができることを示す。

We tackle semi-supervised object detection based on motion cues. Recent results suggest that heuristic-based clustering methods in conjunction with object trackers can be used to pseudo-label instances of moving objects and use these as supervisory signals to train 3D object detectors in Lidar data without manual supervision. We re-think this approach and suggest that both, object detection, as well as motion-inspired pseudo-labeling, can be tackled in a data-driven manner. We leverage recent advances in scene flow estimation to obtain point trajectories from which we extract long-term, class-agnostic motion patterns. Revisiting correlation clustering in the context of message passing networks, we learn to group those motion patterns to cluster points to object instances. By estimating the full extent of the objects, we obtain per-scan 3D bounding boxes that we use to supervise a Lidar object detection network. Our method not only outperforms prior heuristic-based approaches (57.5 AP, +14 improvement over prior work), more importantly, we show we can pseudo-label and train object detectors across datasets.
翻訳日:2024-03-01 13:13:19 公開日:2024-02-29
# 高分子太陽電池の加速材料発見:自然言語処理によるデータ駆動的洞察

Accelerating materials discovery for polymer solar cells: Data-driven insights enabled by natural language processing ( http://arxiv.org/abs/2402.19462v1 )

ライセンス: Link先を確認
Pranav Shetty, Aishat Adeboye, Sonakshi Gupta, Chao Zhang, Rampi Ramprasad(参考訳) 本稿では,高分子太陽電池特性データを文献から抽出し,各種能動的学習戦略をシミュレートする自然言語処理パイプラインを提案する。 データ駆動手法はエジソンの試行錯誤アプローチよりも早く新しい物質を発見するために確立されているが、その利点は定量化されていない。 提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。 私たちのパイプラインでは、3300以上の論文からデータを抽出することができます。 また、電力変換効率を予測するために機械学習モデルをトレーニングし、我々のモデルを使用して、まだ報告されていない有望なドナー/アクセプタの組み合わせを特定しました。 そこで本研究では,出版文献から抽出された資料データへのワークフローを実演し,そこからデータ駆動洞察を得る。 私たちの洞察には、物質システムの最適化と、材料特性の強い予測モデルを同時に訓練できるアクティブな学習戦略が含まれています。 この研究は物質科学の研究に貴重な枠組みを提供する。

We present a natural language processing pipeline that was used to extract polymer solar cell property data from the literature and simulate various active learning strategies. While data-driven methods have been well established to discover novel materials faster than Edisonian trial-and-error approaches, their benefits have not been quantified. Our approach demonstrates a potential reduction in discovery time by approximately 75 %, equivalent to a 15 year acceleration in material innovation. Our pipeline enables us to extract data from more than 3300 papers which is ~5 times larger than similar data sets reported by others. We also trained machine learning models to predict the power conversion efficiency and used our model to identify promising donor-acceptor combinations that are as yet unreported. We thus demonstrate a workflow that goes from published literature to extracted material property data which in turn is used to obtain data-driven insights. Our insights include active learning strategies that can simultaneously optimize the material system and train strong predictive models of material properties. This work provides a valuable framework for research in material science.
翻訳日:2024-03-01 13:12:57 公開日:2024-02-29
# ロジスティック回帰のための高精度ランダムサンプリングアルゴリズム

A Provably Accurate Randomized Sampling Algorithm for Logistic Regression ( http://arxiv.org/abs/2402.16326v2 )

ライセンス: Link先を確認
Agniva Chowdhury, Pradeep Ramuhalli(参考訳) 統計学と機械学習において、ロジスティック回帰(英: logistic regression)は、主に二項分類タスクに使用される広く使われている教師付き学習技術である。 観測数が予測変数数を大幅に超える場合,予測確率とモデル全体の不一致の両方に対して高品質な近似を保証するロジスティック回帰問題に対する,単純でランダムなサンプリングに基づくアルゴリズムを提案する。 我々の解析は、ランダム化された数値線型代数の基本的およびよく理解された原始的行列乗法に沸騰する2つの単純な構造条件に基づいている。 レバレッジスコアがサンプル観測に使用される場合、ロジスティック回帰の推定確率の特性を解析し、観測総数よりはるかに小さいサンプルで正確な近似を実現できることを証明した。 理論的知見をさらに検証するため,包括的経験的評価を行った。 全体として,ロジスティック回帰における推定確率を効率的に近似するためにランダムサンプリング手法を用いる可能性に着目し,大規模データセットに対して実用的かつ計算効率の良い解を提供する。

In statistics and machine learning, logistic regression is a widely-used supervised learning technique primarily employed for binary classification tasks. When the number of observations greatly exceeds the number of predictor variables, we present a simple, randomized sampling-based algorithm for logistic regression problem that guarantees high-quality approximations to both the estimated probabilities and the overall discrepancy of the model. Our analysis builds upon two simple structural conditions that boil down to randomized matrix multiplication, a fundamental and well-understood primitive of randomized numerical linear algebra. We analyze the properties of estimated probabilities of logistic regression when leverage scores are used to sample observations, and prove that accurate approximations can be achieved with a sample whose size is much smaller than the total number of observations. To further validate our theoretical findings, we conduct comprehensive empirical evaluations. Overall, our work sheds light on the potential of using randomized sampling approaches to efficiently approximate the estimated probabilities in logistic regression, offering a practical and computationally efficient solution for large-scale datasets.
翻訳日:2024-03-01 11:20:15 公開日:2024-02-29
# プログラミング授業における実例の人間-AI共同作成

Human-AI Co-Creation of Worked Examples for Programming Classes ( http://arxiv.org/abs/2402.16235v2 )

ライセンス: Link先を確認
Mohammad Hassany, Peter Brusilovsky, Jiaze Ke, Kamil Akhuseyinoglu and Arun Balajiee Lekshmi Narayanan(参考訳) 作業例(ある言語でソースコードとして提示され、プログラミングクラスからトピックを説明するために使用される典型的なプログラミング問題の解)は、プログラミングクラスでもっとも人気のある学習コンテンツの1つです。 これらの例を学生に提示するためのアプローチやツールのほとんどは、サンプルコードの行ごとの説明に基づいている。 しかし、インストラクターは、プログラミングクラスでよく使われる多くの例に対して、ラインバイラインの説明を提供する時間はほとんどありません。 本稿では,Javaプログラミングにおける実例のオーサリングに対する人間とAIの協調アプローチについて検討し,評価する。 コード説明の開始版を生成するJava作業例を作成するオーサリングシステムを導入し、必要に応じてインストラクターに提示し、このアプローチで作成された説明の質を評価する。

Worked examples (solutions to typical programming problems presented as a source code in a certain language and are used to explain the topics from a programming class) are among the most popular types of learning content in programming classes. Most approaches and tools for presenting these examples to students are based on line-by-line explanations of the example code. However, instructors rarely have time to provide line-by-line explanations for a large number of examples typically used in a programming class. In this paper, we explore and assess a human-AI collaboration approach to authoring worked examples for Java programming. We introduce an authoring system for creating Java worked examples that generates a starting version of code explanations and presents it to the instructor to edit if necessary.We also present a study that assesses the quality of explanations created with this approach
翻訳日:2024-03-01 11:19:57 公開日:2024-02-29
# ROS-Causal:人間-ロボットインタラクションアプリケーションのためのROSベースの因果解析フレームワーク

ROS-Causal: A ROS-based Causal Analysis Framework for Human-Robot Interaction Applications ( http://arxiv.org/abs/2402.16068v2 )

ライセンス: Link先を確認
Luca Castri, Gloria Beraldo, Sariah Mghames, Marc Hanheide, Nicola Bellotto(参考訳) ロボットを人間共有空間に配置するには、近くのエージェントやオブジェクト間のインタラクションを理解する必要がある。 因果推論による因果関係のモデル化は、人間の行動の予測とロボットによる介入を予測している。 しかし、既存の因果発見法は、ロボット工学における標準的なデファクトであるROSエコシステム内に実装されていないため、ロボット工学における効果的な利用を妨げるため、重大な課題が生じる。 本稿では,人間とロボットの空間相互作用におけるデータ収集と因果発見のためのrosベースのフレームワークros-causalを提案する。 ROSと統合されたアドホックシミュレータは、アプローチの有効性を示し、データ収集中にロボットが因果モデルを生成することを示す。 ROS-CausalはGitHubで入手できる。

Deploying robots in human-shared spaces requires understanding interactions among nearby agents and objects. Modelling cause-and-effect relations through causal inference aids in predicting human behaviours and anticipating robot interventions. However, a critical challenge arises as existing causal discovery methods currently lack an implementation inside the ROS ecosystem, the standard de facto in robotics, hindering effective utilisation in robotics. To address this gap, this paper introduces ROS-Causal, a ROS-based framework for onboard data collection and causal discovery in human-robot spatial interactions. An ad-hoc simulator, integrated with ROS, illustrates the approach's effectiveness, showcasing the robot onboard generation of causal models during data collection. ROS-Causal is available on GitHub: https://github.com/lcastri/roscausal.git.
翻訳日:2024-03-01 11:19:21 公開日:2024-02-29
# GraphEdit: グラフ構造学習のための大規模言語モデル

GraphEdit: Large Language Models for Graph Structure Learning ( http://arxiv.org/abs/2402.15183v3 )

ライセンス: Link先を確認
Zirui Guo, Lianghao Xia, Yanhua Yu, Yuling Wang, Zixuan Yang, Wei Wei, Liang Pang, Tat-Seng Chua, Chao Huang(参考訳) グラフ構造学習(GSL)は、新しいグラフ構造を生成することにより、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てる。 グラフニューラルネットワーク(GNN)は、ノード単位の依存性をエンコードするために再帰的なメッセージパッシングを利用する、有望なGSLソリューションとして登場した。 しかし、既存のGSL法の多くは、データノイズやスパーシリティといった課題に対して、監督信号として明示的なグラフ構造情報に大きく依存している。 本研究では,大規模言語モデル(LLM)を利用したグラフ構造化データの複雑なノード関係の学習手法であるGraphEditを提案する。 グラフ構造上の命令チューニングによるLCMの推論能力の向上により、明示的なグラフ構造情報に関連する制約を克服し、グラフ構造学習の信頼性を高めることを目指す。 このアプローチはノイズの多いコネクションを効果的に解消するだけでなく、グローバルの観点からノード毎の依存関係を識別し、グラフ構造を包括的に理解する。 複数のベンチマークデータセットに対する広範な実験を行い、さまざまな設定でグラフ編集の有効性と堅牢性を示す。

Graph Structure Learning (GSL) focuses on capturing intrinsic dependencies and interactions among nodes in graph-structured data by generating novel graph structures. Graph Neural Networks (GNNs) have emerged as promising GSL solutions, utilizing recursive message passing to encode node-wise inter-dependencies. However, many existing GSL methods heavily depend on explicit graph structural information as supervision signals, leaving them susceptible to challenges such as data noise and sparsity. In this work, we propose GraphEdit, an approach that leverages large language models (LLMs) to learn complex node relationships in graph-structured data. By enhancing the reasoning capabilities of LLMs through instruction-tuning over graph structures, we aim to overcome the limitations associated with explicit graph structural information and enhance the reliability of graph structure learning. Our approach not only effectively denoises noisy connections but also identifies node-wise dependencies from a global perspective, providing a comprehensive understanding of the graph structure. We conduct extensive experiments on multiple benchmark datasets to demonstrate the effectiveness and robustness of GraphEdit across various settings.
翻訳日:2024-03-01 11:19:07 公開日:2024-02-29
# SDGE:360$^\circ$カメラセットのステレオガイド深度推定

SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets ( http://arxiv.org/abs/2402.11791v3 )

ライセンス: Link先を確認
Jialei Xu, Wei Yin, Dong Gong, Junjun Jiang, Xianming Liu(参考訳) 深度推定は自動運転において重要な技術であり、マルチカメラシステムは360$^\circ$の知覚を達成するためにしばしば使用される。 これらの360$^\circ$カメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。 あるいは、単分子的手法は一貫したクロスビュー予測を生成できない。 そこで本研究では,多視点ステレオ結果の重なりを明示的に活用し,全画像の奥行き推定を高速化するステレオガイド深度推定(sgde)法を提案する。 魚眼カメラの歪み問題を解決するために仮想ピンホールカメラを構築し,この2種類の360$^\circ$カメラの処理を統一することを提案する。 不安定な動きによって生じるカメラポーズのノイズの処理には, 近接するカメラの高精度な相対的なポーズを得るために, 自己校正法を用いる。 これにより、重なり領域に先立って高品質な深度を得るためのロバストなステレオ手法が利用可能となる。 この先行は、追加入力だけでなく、深度推定法の精度を高め、クロスビュー予測整合性を改善する擬似ラベルとしても機能する。 SGDEの有効性を,1つの魚眼カメラデータセット,Synthetic Urbanと2つのピンホールカメラデータセット,DDADとnuSceneで評価した。 実験により,SGDEは教師付き深度推定と自己監督型深度推定の両方に有効であることが示され,3次元物体検出や占有予測などの下流自動走行技術の進歩の可能性を強調した。

Depth estimation is a critical technology in autonomous driving, and multi-camera systems are often used to achieve a 360$^\circ$ perception. These 360$^\circ$ camera sets often have limited or low-quality overlap regions, making multi-view stereo methods infeasible for the entire image. Alternatively, monocular methods may not produce consistent cross-view predictions. To address these issues, we propose the Stereo Guided Depth Estimation (SGDE) method, which enhances depth estimation of the full image by explicitly utilizing multi-view stereo results on the overlap. We suggest building virtual pinhole cameras to resolve the distortion problem of fisheye cameras and unify the processing for the two types of 360$^\circ$ cameras. For handling the varying noise on camera poses caused by unstable movement, the approach employs a self-calibration method to obtain highly accurate relative poses of the adjacent cameras with minor overlap. These enable the use of robust stereo methods to obtain high-quality depth prior in the overlap region. This prior serves not only as an additional input but also as pseudo-labels that enhance the accuracy of depth estimation methods and improve cross-view prediction consistency. The effectiveness of SGDE is evaluated on one fisheye camera dataset, Synthetic Urban, and two pinhole camera datasets, DDAD and nuScenes. Our experiments demonstrate that SGDE is effective for both supervised and self-supervised depth estimation, and highlight the potential of our method for advancing downstream autonomous driving technologies, such as 3D object detection and occupancy prediction.
翻訳日:2024-03-01 11:18:48 公開日:2024-02-29
# BIBench: 大規模言語モデルのベンチマークデータ分析知識

BIBench: Benchmarking Data Analysis Knowledge of Large Language Models ( http://arxiv.org/abs/2401.02982v3 )

ライセンス: Link先を確認
Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long, Qingquan Wu, Chong Yang, Aimin Zhou, Man Lan(参考訳) 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。 しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性は依然として不確実である。 このギャップを埋めるために、ビジネスインテリジェンス(BI)のコンテキスト内でLLMのデータ分析能力を評価するために設計された包括的なベンチマークであるBIBenchを紹介する。 BIBench は3次元にわたる LLM を評価する。 1) 基礎知識,モデルの数値的推論及び金融概念への親密性の評価 2)bi知識応用は,テキスト情報を迅速に理解し,複数の視点から分析質問を生成するモデルの能力を決定する。 3)bi技術スキル,実世界のデータ分析課題に対処するためのモデルによる技術知識の利用の検討。 BIBenchは11のサブタスクで構成され、分類、抽出、生成の3つのカテゴリにまたがる。 さらに、100万以上のデータポイントを持つドメイン固有のデータセットであるBIChatを、微調整LDM用に開発しました。 BIBenchmark、BIChat、および評価スクリプトを \url{https://github.com/cubenlp/BIBench} でリリースします。 本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。

Large Language Models (LLMs) have demonstrated impressive capabilities across a wide range of tasks. However, their proficiency and reliability in the specialized domain of Data Analysis, particularly with a focus on data-driven thinking, remain uncertain. To bridge this gap, we introduce BIBench, a comprehensive benchmark designed to evaluate the data analysis capabilities of LLMs within the context of Business Intelligence (BI). BIBench assesses LLMs across three dimensions: 1) BI foundational knowledge, evaluating the models' numerical reasoning and familiarity with financial concepts; 2) BI knowledge application, determining the models' ability to quickly comprehend textual information and generate analysis questions from multiple views; and 3) BI technical skills, examining the models' use of technical knowledge to address real-world data analysis challenges. BIBench comprises 11 sub-tasks, spanning three categories of task types: classification, extraction, and generation. Additionally, we've developed BIChat, a domain-specific dataset with over a million data points, to fine-tune LLMs. We will release BIBenchmark, BIChat, and the evaluation scripts at \url{https://github.com/cubenlp/BIBench}. This benchmark aims to provide a measure for in-depth analysis of LLM abilities and foster the advancement of LLMs in the field of data analysis.
翻訳日:2024-03-01 11:18:18 公開日:2024-02-29
# BS-Diff:胸部X線画像からの条件拡散モデルを用いた効果的な骨抑制

BS-Diff: Effective Bone Suppression Using Conditional Diffusion Models from Chest X-Ray Images ( http://arxiv.org/abs/2311.15328v3 )

ライセンス: Link先を確認
Zhanghao Chen, Yifei Sun, Wenjian Qin, Ruiquan Ge, Cheng Pan, Wenming Deng, Zhou Liu, Wenwen Min, Ahmed Elazab, Xiang Wan, Changmiao Wang(参考訳) 胸部X線(CXR)は肺検診の低用量モードとして一般的に用いられる。 しかし、肺領域の約75%が骨と重なり、疾患の検出と診断を妨げているため、CXRsの有効性は幾らか阻害されている。 改善策として骨抑制技術が導入された。 現在の病院のデュアルエネルギーサブトラクションイメージング技術では、高価な機器と被写体が高放射線にさらされる必要がある。 これらの問題を回避すべく,深層学習に基づく画像生成アルゴリズムが提案されている。 しかし, 既存の手法では, 高品質な画像が得られず, 特に肺血管のテクスチャの細部が捉えられにくい。 これらの課題に対処するために,U-Netアーキテクチャとオートエンコーダを組み込むシンプルな拡張モジュールを備えた条件拡散モデルを備えた骨抑制フレームワークであるBS-Diffを提案する。 提案するネットワークは骨抑制率の高い軟部組織像を生成するだけでなく,微細な画像の詳細を捉える能力も備えている。 また,2010年以降で最大のデータセットを収集し,高精細度CXRと軟部組織像を関連病院で収集した120例のデータを収集した。 広範囲な実験、比較分析、アブレーション研究、臨床評価は、提案されたBS-Diffが複数の指標でいくつかの骨圧モデルより優れていることを示している。 私たちのコードはhttps://github.com/Benny0323/BS-Diffでアクセスできます。

Chest X-rays (CXRs) are commonly utilized as a low-dose modality for lung screening. Nonetheless, the efficacy of CXRs is somewhat impeded, given that approximately 75% of the lung area overlaps with bone, which in turn hampers the detection and diagnosis of diseases. As a remedial measure, bone suppression techniques have been introduced. The current dual-energy subtraction imaging technique in the clinic requires costly equipment and subjects being exposed to high radiation. To circumvent these issues, deep learning-based image generation algorithms have been proposed. However, existing methods fall short in terms of producing high-quality images and capturing texture details, particularly with pulmonary vessels. To address these issues, this paper proposes a new bone suppression framework, termed BS-Diff, that comprises a conditional diffusion model equipped with a U-Net architecture and a simple enhancement module to incorporate an autoencoder. Our proposed network cannot only generate soft tissue images with a high bone suppression rate but also possesses the capability to capture fine image details. Additionally, we compiled the largest dataset since 2010, including data from 120 patients with high-definition, high-resolution paired CXRs and soft tissue images collected by our affiliated hospital. Extensive experiments, comparative analyses, ablation studies, and clinical evaluations indicate that the proposed BS-Diff outperforms several bone-suppression models across multiple metrics. Our code can be accessed at https://github.com/Benny0323/BS-Diff.
翻訳日:2024-03-01 11:17:58 公開日:2024-02-29
# 多様なユーザ嗜好に対するllmの算術制御:多目的報酬を用いた指向性選好アライメント

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards ( http://arxiv.org/abs/2402.18571v2 )

ライセンス: Link先を確認
Haoxiang Wang, Yong Lin, Wei Xiong, Rui Yang, Shizhe Diao, Shuang Qiu, Han Zhao, Tong Zhang(参考訳) 大きな言語モデル(LLM)のきめ細かい制御は依然として大きな課題であり、多様なユーザニーズへの適応性を妨げている。 Reinforcement Learning from Human Feedback (RLHF)は、LLMの整合性を示すが、スカラー報酬への依存は、現実世界のアプリケーションで多様なユーザの好みを捉える能力を制限することが多い。 この制限に対処するため、DPA(Directional Preference Alignment)フレームワークを導入します。 スカラーワードrlhfとは異なり、dpaは多様な好みプロファイルを表現するために多目的報酬モデリングを取り入れている。 さらに、DPAは報酬空間の方向(すなわち単位ベクトル)としてユーザの好みをモデル化し、ユーザ依存の好み制御を実現する。 Llama 2 で採用されている RLHF 法である Rejection Smpling Finetuning (RSF) の優先条件付き変種を用いて,多目的報酬モデルのトレーニングを行い,LLM を微調整する。 この方法は、様々な報奨目的に対してより良いパフォーマンスのトレードオフをもたらす。 DPA はスカラー・リワード RLHF と比較して、ユーザが LLM 生成を直感的に制御できる。 また,実世界アライメント実験によるdpaの有効性を検証する。 提案手法は,DPO(Direct Preference Optimization)などの強力なベースラインと競合する性能を維持しつつ,有用性と冗長性の間のトレードオフを簡易に算術的に制御する。

Fine-grained control over large language models (LLMs) remains a significant challenge, hindering their adaptability to diverse user needs. While Reinforcement Learning from Human Feedback (RLHF) shows promise in aligning LLMs, its reliance on scalar rewards often limits its ability to capture diverse user preferences in real-world applications. To address this limitation, we introduce the Directional Preference Alignment (DPA) framework. Unlike the scalar-reward RLHF, DPA incorporates multi-objective reward modeling to represent diverse preference profiles. Additionally, DPA models user preferences as directions (i.e., unit vectors) in the reward space to achieve user-dependent preference control. Our method involves training a multi-objective reward model and then fine-tuning the LLM with a preference-conditioned variant of Rejection Sampling Finetuning (RSF), an RLHF method adopted by Llama 2. This method enjoys a better performance trade-off across various reward objectives. In comparison with the scalar-reward RLHF, DPA offers users intuitive control over LLM generation: they can arithmetically specify their desired trade-offs (e.g., more helpfulness with less verbosity). We also validate the effectiveness of DPA with real-world alignment experiments on Mistral-7B. Our method provides straightforward arithmetic control over the trade-off between helpfulness and verbosity while maintaining competitive performance with strong baselines such as Direct Preference Optimization (DPO).
翻訳日:2024-03-01 11:16:03 公開日:2024-02-29
# RNNはトランスフォーマーではない (Yet): In-context Retrieval におけるキーブートネック

RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval ( http://arxiv.org/abs/2402.18510v2 )

ライセンス: Link先を確認
Kaiyue Wen, Xingyu Dang, Kaifeng Lyu(参考訳) 本稿では,アルゴリズム問題の解法におけるリカレントニューラルネットワーク(RNN)とトランスフォーマーの表現力のギャップについて検討する。 我々は,長いシーケンスの処理においてメモリ効率が知られているRNNが,特にChain-of-Thought(CoT)のプロンプトによって強化された場合,トランスフォーマーの性能にマッチするかどうかを理解することに注力する。 理論的解析により、CoTはRNNを改善するが、トランスフォーマーとのギャップを埋めるには不十分であることが判明した。 連想的リコールやグラフが木であるかどうかの判断といった、明示的あるいは暗黙的にこの能力を必要とするいくつかのタスクにおいて、rnnは、トランスフォーマーが容易に解決できる一方で、タスクを解決するのに十分な表現力を持っていないことを証明します。 逆に,Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を向上する手法を採用することにより,CoT による多項式時間解決可能な問題を全て解き、変換器との表現ギャップを埋めることができることを示す。

This paper investigates the gap in representation powers of Recurrent Neural Networks (RNNs) and Transformers in the context of solving algorithmic problems. We focus on understanding whether RNNs, known for their memory efficiency in handling long sequences, can match the performance of Transformers, particularly when enhanced with Chain-of-Thought (CoT) prompting. Our theoretical analysis reveals that CoT improves RNNs but is insufficient to close the gap with Transformers. A key bottleneck lies in the inability of RNNs to perfectly retrieve information from the context, even with CoT: for several tasks that explicitly or implicitly require this capability, such as associative recall and determining if a graph is a tree, we prove that RNNs are not expressive enough to solve the tasks while Transformers can solve them with ease. Conversely, we prove that adopting techniques to enhance the in-context retrieval capability of RNNs, including Retrieval-Augmented Generation (RAG) and adding a single Transformer layer, can elevate RNNs to be capable of solving all polynomial-time solvable problems with CoT, hence closing the representation gap with Transformers.
翻訳日:2024-03-01 11:15:34 公開日:2024-02-29
# 分離と克服:弱い教師付き意味セグメンテーションのための分解と表現による共起の分離

Separate and Conquer: Decoupling Co-occurrence via Decomposition and Representation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2402.18467v2 )

ライセンス: Link先を確認
Zhiwei Yang, Kexue Fu, Minghong Duan, Linhao Qu, Shuo Wang, Zhijian Song(参考訳) 共起オブジェクトの頻繁な結合と画像レベルのラベルからの限定的な監督により、困難な共起問題は広く存在し、弱教師付きセマンティックセグメンテーション(WSSS)におけるオブジェクトの誤活性化につながる。 本研究では,画像空間と特徴空間の次元からこの問題に取り組むために,セコの「分離・征服」スキームを考案する。 画像空間では,イメージをパッチに分割することで,画像分解を伴う共起オブジェクトを分離することを提案する。 重要なことは、各パッチがクラスアクティベーションマップ(CAM)からカテゴリタグを割り当てることである。 特徴空間において,多粒度知識コントラストを用いた意味表現の強化により,偽のアクティベーションを「一致」することを提案する。 この目的のために、デュアル教師・シングル学生アーキテクチャを設計し、タグ誘導コントラストを行い、知識の正しさを保証し、共起オブジェクト間の相違をさらに促進する。 マルチステージのWSSSパイプラインをエンドツーエンドで合理化し、外部の監視なしに共起に取り組みます。 また,本手法の有効性を検証し,パスカルvocとms cocoにおける先行単段および複数段の競合相手よりも優れていることを検証した。 コードはhttps://github.com/zwyang6/SeCo.gitで入手できる。

Attributed to the frequent coupling of co-occurring objects and the limited supervision from image-level labels, the challenging co-occurrence problem is widely present and leads to false activation of objects in weakly supervised semantic segmentation (WSSS). In this work, we devise a 'Separate and Conquer' scheme SeCo to tackle this issue from dimensions of image space and feature space. In the image space, we propose to 'separate' the co-occurring objects with image decomposition by subdividing images into patches. Importantly, we assign each patch a category tag from Class Activation Maps (CAMs), which spatially helps remove the co-context bias and guide the subsequent representation. In the feature space, we propose to 'conquer' the false activation by enhancing semantic representation with multi-granularity knowledge contrast. To this end, a dual-teacher-single-student architecture is designed and tag-guided contrast is conducted to guarantee the correctness of knowledge and further facilitate the discrepancy among co-occurring objects. We streamline the multi-staged WSSS pipeline end-to-end and tackle co-occurrence without external supervision. Extensive experiments are conducted, validating the efficiency of our method tackling co-occurrence and the superiority over previous single-staged and even multi-staged competitors on PASCAL VOC and MS COCO. Code will be available at https://github.com/zwyang6/SeCo.git.
翻訳日:2024-03-01 11:15:09 公開日:2024-02-29
# 自由膨張性フェルミオンガスのページ曲線様力学の一般流体力学による記述

Generalised Hydrodynamics description of the Page curve-like dynamics of a freely expanding fermionic gas ( http://arxiv.org/abs/2402.18422v2 )

ライセンス: Link先を確認
Madhumita Saha, Manas Kulkarni and Abhishek Dhar(参考訳) ブラックホールの蒸発に伴う絡み合いエントロピーの進化を特徴付けるページ曲線の主な特徴を解析的に把握可能なモデルとして考察する。 我々のモデルは、箱から真空に放出される格子上の非相互作用性フェルミオンの気体である。 より正確には、ハミルトニアンは、充填箱と真空の間の接合に欠陥がある密結合モデルである。 エンタングルメントエントロピーに加えて、空間密度プロファイルや電流などの他の観測可能量も考慮し、一般化された流体力学の半古典的アプローチが、エンタングルメントエントロピーを含む量子力学を常に正確に記述していることを示す。 我々の流体力学結果は、正確な微視的な数値で得られたものとよく一致する。 絡み合いの成長は線形で普遍的であり、欠陥の詳細とは無関係である。 崩壊は共形欠陥に対して1/t$のスケーリングを示し、非整形欠陥に対しては遅くなる。 本研究は、半古典的アプローチの力を示し、ブラックホール情報パラドックスの解決に関する議論に関係している可能性がある。

We consider an analytically tractable model that exhibits the main features of the Page curve characterizing the evolution of entanglement entropy during evaporation of a black hole. Our model is a gas of non-interacting fermions on a lattice that is released from a box into the vacuum. More precisely, our Hamiltonian is a tight-binding model with a defect at the junction between the filled box and the vacuum. In addition to the entanglement entropy we consider several other observables, such as the spatial density profile and current, and show that the semiclassical approach of generalized hydrodynamics provides a remarkably accurate description of the quantum dynamics including that of the entanglement entropy at all times. Our hydrodynamic results agree closely with those obtained via exact microscopic numerics. We find that the growth of entanglement is linear and universal, i.e, independent of the details of the defect. The decay shows $1/t$ scaling for conformal defect while for non-conformal defects, it is slower. Our study shows the power of the semiclassical approach and could be relevant for discussions on the resolution of the black hole information paradox.
翻訳日:2024-03-01 11:14:39 公開日:2024-02-29
# 深度パラメトリック推定によるマルチメディア理解ネットワークのロバスト性向上のためのモジュールシステム

A Modular System for Enhanced Robustness of Multimedia Understanding Networks via Deep Parametric Estimation ( http://arxiv.org/abs/2402.18402v2 )

ライセンス: Link先を確認
Francesco Barbato, Umberto Michieli, Mehmet Kerim Yucel, Pietro Zanuttigh, Mete Ozay(参考訳) マルチメディア理解タスクでは、破損したサンプルは、機械学習モデルにフィードされるとパフォーマンスが低下するので、重要な課題となる。 過去、ノイズデータを扱うための3つのアプローチが提案されてきた。 一 ノイズデータの品質を向上させるためのエンハンサー及びデノイザーモジュール 二 データ強化のアプローチ及び iii) ドメイン適応戦略。 ひとつは高い計算コストを持ち、トレーニングのためにクリーンに破損したデータのペアを必要とし、もうひとつはトレーニングされた同じタスク/ネットワーク(上流と下流のタスク/ネットワークが同じである場合)のデプロイのみを可能にします。 本稿では,これらの問題点を解決するためにSyMPIEを提案する。 この目的のために、我々は、低計算コストで下流マルチメディア理解のための入力データを強化するために、小さくてモジュール的で効率的な(2GFLOPsでフルHD画像を処理する)システムを設計する。 私たちのシンピーは上流のタスク/ネットワークで事前トレーニングされています。 我々の重要な洞察は、現実世界のタスクで見られるほとんどの入力汚職は、画像の色チャネルや小さなカーネルを持つ空間フィルタのグローバルな操作によってモデル化できるということです。 画像分類(imagenetc、imagenetc-bar、vizwiz、新しく提案されたimagenetc-mixedと呼ばれる混合腐敗ベンチマーク)やセマンティックセグメンテーション(cityscapes、adcc、darkzurich)など、複数のデータセットやタスクに対するアプローチを検証することで、ボード全体の相対精度が約52%向上しました。 このアプローチのコードと新しいImageNetC-mixedベンチマークは、公開時に公開されます。

In multimedia understanding tasks, corrupted samples pose a critical challenge, because when fed to machine learning models they lead to performance degradation. In the past, three groups of approaches have been proposed to handle noisy data: i) enhancer and denoiser modules to improve the quality of the noisy data, ii) data augmentation approaches, and iii) domain adaptation strategies. All the aforementioned approaches come with drawbacks that limit their applicability; the first has high computational costs and requires pairs of clean-corrupted data for training, while the others only allow deployment of the same task/network they were trained on (\ie, when upstream and downstream task/network are the same). In this paper, we propose SyMPIE to solve these shortcomings. To this end, we design a small, modular, and efficient (just 2GFLOPs to process a Full HD image) system to enhance input data for robust downstream multimedia understanding with minimal computational cost. Our SyMPIE is pre-trained on an upstream task/network that should not match the downstream ones and does not need paired clean-corrupted samples. Our key insight is that most input corruptions found in real-world tasks can be modeled through global operations on color channels of images or spatial filters with small kernels. We validate our approach on multiple datasets and tasks, such as image classification (on ImageNetC, ImageNetC-Bar, VizWiz, and a newly proposed mixed corruption benchmark named ImageNetC-mixed) and semantic segmentation (on Cityscapes, ACDC, and DarkZurich) with consistent improvements of about 5\% relative accuracy gain across the board. The code of our approach and the new ImageNetC-mixed benchmark will be made available upon publication.
翻訳日:2024-03-01 11:14:20 公開日:2024-02-29
# プライバシーポリシーと同意管理プラットフォーム: 成長とユーザの時間的相互作用

Privacy Policies and Consent Management Platforms: Growth and Users' Interactions over Time ( http://arxiv.org/abs/2402.18321v2 )

ライセンス: Link先を確認
Nikhil Jha, Martino Trevisan, Marco Mellia, Daniel Fernandez, Rodrigo Irarrazaval(参考訳) ユーザーのプライバシーに関する懸念が高まる中、議会は、個人データ収集を活性化する前にウェブサイトにユーザーの同意を得ることを強制するGeneral Data Protection Regulation (GDPR)やCalifornia Consumer Privacy Act (CCPA)のような新しい規則と法律を導入した。 この同意調査プロセスの基礎は、データ収集プラクティスに対するユーザの承認を集める技術的メカニズムである、プライバシバナーの使用にある。 コンセントマネジメントプラットフォーム(CMP)は、ウェブサイト管理者が適切なコンセントの管理を容易にし、ユーザ同意の管理と広告機能の活性化の複雑さをアウトソースできるようにするための実用的なソリューションとして登場した。 本稿では,9年間にわたるCMPの進化を詳細に,縦断的に分析した。 まず、HTTP Archiveデータセットのおかげで、CMPの成長、市場シェア、地理的拡散に関する洞察を提供する。 注目すべき観察は、ヨーロッパにおけるCMPの増殖に対するGDPRの相当な影響である。 第2に、世界中の何千ものウェブサイトに存在する中規模のCMPと何百万ものユーザーインタラクションを分析します。 プライバシバナーの設計の小さな変更が、ユーザのデータ収集に対する同意の付与や拒否に、いかに重大な影響を与えているかを観察した。 例えば、ユーザの60%以上は、シンプルな"ワンクリックリジェクションオール"オプションを提供する場合、同意しない。 逆に、オプトアウトに1回以上のクリックが必要な場合、約90%のユーザーが単に同意することを好む。 主な目的は、情報のある決定をするよりも、迷惑なプライバシーバナーを取り除くことだ。 皮肉なことに、iOSユーザーはAndroidユーザーよりもクッキーを受け入れる傾向が高く、おそらくAppleデバイスが提供するプライバシーへの信頼感が増している。

In response to growing concerns about user privacy, legislators have introduced new regulations and laws such as the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA) that force websites to obtain user consent before activating personal data collection, fundamental to providing targeted advertising. The cornerstone of this consent-seeking process involves the use of Privacy Banners, the technical mechanism to collect users' approval for data collection practices. Consent management platforms (CMPs) have emerged as practical solutions to make it easier for website administrators to properly manage consent, allowing them to outsource the complexities of managing user consent and activating advertising features. This paper presents a detailed and longitudinal analysis of the evolution of CMPs spanning nine years. We take a twofold perspective: Firstly, thanks to the HTTP Archive dataset, we provide insights into the growth, market share, and geographical spread of CMPs. Noteworthy observations include the substantial impact of GDPR on the proliferation of CMPs in Europe. Secondly, we analyse millions of user interactions with a medium-sized CMP present in thousands of websites worldwide. We observe how even small changes in the design of Privacy Banners have a critical impact on the user's giving or denying their consent to data collection. For instance, over 60% of users do not consent when offered a simple "one-click reject-all" option. Conversely, when opting out requires more than one click, about 90% of users prefer to simply give their consent. The main objective is in fact to eliminate the annoying privacy banner rather the make an informed decision. Curiously, we observe iOS users exhibit a higher tendency to accept cookies compared to Android users, possibly indicating greater confidence in the privacy offered by Apple devices.
翻訳日:2024-03-01 11:13:46 公開日:2024-02-29
# 雑音環境における自動音声認識用アダプタの検討

Investigation of Adapter for Automatic Speech Recognition in Noisy Environment ( http://arxiv.org/abs/2402.18275v2 )

ライセンス: Link先を確認
Hao Shi, Tatsuya Kawahara(参考訳) 自動音声認識(asr)システムを騒音環境に適応させることが不可欠である。 ニューラルネットワークへのアダプタの統合は、転送学習の強力なテクニックとして現れています。 本研究は, 雑音環境下でのASR適応を徹底的に検討する。 我々はCHiME--4データセットを用いて実験を行った。 その結果, 浅い層にアダプタを挿入すると優れた効果が得られ, 浅い層のみへの適応とすべての層への適応との間に有意な差は認められなかった。 シミュレーションデータにより,実雑音下での性能が向上する。 それでも、データの量が同じである場合、実データはシミュレーションデータよりも効果的である。 マルチコンディショントレーニングはアダプタトレーニングにも有用である。 さらに、音声強調ベースのasrシステムにアダプタを統合することで、大幅に改善される。

Adapting an automatic speech recognition (ASR) system to unseen noise environments is crucial. Integrating adapters into neural networks has emerged as a potent technique for transfer learning. This study thoroughly investigates adapter-based ASR adaptation in noisy environments. We conducted experiments using the CHiME--4 dataset. The results show that inserting the adapter in the shallow layer yields superior effectiveness, and there is no significant difference between adapting solely within the shallow layer and adapting across all layers. The simulated data helps the system to improve its performance under real noise conditions. Nonetheless, when the amount of data is the same, the real data is more effective than the simulated data. Multi-condition training is still useful for adapter training. Furthermore, integrating adapters into speech enhancement-based ASR systems yields substantial improvements.
翻訳日:2024-03-01 11:13:18 公開日:2024-02-29
# HearHere:AIベースのWebシステムによるニュース消費におけるEchoチャンバーの緩和

HearHere: Mitigating Echo Chambers in News Consumption through an AI-based Web System ( http://arxiv.org/abs/2402.18222v2 )

ライセンス: Link先を確認
Youngseung Jeon, Jaehoon Kim, Sohyun Park, Yunyong Ko, Seongeun Ryu, Sang-Wook Kim, Kyungsik Han(参考訳) 現在、偽ニュースへの感受性の高まりや科学的証拠の受け入れに対する抵抗など、エコーチャンバーのネガティブな影響を軽減するための検討が進められている。 先行研究は、様々な政治的観点からニュース情報の消費を支援するコンピュータシステムの開発を示し、エコーチェンバー効果を緩和した。 しかし,既存の研究では,ニュース情報消費の重要過程を効果的に支援し,情報に対する政治的スタンスを定量的に識別する能力が不足している。 本稿では,多様な視点から情報や意見の収集を支援するAIベースのWebシステムであるHearHereを紹介する。 hearhereは2つの視覚化を通じてニュース情報消費の重要なプロセスを促進する。 視覚化1は、私たちのグラフベースの政治分類モデルから派生した、政治ニュースに定量的な政治的スタンス情報を提供します。 ビジュアライゼーション2では、ユーザーは特定の政治的問題に対する意見をコメント形式で表現し、地図インターフェースで提示された自由主義的および保守的コメントに対する自身の意見の位置を観察することができる(ここで)。 94名の参加者によるユーザ調査により,様々な視点からの情報消費を支援する「聞き取り」の実現可能性を示す。 本研究は、政治的偏極を軽減する手段として、政治的スタンス情報の提供とユーザの政治的地位の定量化の重要性を強調した。 さらに, 政治関心などの人口動態を考慮したシステム開発や, ユーザへのイニシアチブ提供など, システム開発への設計的示唆を提案する。

Considerable efforts are currently underway to mitigate the negative impacts of echo chambers, such as increased susceptibility to fake news and resistance towards accepting scientific evidence. Prior research has presented the development of computer systems that support the consumption of news information from diverse political perspectives to mitigate the echo chamber effect. However, existing studies still lack the ability to effectively support the key processes of news information consumption and quantitatively identify a political stance towards the information. In this paper, we present HearHere, an AI-based web system designed to help users accommodate information and opinions from diverse perspectives. HearHere facilitates the key processes of news information consumption through two visualizations. Visualization 1 provides political news with quantitative political stance information, derived from our graph-based political classification model, and users can experience diverse perspectives (Hear). Visualization 2 allows users to express their opinions on specific political issues in a comment form and observe the position of their own opinions relative to pro-liberal and pro-conservative comments presented on a map interface (Here). Through a user study with 94 participants, we demonstrate the feasibility of HearHere in supporting the consumption of information from various perspectives. Our findings highlight the importance of providing political stance information and quantifying users' political status as a means to mitigate political polarization. In addition, we propose design implications for system development, including the consideration of demographics such as political interest and providing users with initiatives.
翻訳日:2024-03-01 11:13:08 公開日:2024-02-29
# CFDNet: コントラスト特徴蒸留を用いた汎用的なFggy Stereo Matching Network

CFDNet: A Generalizable Foggy Stereo Matching Network with Contrastive Feature Distillation ( http://arxiv.org/abs/2402.18181v2 )

ライセンス: Link先を確認
Zihua Liu, Yizhou Li and Masatoshi Okutomi(参考訳) 散乱効果は可視性を低下させ、密度の高い対応マッチングには特徴の少ない特徴をもたらすため、霧の場面下でのステレオマッチングは難しい課題である。 従来の学習に基づく手法では、物理散乱関数を統合してステレオマッチングとデハージングを行ったが、霧を除去するだけでは、霧自体が重要な深さの手がかりとなるため、深度推定には役立たない。 本稿では,cfd(con contrastive feature distillation)に基づくフレームワークについて紹介する。 この戦略は、統合されたクリーンフォグ機能からのフィーチャー蒸留と対照的な学習を組み合わせることで、霧の深さヒントとクリーンマッチング機能に対するバランスのとれた依存を確保する。 このフレームワークはクリーン環境と霧環境の両方でモデルの一般化を促進するのに役立つ。 合成および実世界のデータセットに関する総合実験により,本手法の優れた強度と適応性が確認された。

Stereo matching under foggy scenes remains a challenging task since the scattering effect degrades the visibility and results in less distinctive features for dense correspondence matching. While some previous learning-based methods integrated a physical scattering function for simultaneous stereo-matching and dehazing, simply removing fog might not aid depth estimation because the fog itself can provide crucial depth cues. In this work, we introduce a framework based on contrastive feature distillation (CFD). This strategy combines feature distillation from merged clean-fog features with contrastive learning, ensuring balanced dependence on fog depth hints and clean matching features. This framework helps to enhance model generalization across both clean and foggy environments. Comprehensive experiments on synthetic and real-world datasets affirm the superior strength and adaptability of our method.
翻訳日:2024-03-01 11:12:42 公開日:2024-02-29
# MIKO:ソーシャルメディアコモンセンス発見のための大規模言語モデルからのマルチモーダルインテンション知識蒸留

MIKO: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense Discovery ( http://arxiv.org/abs/2402.18169v2 )

ライセンス: Link先を確認
Feihong Lu, Weiqi Wang, Yangyifei Luo, Ziqin Zhu, Qingyun Sun, Baixuan Xu, Haochen Shi, Shiqi Gao, Qian Li, Yangqiu Song, Jianxin Li(参考訳) ソーシャルメディアは、他の人とつながり、ニュースをアップデートし、意見を述べ、エンターテイメントを見つけるためのユビキタスなツールになっている。 しかし、ソーシャルメディア投稿における意図の暗黙性、テキストと画像の相互モダリティ理解の必要性、ハッシュタグやスペルミス、複雑な略語といった騒がしい情報の存在などにより、ソーシャルメディア投稿の意図の理解は依然として困難である。 これらの課題に対処するため、ユーザ意図を明らかにするために、LLM(Large Language Model)とMLLM(Multimodal Large Language Model)を協調的に利用するMultimodal Intention Kowledge DistillatiOnフレームワークであるMIKOを提案する。 具体的には、MLLMを用いて画像とLCMを解釈し、テキストからキー情報を抽出し、最後に再度LSMに指示して意図を生成する。 公開ソーシャルメディアデータセットにmikoを適用することで,137,287の投稿に根ざした1,372kのインテントを特徴とするインテンションナレッジベースを構築する。 生成した知識の品質を検証するために,二段階アノテーションを実施し,意図生成のための広く使われているllmの性能をベンチマークする。 さらに,煙道検出データセットにMIKOを適用し,学生モデルを蒸留し,意図的知識を適用した下流の利点を示す。

Social media has become a ubiquitous tool for connecting with others, staying updated with news, expressing opinions, and finding entertainment. However, understanding the intention behind social media posts remains challenging due to the implicitness of intentions in social media posts, the need for cross-modality understanding of both text and images, and the presence of noisy information such as hashtags, misspelled words, and complicated abbreviations. To address these challenges, we present MIKO, a Multimodal Intention Kowledge DistillatiOn framework that collaboratively leverages a Large Language Model (LLM) and a Multimodal Large Language Model (MLLM) to uncover users' intentions. Specifically, we use an MLLM to interpret the image and an LLM to extract key information from the text and finally instruct the LLM again to generate intentions. By applying MIKO to publicly available social media datasets, we construct an intention knowledge base featuring 1,372K intentions rooted in 137,287 posts. We conduct a two-stage annotation to verify the quality of the generated knowledge and benchmark the performance of widely used LLMs for intention generation. We further apply MIKO to a sarcasm detection dataset and distill a student model to demonstrate the downstream benefits of applying intention knowledge.
翻訳日:2024-03-01 11:12:26 公開日:2024-02-29
# 検索は正確な生成です

Retrieval is Accurate Generation ( http://arxiv.org/abs/2402.17532v2 )

ライセンス: Link先を確認
Bowen Cao, Deng Cai, Leyang Cui, Xuxin Cheng, Wei Bi, Yuexian Zou, Shuming Shi(参考訳) 標準言語モデルは、固定、有限、スタンドアロンの語彙からトークンを選択してテキストを生成する。 本稿では,支援文書の集合から文脈認識句を選択する新しい手法を提案する。 このパラダイムシフトの最も重要な課題の1つは、テキストの文字列を様々な方法でセグメント化でき、各セグメントを多数の可能なドキュメントから検索できるため、トレーニングのオラクルを決定することである。 そこで本稿では,言語的ヒューリスティックス(Huristics)を用いたオークルの初期化と,反復的自己強化によるオークルのブートストラップを提案する。 広範な実験により,我々は知識集約型タスクで標準言語モデルを上回るだけでなく,オープンエンドテキスト生成における生成品質の向上を実証した。 例えば、標準言語モデルと比較して、私たちのモデルはOpenbookQAで23.47%から36.27%に精度を上げ、オープンエンドテキスト生成で42.61%から81.58%にMAUVEのスコアを改善する。 注目すべきことに,本モデルでは,いくつかの検索拡張ベースラインにおいて,最高の性能と低レイテンシを実現している。 結論として,検索はより正確な生成であり,新たなパラダイムシフトのさらなる研究を促進することを願っている。

Standard language models generate text by selecting tokens from a fixed, finite, and standalone vocabulary. We introduce a novel method that selects context-aware phrases from a collection of supporting documents. One of the most significant challenges for this paradigm shift is determining the training oracles, because a string of text can be segmented in various ways and each segment can be retrieved from numerous possible documents. To address this, we propose to initialize the training oracles using linguistic heuristics and, more importantly, bootstrap the oracles through iterative self-reinforcement. Extensive experiments show that our model not only outperforms standard language models on a variety of knowledge-intensive tasks but also demonstrates improved generation quality in open-ended text generation. For instance, compared to the standard language model counterpart, our model raises the accuracy from 23.47% to 36.27% on OpenbookQA, and improves the MAUVE score from 42.61% to 81.58% in open-ended text generation. Remarkably, our model also achieves the best performance and the lowest latency among several retrieval-augmented baselines. In conclusion, we assert that retrieval is more accurate generation and hope that our work will encourage further research on this new paradigm shift.
翻訳日:2024-03-01 11:12:01 公開日:2024-02-29
# 特徴変調によるニューラルビデオ圧縮

Neural Video Compression with Feature Modulation ( http://arxiv.org/abs/2402.17414v2 )

ライセンス: Link先を確認
Jiahao Li, Bin Li, Yan Lu(参考訳) 新たな条件付きコーディングベースのニューラルビデオコーデック(NVC)は、一般的に使用されている残留コーディングベースのコーデックよりも優れている。 しかし、NVCの実用性を阻害する重大な問題がある。 本稿では,特徴変調による2つの重要な問題を解く,条件付き符号化に基づく強力なNVCを提案する。 ひとつは、単一のモデルで幅広い品質範囲をサポートする方法です。 以前のNVCでは、平均で約3.8dBのPSNRしかサポートしていない。 この制限に対処するため、学習可能な量子化スケーラを用いて現在のフレームの潜時特性を変調する。 本研究では,符号化と量子化の調和を改善するために,一様量子化パラメータサンプリング機構を特別に設計する。 これにより、量子化スケーラの学習が向上し、NVCが約11.4dBのPSNRの範囲をサポートするのに役立ちます。 2つ目は、NVCを長い予測チェーンの下で機能させる方法だ。 我々は, 従来のSOTA NVCは, 時間内設定が大きい場合に, 明らかに品質劣化の問題があることを明らかにした。 そこで本研究では,品質向上のための周期的リフレッシュ機構による時間的特徴の変調を提案する。 % 以上の2つの問題を解決する一方で,RGB と YUV のカラースペースをサポートする単一モデルも設計する。 特に,フレーム内の単一設定では,従来のSOTA NVCよりも29.7\%のビットレートを削減でき,MACは16\%減少する。 私たちのコーデックは、NVC進化の旅で目立ったランドマークとなります。 コードはhttps://github.com/microsoft/DCVCにある。

The emerging conditional coding-based neural video codec (NVC) shows superiority over commonly-used residual coding-based codec and the latest NVC already claims to outperform the best traditional codec. However, there still exist critical problems blocking the practicality of NVC. In this paper, we propose a powerful conditional coding-based NVC that solves two critical problems via feature modulation. The first is how to support a wide quality range in a single model. Previous NVC with this capability only supports about 3.8 dB PSNR range on average. To tackle this limitation, we modulate the latent feature of the current frame via the learnable quantization scaler. During the training, we specially design the uniform quantization parameter sampling mechanism to improve the harmonization of encoding and quantization. This results in a better learning of the quantization scaler and helps our NVC support about 11.4 dB PSNR range. The second is how to make NVC still work under a long prediction chain. We expose that the previous SOTA NVC has an obvious quality degradation problem when using a large intra-period setting. To this end, we propose modulating the temporal feature with a periodically refreshing mechanism to boost the quality. %Besides solving the above two problems, we also design a single model that can support both RGB and YUV colorspaces. Notably, under single intra-frame setting, our codec can achieve 29.7\% bitrate saving over previous SOTA NVC with 16\% MACs reduction. Our codec serves as a notable landmark in the journey of NVC evolution. The codes are at https://github.com/microsoft/DCVC.
翻訳日:2024-03-01 11:11:39 公開日:2024-02-29
# pe-mvcnet:肺塞栓症予測のためのマルチビュー・クロスモーダル融合ネットワーク

PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction ( http://arxiv.org/abs/2402.17187v2 )

ライセンス: Link先を確認
Zhaoxin Guo, Zhipeng Wang, Ruiquan Ge, Jianxun Yu, Feiwei Qin, Yuan Tian, Yuqing Peng, Yonghong Li, Changmiao Wang(参考訳) 肺塞栓症(pe)の早期発見は患者の生存率を高める上で重要である。 画像ベースと非画像ベースの両方の特徴は、医療分類タスクにおいて極めて重要である。 臨床現場では、医師は医療画像の解釈に電子医療記録(EMR)が提供する文脈情報に頼る傾向がある。 しかし、臨床情報を画像データと効果的に統合するモデルはほとんどない。 この欠点に対処するために,ct肺血管造影画像とemrデータに基づくマルチモーダル核融合法pe-mvcnetを提案する。 この方法は、統合マルチビューブロックを備えた画像専用モジュール、EMR専用モジュール、およびCross-modal Attention Fusion (CMAF)モジュールを含む。 これらのモジュールは協調して、PEの予測を生成する包括的な特徴を抽出する。 スタンフォード大学医療センターデータセットを用いた実験を行い、aurocは94.1%、精度は90.2%、f1スコアは90.6%とした。 提案手法は既存の手法よりも優れており,単一のデータモダリティを用いたモデルに比べ,マルチモーダル融合モデルが優れていることを裏付ける。 ソースコードはhttps://github.com/LeavingStarW/PE-MVCNETで公開されています。

The early detection of a pulmonary embolism (PE) is critical for enhancing patient survival rates. Both image-based and non-image-based features are of utmost importance in medical classification tasks. In a clinical setting, physicians tend to rely on the contextual information provided by Electronic Medical Records (EMR) to interpret medical imaging. However, very few models effectively integrate clinical information with imaging data. To address this shortcoming, we suggest a multimodal fusion methodology, termed PE-MVCNet, which capitalizes on Computed Tomography Pulmonary Angiography imaging and EMR data. This method comprises the Image-only module with an integrated multi-view block, the EMR-only module, and the Cross-modal Attention Fusion (CMAF) module. These modules cooperate to extract comprehensive features that subsequently generate predictions for PE. We conducted experiments using the publicly accessible Stanford University Medical Center dataset, achieving an AUROC of 94.1%, an accuracy rate of 90.2%, and an F1 score of 90.6%. Our proposed model outperforms existing methodologies, corroborating that our multimodal fusion model excels compared to models that use a single data modality. Our source code is available at https://github.com/LeavingStarW/PE-MVCNET.
翻訳日:2024-03-01 11:10:55 公開日:2024-02-29
# 入射直交バイアスによる対称性群構造の発見

Discovering Symmetry Group Structures via Implicit Orthogonality Bias ( http://arxiv.org/abs/2402.17002v2 )

ライセンス: Link先を確認
Dongsung Huh(参考訳) データ内の対称性グループ構造を自律的に発見するための新しいアプローチであるHyperCubeネットワークを導入する。 重要なイノベーションは、直交表現を学ぶための強力な帰納的バイアスを注入する新しい正規化子と組み合わされたユニークな分解アーキテクチャである。 これはすべてのコンパクトかつ有限な群は直交行列で表せるという表現論の基本的な定理を利用する。 HyperCubeは、部分的に観測されたデータからグループ操作を効率よく学習し、完全な操作テーブルを回復する。 驚くべきことに、学習された因子は基礎となる群の正確な行列表現に直接対応している。 さらに、これらの因子は群の既約表現の完全な集合を捉え、群畳み込みを行うための一般化されたフーリエ基底を形成する。 グループおよび非グループのシンボル操作による広範な実験では、HyperCubeはTransformerベースラインに比べてトレーニング速度が100~1000倍、サンプル効率が2~10倍向上した。 これらの結果から,本手法は,データ固有の対称性を活用可能な新たな学習モデルのクラスを開放し,性能と適用性に大きな改善をもたらすことが示唆された。

We introduce the HyperCube network, a novel approach for autonomously discovering symmetry group structures within data. The key innovation is a unique factorization architecture coupled with a novel regularizer that instills a powerful inductive bias towards learning orthogonal representations. This leverages a fundamental theorem of representation theory that all compact/finite groups can be represented by orthogonal matrices. HyperCube efficiently learns general group operations from partially observed data, successfully recovering complete operation tables. Remarkably, the learned factors correspond directly to exact matrix representations of the underlying group. Moreover, these factors capture the group's complete set of irreducible representations, forming the generalized Fourier basis for performing group convolutions. In extensive experiments with both group and non-group symbolic operations, HyperCube demonstrates a dramatic 100-1000x improvement in training speed and 2-10x greater sample efficiency compared to the Transformer baseline. These results suggest that our approach unlocks a new class of deep learning models capable of harnessing inherent symmetries within data, leading to significant improvements in performance and broader applicability.
翻訳日:2024-03-01 11:10:36 公開日:2024-02-29