このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240601となっている論文です。

PDF登録状況(公開日: 20240601)

TitleAuthorsAbstract論文公表日・翻訳日
# 信頼できるAIに向けて - 倫理的およびロバストな大規模言語モデルの検討

Towards Trustworthy AI: A Review of Ethical and Robust Large Language Models ( http://arxiv.org/abs/2407.13934v1 )

ライセンス: Link先を確認
Md Meftahul Ferdaus, Mahdi Abdelguerfi, Elias Ioup, Kendall N. Niles, Ken Pathak, Steven Sloan, (参考訳) LLM(Large Language Models)の急速な進歩は、多くの分野を変革させる可能性があるが、その急速な開発は、監視、倫理的創造、ユーザ信頼の構築といった重要な課題を生み出している。 この総合的なレビューは、意図しない害、透明性の欠如、攻撃に対する脆弱性、人的価値との整合性、環境への影響など、LLMにおける重要な信頼の問題について考察する。 多くの障害は、社会的バイアス、不透明な意思決定、誤用の可能性、急速に進化するテクノロジーの課題など、ユーザの信頼を損なう可能性がある。 金融、医療、教育、政策といった敏感な分野でLLMが一般的になるにつれて、これらの信頼ギャップに対処することが重要である。 これらの課題に対処するため、倫理的監視、業界説明責任、規制、公的な関与を組み合わせることを提案する。 AI開発規範は、技術、倫理、法律、ポリシー、その他の分野にわたる密接なコラボレーションを必要とする機械学習プロセス全体で、再形成され、インセンティブが一致し、倫理が統合されるべきである。 本稿では,LSMの信頼性を評価するための頑健なフレームワークを提供し,複雑な信頼のダイナミクスを深く分析する。 我々は、これらの強力なAIシステムを責任を持って開発、展開するためのコンテキスト化されたガイドラインと標準を提供します。 このレビューは、信頼できるAIを作成する上での重要な制限と課題を特定する。 これらの問題に対処することで、リスクを最小限にしつつ、社会に利益をもたらす透明で説明可能なAIエコシステムを構築することを目指している。 本研究は, 研究者, 政策立案者, 産業リーダが, LLMの信頼性を確立し, 社会の利益のために様々な応用に責任を持って使用されることを確実にする上で, 貴重なガイダンスを提供するものである。

The rapid progress in Large Language Models (LLMs) could transform many fields, but their fast development creates significant challenges for oversight, ethical creation, and building user trust. This comprehensive review looks at key trust issues in LLMs, such as unintended harms, lack of transparency, vulnerability to attacks, alignment with human values, and environmental impact. Many obstacles can undermine user trust, including societal biases, opaque decision-making, potential for misuse, and the challenges of rapidly evolving technology. Addressing these trust gaps is critical as LLMs become more common in sensitive areas like finance, healthcare, education, and policy. To tackle these issues, we suggest combining ethical oversight, industry accountability, regulation, and public involvement. AI development norms should be reshaped, incentives aligned, and ethics integrated throughout the machine learning process, which requires close collaboration across technology, ethics, law, policy, and other fields. Our review contributes a robust framework to assess trust in LLMs and analyzes the complex trust dynamics in depth. We provide contextualized guidelines and standards for responsibly developing and deploying these powerful AI systems. This review identifies key limitations and challenges in creating trustworthy AI. By addressing these issues, we aim to build a transparent, accountable AI ecosystem that benefits society while minimizing risks. Our findings provide valuable guidance for researchers, policymakers, and industry leaders striving to establish trust in LLMs and ensure they are used responsibly across various applications for the good of society.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-01
# 転校学習に基づく生徒の成績予測における適用性の向上

Improvement of Applicability in Student Performance Prediction Based on Transfer Learning ( http://arxiv.org/abs/2407.13112v1 )

ライセンス: Link先を確認
Yan Zhao, (参考訳) 様々なデータ分布下での学生のパフォーマンス予測は難しい課題である。 本研究では,様々な分布を持つデータセットの転送学習手法を用いて,予測精度を向上させる手法を提案する。 数学とポルトガル語のコースのデータセットを用いて、モデルを訓練し、その一般化能力と予測精度を高めるために評価した。 この研究で使用されたデータセットは、人口統計の詳細、社会的要因、学術的業績など、さまざまな属性を含むKaggleから得られた。 この手法は、ANN(Artificial Neural Network)とトランスファーラーニングを組み合わせたもので、いくつかの層が徐々に凍結され、残りの層は微調整されている。 実験により, 根平均角誤差 (RMSE) と平均絶対誤差 (MAE) を低減し, 判定係数 (R2) を向上した。 このモデルは最初、より大きなサンプルサイズを持つサブセットで訓練され、その後、別のサブセットで微調整された。 この方法は知識伝達を効果的に促進し、限られたデータを持つタスクにおけるモデル性能を向上させる。 結果は、より多くのレイヤを凍結することで、複雑でノイズの多いデータのパフォーマンスが向上することを示した。 本研究は,学生のパフォーマンス予測における伝達学習の可能性を強調し,未ラベルデータセットに対する領域適応手法を探求するための今後の研究を提案する。

Predicting student performance under varying data distributions is a challenging task. This study proposes a method to improve prediction accuracy by employing transfer learning techniques on the dataset with varying distributions. Using datasets from mathematics and Portuguese language courses, the model was trained and evaluated to enhance its generalization ability and prediction accuracy. The datasets used in this study were sourced from Kaggle, comprising a variety of attributes such as demographic details, social factors, and academic performance. The methodology involves using an Artificial Neural Network (ANN) combined with transfer learning, where some layer weights were progressively frozen, and the remaining layers were fine-tuned. Experimental results demonstrated that this approach excels in reducing Root Mean Square Error (RMSE) and Mean Absolute Error (MAE), while improving the coefficient of determination (R2). The model was initially trained on a subset with a larger sample size and subsequently fine-tuned on another subset. This method effectively facilitated knowledge transfer, enhancing model performance on tasks with limited data. The results demonstrate that freezing more layers improves performance for complex and noisy data, whereas freezing fewer layers is more effective for simpler and larger datasets. This study highlights the potential of transfer learning in predicting student performance and suggests future research to explore domain adaptation techniques for unlabeled datasets.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-01
# 階層型ポアソン過程による財政体積曲線のモデル化

Modelling financial volume curves with hierarchical Poisson processes ( http://arxiv.org/abs/2406.19402v1 )

ライセンス: Link先を確認
Creighton Heaukulani, Abhinav Pandey, Lancelot F. James, (参考訳) 金融商品の取引量曲線を1日を通してモデル化することは、金融取引アプリケーションにおいて重要な関心事である。 いわゆるボリュームプロファイルの予測は、例えば、商品の価格に影響を与えないように、多くの注文で所望の量の取引を1日を通して行います。 体積曲線(毎日)は自然にストックによってグループ化され、産業によって高レベルなグループにまとめられる。 このような体積曲線の混合をモデル化するために,不均質なポアソン過程の混合の強度関数に対する階層的なポアソン過程モデルを導入する。 このモデルは階層的ディリクレ法に基づいており、効率の良いマルコフ・チェイン・モンテカルロ(MCMC)アルゴリズムはベイズ非パラメトリック混合モデルのスライスサンプリングフレームワークに従って導出される。 我々は、Wharton Research Data Servicesが管理するTreat and Quoteリポジトリのさまざまな在庫のデータセットについて、NASDAQの株式取引所であるAppleの最も流動的な在庫を含む、そのアプローチのスケーラビリティを実証する手法を実証する。

Modeling the trading volume curves of financial instruments throughout the day is of key interest in financial trading applications. Predictions of these so-called volume profiles guide trade execution strategies, for example, a common strategy is to trade a desired quantity across many orders in line with the expected volume curve throughout the day so as not to impact the price of the instrument. The volume curves (for each day) are naturally grouped by stock and can be further gathered into higher-level groupings, such as by industry. In order to model such admixtures of volume curves, we introduce a hierarchical Poisson process model for the intensity functions of admixtures of inhomogenous Poisson processes, which represent the trading times of the stock throughout the day. The model is based on the hierarchical Dirichlet process, and an efficient Markov Chain Monte Carlo (MCMC) algorithm is derived following the slice sampling framework for Bayesian nonparametric mixture models. We demonstrate the method on datasets of different stocks from the Trade and Quote repository maintained by Wharton Research Data Services, including the most liquid stock on the NASDAQ stock exchange, Apple, demonstrating the scalability of the approach.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-01
# ランク付けによる実用的プログラム合成の精度向上

Amortizing Pragmatic Program Synthesis with Rankings ( http://arxiv.org/abs/2407.02499v1 )

ライセンス: Link先を確認
Yewen Pu, Saujas Vaduguru, Priyan Vaithilingam, Elena Glassman, Daniel Fried, (参考訳) RA(Rational Speech Acts)フレームワークは,ユーザ生成例と論理的に整合性を持つプログラムを返却するプログラムシンセサイザーの構築に成功している。 遅くて正確なRSAシンセサイザーを再生する一般的な方法を提案する。 提案手法は,まず正確なRSAシンセサイザーに問い合わせて,通信データセットをコンパイルする。 データセットには、プログラムのサブセットのサンプル依存ランキングが含まれている。 その後、データセット内のすべてのランキングに対する近似として、すべてのプログラムのグローバルランキングを蒸留する。 このグローバルランキングは、高速な非実用的シンセサイザーから生成される複数の論理的に一貫した候補プログラムを推論時にランク付けする。 本手法を用いた2つのプログラム合成領域の実験により,人間との通信において,非実用的合成器よりも精度が高く,精度が向上した。 最後に、一つの例から合成する特別な場合において、この近似は正確であることを示す。

The usage of Rational Speech Acts (RSA) framework has been successful in building \emph{pragmatic} program synthesizers that return programs which, in addition to being logically consistent with user-generated examples, account for the fact that a user chooses their examples informatively. We present a general method of amortizing the slow, exact RSA synthesizer. Our method first query the exact RSA synthesizer to compile a communication dataset. The dataset contains a number of example-dependent rankings of subsets of programs. It then distills a \textit{single} global ranking of all programs as an approximation to every ranking in the dataset. This global ranking is then used at inference time to rank multiple logically consistent candidate programs generated from a fast, non-pragmatic synthesizer. Experiments on two program synthesis domains using our ranking method resulted in orders of magnitudes of speed ups compared to the exact RSA synthesizer, while being more accurate than a non-pragmatic synthesizer when communicating with humans. Finally, we prove that in the special case of synthesis from a single example, this approximation is exact.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-01
# ゼロショットテキストステガナリシスのための擬似ラベルに基づくドメイン適応

Pseudo-label Based Domain Adaptation for Zero-Shot Text Steganalysis ( http://arxiv.org/abs/2406.18565v1 )

ライセンス: Link先を確認
Yufei Luo, Zhen Yang, Ru Zhang, Jianyi Liu, (参考訳) 現在、テキストステガナリシスのほとんどの方法はディープニューラルネットワーク(DNN)に基づいている。 しかし、現実のシナリオでは、大量のパラメータを使ってネットワークを正しく訓練するのに十分なラベル付きステゴテキストを得ることは、しばしば困難でコストがかかる。 さらに、データセットバイアスやドメインシフトとして知られる現象のため、大規模なデータセットでトレーニングされた認識モデルは、新しいデータセットやタスク上での一般化性能が低い。 そこで本研究では,テキストステガナリシスにおけるラベル付きデータ不足やモデル一般化の問題点に対処するため,擬似ラベルとドメイン適応(教師なし学習)に基づくドメイン間ステガナリシス法(PDTS)を提案する。 具体的には,事前学習したBERTと単一層Bi-LSTMを組み合わせたモデルアーキテクチャを提案し,タスク間の汎用的特徴の学習と抽出を行い,タスク固有の表現を生成する。 ステガナリシスに対する異なる特徴の差分寄与を考慮すると、選択的特徴伝搬を実現するための特徴フィルタリング機構をさらに設計し、分類性能を向上する。 我々は、ラベル付きソースドメインデータを用いてモデルをトレーニングし、自己学習を通してラベルなしのターゲットドメインデータに対して擬似ラベルを用いて、ターゲットドメインデータ分布に適応する。 ラベル推定ステップでは、静的サンプリング戦略の代わりに、選択した擬似ラベル候補数を徐々に増加させるプログレッシブサンプリング戦略を提案する。 実験結果から,本手法はゼロショットテキストステガナリシスタスクにおいて良好に動作し,対象領域にラベル付きデータがない場合でも高い検出精度を実現し,現在のゼロショットテキストステガナリシス手法よりも優れていた。

Currently, most methods for text steganalysis are based on deep neural networks (DNNs). However, in real-life scenarios, obtaining a sufficient amount of labeled stego-text for correctly training networks using a large number of parameters is often challenging and costly. Additionally, due to a phenomenon known as dataset bias or domain shift, recognition models trained on a large dataset exhibit poor generalization performance on novel datasets and tasks. Therefore, to address the issues of missing labeled data and inadequate model generalization in text steganalysis, this paper proposes a cross-domain stego-text analysis method (PDTS) based on pseudo-labeling and domain adaptation (unsupervised learning). Specifically, we propose a model architecture combining pre-trained BERT with a single-layer Bi-LSTM to learn and extract generic features across tasks and generate task-specific representations. Considering the differential contributions of different features to steganalysis, we further design a feature filtering mechanism to achieve selective feature propagation, thereby enhancing classification performance. We train the model using labeled source domain data and adapt it to target domain data distribution using pseudo-labels for unlabeled target domain data through self-training. In the label estimation step, instead of using a static sampling strategy, we propose a progressive sampling strategy to gradually increase the number of selected pseudo-label candidates. Experimental results demonstrate that our method performs well in zero-shot text steganalysis tasks, achieving high detection accuracy even in the absence of labeled data in the target domain, and outperforms current zero-shot text steganalysis methods.
翻訳日:2024-07-01 06:00:20 公開日:2024-06-01
# 拡散モデルにおける記憶画像は、位置決めと削除が可能な部分空間を共有する

Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted ( http://arxiv.org/abs/2406.18566v1 )

ライセンス: Link先を確認
Ruchika Chavhan, Ondrej Bohdal, Yongshuo Zong, Da Li, Timothy Hospedales, (参考訳) 大規模なテキスト・画像拡散モデルは,テキスト入力から高品質な画像を生成するのに優れているが,学習データを記憶・複製する傾向を示す研究が進み,また,拡散モデルにおける記憶の問題にも対処し,著作権侵害やプライバシー問題を引き起こす正確なトレーニングサンプルを再現する傾向にある。 データ重複、複製されたキャプション、トークンのトリガーなど、暗記に対処するためのテキスト・ツー・イメージのコミュニティ内の取り組みは、プロンプト毎の推論時間やトレーニング時間の緩和戦略を提案している。 本稿では,フィードフォワード層に着目し,記憶されたプロンプトと記憶されていない一連のプロンプトのニューロン活性化の対比から始める。 多くの異なる記憶されたプロンプトがモデル内の共通部分空間を著しく活性化し、初めて拡散モデルの記憶が特別な部分空間にあることを示す。 次に,事前学習したモデルを編集するための新しいポストホック手法を提案する。これは,特定の部分空間における重みの直接的な刈り取りによって記憶を緩和し,事前研究で見られるトレーニングや推論プロセスの中断を回避する。 最後に,訓練用データ抽出攻撃に対するプルーニングモデルのロバスト性を示す。

Large-scale text-to-image diffusion models excel in generating high-quality images from textual inputs, yet concerns arise as research indicates their tendency to memorize and replicate training data, raising We also addressed the issue of memorization in diffusion models, where models tend to replicate exact training samples raising copyright infringement and privacy issues. Efforts within the text-to-image community to address memorization explore causes such as data duplication, replicated captions, or trigger tokens, proposing per-prompt inference-time or training-time mitigation strategies. In this paper, we focus on the feed-forward layers and begin by contrasting neuron activations of a set of memorized and non-memorized prompts. Experiments reveal a surprising finding: many different sets of memorized prompts significantly activate a common subspace in the model, demonstrating, for the first time, that memorization in the diffusion models lies in a special subspace. Subsequently, we introduce a novel post-hoc method for editing pre-trained models, whereby memorization is mitigated through the straightforward pruning of weights in specialized subspaces, avoiding the need to disrupt the training or inference process as seen in prior research. Finally, we demonstrate the robustness of the pruned model against training data extraction attacks, thereby unveiling new avenues for a practical and one-for-all solution to memorization.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-01
# ブラックボックスアクセスによる大規模言語モデル信頼度推定

Large Language Model Confidence Estimation via Black-Box Access ( http://arxiv.org/abs/2406.04370v1 )

ライセンス: Link先を確認
Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri, (参考訳) モデルの応答の不確実性や信頼性を推定することは、応答だけでなく、モデル全体の信頼を評価する上でも重要である。 本稿では,大規模言語モデル(LLM)の応答に対する信頼度をブラックボックスやクエリアクセスで推定する問題について検討する。 そこで我々は,新しい特徴を設計し,これらの特徴に対する(解釈可能な)モデル(つまりロジスティック回帰)を訓練し,信頼性を推定する,シンプルで拡張可能なフレームワークを提案する。 筆者らの単純なフレームワークは,TriviaQA,SQuAD,CoQA,Natural Questionsなどのベンチマークデータセットにおいて,Flan-ul2, llama-13b, Mistral-7bの信頼度を10\%以上(AUROCの場合)で一貫したブラックボックス信頼度推定手法で推定する上で有効であることを示す。 さらに、我々の解釈可能なアプローチは、信頼の予測可能な機能に関する洞察を与え、あるLLMのために構築された信頼モデルが与えられたデータセット上でゼロショットを一般化する興味深い、有用な発見につながります。

Estimating uncertainty or confidence in the responses of a model can be significant in evaluating trust not only in the responses, but also in the model as a whole. In this paper, we explore the problem of estimating confidence for responses of large language models (LLMs) with simply black-box or query access to them. We propose a simple and extensible framework where, we engineer novel features and train a (interpretable) model (viz. logistic regression) on these features to estimate the confidence. We empirically demonstrate that our simple framework is effective in estimating confidence of flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing black-box confidence estimation approaches on benchmark datasets such as TriviaQA, SQuAD, CoQA and Natural Questions by even over $10\%$ (on AUROC) in some cases. Additionally, our interpretable approach provides insight into features that are predictive of confidence, leading to the interesting and useful discovery that our confidence models built for one LLM generalize zero-shot across others on a given dataset.
翻訳日:2024-06-23 13:55:28 公開日:2024-06-01
# 分解による地震波の解釈に有効なデータ選択法

Effective Data Selection for Seismic Interpretation through Disagreement ( http://arxiv.org/abs/2406.05149v1 )

ライセンス: Link先を確認
Ryan Benkert, Mohit Prabhushankar, Ghassan AlRegib, (参考訳) 本稿では, 深層学習のためのデータ選択に関する考察を行う。 目標容積への頑健な一般化を実現するためには,特定のサンプルを特定することがトレーニングプロセスにおいて最も重要な情報である。 目標体積からのトレーニングセットの選択は, 深層学習アルゴリズムの有効性を判断する上で重要な要素である。 本稿では,学習セットの選択過程において,解釈の不一致を重要かつ直感的な要因として含めることを提案する。 新たなデータ選択フレームワークの開発は、地震解釈の確立した実践にインスパイアされている。 私たちが開発したフレームワークは、表現シフトを利用して、ニューラルネットワーク内の解釈の不一致を効果的にモデル化する。 さらに、データ選択ワークフロー全体を通して地質学的に興味深い領域への注意を高めるために、不一致対策を取り入れている。 このアプローチと、データ選択のためのよく知られた機械学習パラダイムであるアクティブラーニングを組み合わせることで、地震解釈においてセット選択をトレーニングするための包括的で革新的なフレームワークにたどり着きます。 さらに,提案したフレームワークの具体的実装として,ATLASと命名した。 この実装は、データ選択の手段として機能する。 本研究では,ATLASが地震解釈の分野で従来のアクティブラーニングフレームワークを一貫して上回っていることを示す包括的実験の結果について述べる。 以上の結果より,ATLASは平均交叉結合率を最大12%向上させることが明らかとなった。

This paper presents a discussion on data selection for deep learning in the field of seismic interpretation. In order to achieve a robust generalization to the target volume, it is crucial to identify the specific samples are the most informative to the training process. The selection of the training set from a target volume is a critical factor in determining the effectiveness of the deep learning algorithm for interpreting seismic volumes. This paper proposes the inclusion of interpretation disagreement as a valuable and intuitive factor in the process of selecting training sets. The development of a novel data selection framework is inspired by established practices in seismic interpretation. The framework we have developed utilizes representation shifts to effectively model interpretation disagreement within neural networks. Additionally, it incorporates the disagreement measure to enhance attention towards geologically interesting regions throughout the data selection workflow. By combining this approach with active learning, a well-known machine learning paradigm for data selection, we arrive at a comprehensive and innovative framework for training set selection in seismic interpretation. In addition, we offer a specific implementation of our proposed framework, which we have named ATLAS. This implementation serves as a means for data selection. In this study, we present the results of our comprehensive experiments, which clearly indicate that ATLAS consistently surpasses traditional active learning frameworks in the field of seismic interpretation. Our findings reveal that ATLAS achieves improvements of up to 12% in mean intersection-over-union.
翻訳日:2024-06-23 13:55:28 公開日:2024-06-01
# Lean4におけるオートフォーマライゼーションの評価ベンチマーク

An Evaluation Benchmark for Autoformalization in Lean4 ( http://arxiv.org/abs/2406.06555v1 )

ライセンス: Link先を確認
Aryan Gulati, Devanshu Ladsaria, Shubhra Mishra, Jasdeep Sidhu, Brando Miranda, (参考訳) 大規模言語モデル(LLM)は、自己形式化に革命をもたらす可能性を秘めている。 数学的プログラミング言語であるLean4の導入は、LLMの自動形式化機能を厳格に評価する前例のない機会を提供する。 本稿では,GPT-3.5,GPT-4,Gemini Proなどの最先端LLMの能力をテストするために,Lean4用に設計された新しい評価ベンチマークを提案する。 我々の包括的分析は、最近の進歩にもかかわらず、これらのLSMは、特により複雑な数学領域において、自己形式化の限界をまだ示していることを示している。 これらの知見は、科学研究と開発においてその可能性を完全に活用するために、LLMのさらなる開発の必要性を浮き彫りにしている。 この研究は、現在のLLM能力のベンチマークだけでなく、将来的な自動形式化の強化のステージも設定する。

Large Language Models (LLMs) hold the potential to revolutionize autoformalization. The introduction of Lean4, a mathematical programming language, presents an unprecedented opportunity to rigorously assess the autoformalization capabilities of LLMs. This paper introduces a novel evaluation benchmark designed for Lean4, applying it to test the abilities of state-of-the-art LLMs, including GPT-3.5, GPT-4, and Gemini Pro. Our comprehensive analysis reveals that, despite recent advancements, these LLMs still exhibit limitations in autoformalization, particularly in more complex areas of mathematics. These findings underscore the need for further development in LLMs to fully harness their potential in scientific research and development. This study not only benchmarks current LLM capabilities but also sets the stage for future enhancements in autoformalization.
翻訳日:2024-06-23 13:55:28 公開日:2024-06-01
# 多段階エンドツーエンドアプローチによるLLMによるプレゼンテーションスライド生成の強化

Enhancing Presentation Slide Generation by LLMs with a Multi-Staged End-to-End Approach ( http://arxiv.org/abs/2406.06556v1 )

ライセンス: Link先を確認
Sambaran Bandyopadhyay, Himanshu Maheshwari, Anandhavelu Natarajan, Apoorv Saxena, (参考訳) テキストや画像などのマルチモーダル要素を持つ長いドキュメントからプレゼンテーションスライドを生成することは重要なタスクである。 これは時間がかかり、手作業で行う場合はドメインの専門知識が必要です。 ドキュメントからリッチなプレゼンテーションを生成するための既存のアプローチは、しばしば半自動的であるか、良い物語の重要性を無視してスライドに平らな要約を配置するだけである。 本稿では,LLMとVLMを組み合わせた多段階のエンドツーエンドモデルを提案する。 我々は,LLMを最先端のプロンプトで直接適用するよりも,自動計測と人的評価の点で,提案した多段階ソリューションの方が優れていることを実験的に示した。

Generating presentation slides from a long document with multimodal elements such as text and images is an important task. This is time consuming and needs domain expertise if done manually. Existing approaches for generating a rich presentation from a document are often semi-automatic or only put a flat summary into the slides ignoring the importance of a good narrative. In this paper, we address this research gap by proposing a multi-staged end-to-end model which uses a combination of LLM and VLM. We have experimentally shown that compared to applying LLMs directly with state-of-the-art prompting, our proposed multi-staged solution is better in terms of automated metrics and human evaluation.
翻訳日:2024-06-23 13:55:28 公開日:2024-06-01
# テキスト認証の強化:AI生成テキスト検出のための新しいハイブリッドアプローチ

Enhancing Text Authenticity: A Novel Hybrid Approach for AI-Generated Text Detection ( http://arxiv.org/abs/2406.06558v1 )

ライセンス: Link先を確認
Ye Zhang, Qian Leng, Mengran Zhu, Rui Ding, Yue Wu, Jintong Song, Yulu Gong, (参考訳) LLM(Large Language Models)の急速な進歩は、AI生成されたテキストが人為的コンテンツと差別化されつつある時代に幕を閉じている。 AI生成したテキストの検出は、誤った情報に対処し、コンテンツの信頼性を確保し、悪意のあるAI使用に対する保護を行うために欠かせないものになっている。 本稿では,従来のTF-IDF手法と高度な機械学習モデルを組み合わせた新しいハイブリッド手法を提案する。 提案手法は,従来の特徴抽出手法と最先端のディープラーニングモデルの両方の長所を活用することで,AI生成テキストの検出に関わる課題に対処することを目的としている。 包括的データセットに関する広範な実験を通じて,人間とAI生成したテキストを正確に識別する手法の有効性を実証する。 提案手法は既存手法と比較して優れた性能を発揮する。 本研究は,AI生成テキスト検出技術の進歩に寄与し,AI生成コンテンツによる課題を軽減するための堅牢なソリューション開発の基礎を築いた。

The rapid advancement of Large Language Models (LLMs) has ushered in an era where AI-generated text is increasingly indistinguishable from human-generated content. Detecting AI-generated text has become imperative to combat misinformation, ensure content authenticity, and safeguard against malicious uses of AI. In this paper, we propose a novel hybrid approach that combines traditional TF-IDF techniques with advanced machine learning models, including Bayesian classifiers, Stochastic Gradient Descent (SGD), Categorical Gradient Boosting (CatBoost), and 12 instances of Deberta-v3-large models. Our approach aims to address the challenges associated with detecting AI-generated text by leveraging the strengths of both traditional feature extraction methods and state-of-the-art deep learning models. Through extensive experiments on a comprehensive dataset, we demonstrate the effectiveness of our proposed method in accurately distinguishing between human and AI-generated text. Our approach achieves superior performance compared to existing methods. This research contributes to the advancement of AI-generated text detection techniques and lays the foundation for developing robust solutions to mitigate the challenges posed by AI-generated content.
翻訳日:2024-06-23 13:55:28 公開日:2024-06-01
# 大規模言語モデルによる大規模自己回帰支援:教室におけるランダムフィールド実験から

Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms ( http://arxiv.org/abs/2406.07571v1 )

ライセンス: Link先を確認
Harsh Kumar, Ruiwei Xiao, Benjamin Lawson, Ilya Musabirov, Jiakai Shi, Xinyuan Wang, Huayin Luo, Joseph Jay Williams, Anna Rafferty, John Stamper, Michael Liut, (参考訳) 学習経験における自己回帰は、知識の統合と学習効率の向上に不可欠な、基本的な認知過程を構成する。 しかしながら、リフレクションを促進する従来の手法は、パーソナライゼーション、フィードバックの即時性、エンゲージメント、スケーラビリティといった課題に直面していることが多い。 大規模な言語モデル(LLM)をリフレクションプロセスに統合することで、これらの制限を緩和することができる。 本稿では,大学院コンピュータ科学科におけるランダムフィールド実験を2回実施し,LLMの潜在可能性について検討した。 最初の実験(N=145)では、学生はLLMアシスタントの支援で在宅勤務を完了し、その半数は自己反映を促進するために設計されたLLMへのアクセスを提供した。 その結果, LLM指導の学生は, 自尊心が増し, 2週間後の受験成績がコントロール条件の仲間よりも良好であることが示唆された。 第2実験(N=112)では,LLM誘導の自己反射が,質問紙による活動や重要な講義スライドのレビューなど,他の拡張性のある反射法に対して与える影響について検討した。 その結果,2週間後の受験試験の結果から,授業スライドのみに曝露した学生よりも,質問紙調査とLLMベースの反射群が同等に良好な成績を示したことが示唆された。 これらの結果は,LLM指導によるリフレクションと,学習成果改善のための質問紙による活動の有用性を裏付けるものである。 我々の研究は、LLMの正確性にのみ焦点をあてることで、自己回帰のような実践を通じてメタ認知能力を高める可能性を見落としることができることを強調している。 本研究がEdtechコミュニティにもたらす意味について論じる。

Self-reflection on learning experiences constitutes a fundamental cognitive process, essential for the consolidation of knowledge and the enhancement of learning efficacy. However, traditional methods to facilitate reflection often face challenges in personalization, immediacy of feedback, engagement, and scalability. Integration of Large Language Models (LLMs) into the reflection process could mitigate these limitations. In this paper, we conducted two randomized field experiments in undergraduate computer science courses to investigate the potential of LLMs to help students engage in post-lesson reflection. In the first experiment (N=145), students completed a take-home assignment with the support of an LLM assistant; half of these students were then provided access to an LLM designed to facilitate self-reflection. The results indicated that the students assigned to LLM-guided reflection reported increased self-confidence and performed better on a subsequent exam two weeks later than their peers in the control condition. In the second experiment (N=112), we evaluated the impact of LLM-guided self-reflection against other scalable reflection methods, such as questionnaire-based activities and review of key lecture slides, after assignment. Our findings suggest that the students in the questionnaire and LLM-based reflection groups performed equally well and better than those who were only exposed to lecture slides, according to their scores on a proctored exam two weeks later on the same subject matter. These results underscore the utility of LLM-guided reflection and questionnaire-based activities in improving learning outcomes. Our work highlights that focusing solely on the accuracy of LLMs can overlook their potential to enhance metacognitive skills through practices such as self-reflection. We discuss the implications of our research for the Edtech community.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-01
# 物理積分反復モデリングのためのドメイン固有ReAct:ガスタービンのガス経路解析のためのLLMエージェントのケーススタディ

Domain-specific ReAct for physics-integrated iterative modeling: A case study of LLM agents for gas path analysis of gas turbines ( http://arxiv.org/abs/2406.07572v1 )

ライセンス: Link先を確認
Tao Song, Yuwei Fan, Chenlong Feng, Keyu Song, Chao Liu, Dongxiang Jiang, (参考訳) 本研究では,大型言語モデル(LLM)のエネルギー・電力工学領域への応用について検討し,ガスタービンのガス経路解析に焦点をあてた。 我々は、専門家の知識、事前定義されたツール、LLM推論を統合するための二重エージェントツールコールプロセスを開発した。 LLama3, Qwen1.5, GPT など各種 LLM の評価を行った。 より小さなモデルはツールの使用とパラメータ抽出に苦労し、大きなモデルは好適な機能を示しました。 全てのモデルは複雑で多成分な問題に直面した。 実験結果から,1000億近いパラメータを持つLCMは,微調整と高度なプロンプト設計により,プロのシナリオ要件を満たすことができると推定した。 継続的な開発は、その正確性と有効性を向上し、より堅牢なAI駆動ソリューションへの道を開く可能性が高い。

This study explores the application of large language models (LLMs) with callable tools in energy and power engineering domain, focusing on gas path analysis of gas turbines. We developed a dual-agent tool-calling process to integrate expert knowledge, predefined tools, and LLM reasoning. We evaluated various LLMs, including LLama3, Qwen1.5 and GPT. Smaller models struggled with tool usage and parameter extraction, while larger models demonstrated favorable capabilities. All models faced challenges with complex, multi-component problems. Based on the test results, we infer that LLMs with nearly 100 billion parameters could meet professional scenario requirements with fine-tuning and advanced prompt design. Continued development are likely to enhance their accuracy and effectiveness, paving the way for more robust AI-driven solutions.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-01
# RGFN:GFlowNetを用いた合成可能な分子生成

RGFN: Synthesizable Molecular Generation Using GFlowNets ( http://arxiv.org/abs/2406.08506v1 )

ライセンス: Link先を確認
Michał Koziarski, Andrei Rekesh, Dmytro Shevchuk, Almer van der Sloot, Piotr Gaiński, Yoshua Bengio, Cheng-Hao Liu, Mike Tyers, Robert A. Batey, (参考訳) 生成モデルは小さな分子発見に大いに期待でき、従来のシリコスクリーニングライブラリに比べて探索空間のサイズが大幅に増加する。 しかし, 既存の機械学習手法の多くは, 候補化合物の合成性に乏しいため, 実験的検証が困難である。 本稿では,化学反応の空間で直接動作するGFlowNetフレームワークの拡張であるReaction-GFlowNet(RGFN)を提案する。 提案した反応の集合と構造ブロックにより, 既存のスクリーニングライブラリよりも桁違いに大きい分子の探索空間を得ることができ, 合成コストが低いことを実証した。 また、この手法は、非常に大きなフラグメントライブラリにスケールし、潜在的な分子の数を増やすことも示している。 提案手法の有効性を,事前訓練されたプロキシモデルやGPUアクセラレーションドッキングなど,さまざまなオラクルモデルに適用した。

Generative models hold great promise for small molecule discovery, significantly increasing the size of search space compared to traditional in silico screening libraries. However, most existing machine learning methods for small molecule generation suffer from poor synthesizability of candidate compounds, making experimental validation difficult. In this paper we propose Reaction-GFlowNet (RGFN), an extension of the GFlowNet framework that operates directly in the space of chemical reactions, thereby allowing out-of-the-box synthesizability while maintaining comparable quality of generated candidates. We demonstrate that with the proposed set of reactions and building blocks, it is possible to obtain a search space of molecules orders of magnitude larger than existing screening libraries coupled with low cost of synthesis. We also show that the approach scales to very large fragment libraries, further increasing the number of potential molecules. We demonstrate the effectiveness of the proposed approach across a range of oracle models, including pretrained proxy models and GPU-accelerated docking.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-01
# 医用画像の軽視

Lightening Anything in Medical Images ( http://arxiv.org/abs/2406.10236v1 )

ライセンス: Link先を確認
Ben Fei, Yixuan Li, Weidong Yang, Hengjun Gao, Jingyi Xu, Lipeng Ma, Yatian Yang, Pinghong Zhou, (参考訳) 医用画像技術の発展は臨床的意思決定に大きく貢献している。 しかし、不規則な照明や不均衡な強度によって示されるように、最適な画像品質の存在は、疾患のスクリーニング、分析、診断を自動化する上で大きな障害となる。 自然画像強調のための既存のアプローチは、主に多数のペアイメージで訓練されており、データ収集とトレーニングコストの課題を提示する一方で、効果的に一般化する能力が欠如している。 本稿では,UniMIE(UniMIE)という,Universal Medical Image Enhancement(Universal Medical Image Enhancement)のための訓練自由拡散モデルを提案する。 UniMIEは、微調整を必要とせず、様々な医用画像モダリティにまたがる教師なしの強化能力を実証している。 これはImageNetからトレーニング済みの1つのモデルにのみ依存することで実現される。 我々は、13の画像モダリティと15以上の医療タイプを総合的に評価し、他のモダリティ特化モデルやデータ非効率モデルよりも優れた品質、堅牢性、正確性を示す。 様々なタスクにおいて、高品質の強化とそれに対応する精度の下流タスクを提供することにより、UniMIEは診断ツールの進歩とカスタマイズされた治療計画の促進を加速する大きな可能性を示す。

The development of medical imaging techniques has made a significant contribution to clinical decision-making. However, the existence of suboptimal imaging quality, as indicated by irregular illumination or imbalanced intensity, presents significant obstacles in automating disease screening, analysis, and diagnosis. Existing approaches for natural image enhancement are mostly trained with numerous paired images, presenting challenges in data collection and training costs, all while lacking the ability to generalize effectively. Here, we introduce a pioneering training-free Diffusion Model for Universal Medical Image Enhancement, named UniMIE. UniMIE demonstrates its unsupervised enhancement capabilities across various medical image modalities without the need for any fine-tuning. It accomplishes this by relying solely on a single pre-trained model from ImageNet. We conduct a comprehensive evaluation on 13 imaging modalities and over 15 medical types, demonstrating better qualities, robustness, and accuracy than other modality-specific and data-inefficient models. By delivering high-quality enhancement and corresponding accuracy downstream tasks across a wide range of tasks, UniMIE exhibits considerable potential to accelerate the advancement of diagnostic tools and customized treatment plans.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-01
# 組合せ最適化問題に対する量子インスピレーション平均場確率モデル

Quantum-Inspired Mean Field Probabilistic Model for Combinatorial Optimization Problems ( http://arxiv.org/abs/2406.03502v1 )

ライセンス: Link先を確認
Yuhan Huang, Siyuan Jin, Yichi Zhang, Ling Pan, Qiming Shao, (参考訳) 組合せ最適化問題は、多くの分野において重要な問題である。 これらのうち、ポートフォリオ最適化、ネットワーク設計、計算生物学といった分野の中心にある準拘束的二項最適化(QUBO)問題はNPハードであり、指数計算資源を必要とする。 これらの課題に対処するため、我々はQUBO問題の解を精度と効率を向上して近似する新しい量子インスパイアされた平均場(QIMF)確率モデルを開発した。 QIMFモデルは量子測定の原理からインスピレーションを得て、平均場確率モデルを活用する。 我々は,従来の手法よりも多項式高速化によるコスト関数の最適化に重要な,測定グループ化手法と振幅に基づくショットアロケーション戦略を取り入れた。 ポートフォリオ選択や重み付きマックスカット問題,Isingモデルといった大規模問題に対するソリューション評価の大幅な改善を実証した。 具体的には、2022年と2023年のS&P 500データを用いて、QIMFは最先端のベースラインと比較して、それぞれ152.8%と12.5%のコスト値を改善する。 さらに、QUBO問題のためのより大きなデータセットを評価すると、QIMFのスケーラビリティは大規模なQUBO課題の可能性を示している。

Combinatorial optimization problems are pivotal across many fields. Among these, Quadratic Unconstrained Binary Optimization (QUBO) problems, central to fields like portfolio optimization, network design, and computational biology, are NP-hard and require exponential computational resources. To address these challenges, we develop a novel Quantum-Inspired Mean Field (QIMF) probabilistic model that approximates solutions to QUBO problems with enhanced accuracy and efficiency. The QIMF model draws inspiration from quantum measurement principles and leverages the mean field probabilistic model. We incorporate a measurement grouping technique and an amplitude-based shot allocation strategy, both critical for optimizing cost functions with a polynomial speedup over traditional methods. Our extensive empirical studies demonstrate significant improvements in solution evaluation for large-scale problems of portfolio selection, the weighted maxcut problem, and the Ising model. Specifically, using S&P 500 data from 2022 and 2023, QIMF improves cost values by 152.8% and 12.5%, respectively, compared to the state-of-the-art baselines. Furthermore, when evaluated on increasingly larger datasets for QUBO problems, QIMF's scalability demonstrates its potential for large-scale QUBO challenges.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-01
# 局所微分プライバシー下におけるグラフニューラルネットワークのランダム化応答の深さ保存

Degree-Preserving Randomized Response for Graph Neural Networks under Local Differential Privacy ( http://arxiv.org/abs/2202.10209v6 )

ライセンス: Link先を確認
Seira Hidano, Takao Murakami, (参考訳) グラフニューラルネットワーク(Graph Neural Networks)は,ユーザプライバシを強く保護しつつ,グラフデータのさまざまなタスクにおいて高い精度を提供するために最近研究されている。 特に、最近の研究では、信頼できる第三者がいない強力なプライバシー概念であるLDP(Local Differential Privacy)を用いて、ノードIDとエッジと共に特徴ベクトルを含む属性グラフにおいて、各ユーザの特徴ベクトルを保護するアルゴリズムを提案する。 しかし、このアルゴリズムはソーシャルグラフのエッジ(フレンドシップ)を保護しないため、ノードIDとエッジのみを含む非分散グラフでは、ユーザのプライバシを保護できない。 分散されていないグラフに高い精度で強力なプライバシを提供する方法はまだオープンだ。 本稿では,DPRR(Degree-Preserving Randomized Response)と呼ばれる新しいLDPアルゴリズムを提案する。 我々のDPRRは、各ユーザの次数を保存するので、エッジ LDP を提供しながらグラフ構造を保ちます。 技術的には、我々のDPRRはWarnerのRR(Randomized Response)と戦略的エッジサンプリングを使用しており、各ユーザのサンプリング確率はLaplacianメカニズムを用いて自動的に調整され、エッジLPPの次数情報を保存する。 また、WarnerのRRとLaplacian機構のノイズを小さくするためのプライバシー予算配分手法を提案する。 GNNのタスクとしてのグラフ分類に着目し、3つのソーシャルグラフデータセットを用いてDPRRを評価する。 実験の結果,DPRRは3つのベースラインを大きく上回り,すべてのデータセットにおいて,適切なプライバシ予算(epsilon=1。 最後に、DPRRにデータ中毒攻撃を導入し、攻撃に対する防御を行う。 これらを3つのソーシャルグラフデータセットを用いて評価し,実験結果について考察する。

Differentially private GNNs (Graph Neural Networks) have been recently studied to provide high accuracy in various tasks on graph data while strongly protecting user privacy. In particular, a recent study proposes an algorithm to protect each user's feature vector in an attributed graph, which includes feature vectors along with node IDs and edges, with LDP (Local Differential Privacy), a strong privacy notion without a trusted third party. However, this algorithm does not protect edges (friendships) in a social graph, hence cannot protect user privacy in unattributed graphs, which include only node IDs and edges. How to provide strong privacy with high accuracy in unattributed graphs remains open. In this paper, we propose a novel LDP algorithm called the DPRR (Degree-Preserving Randomized Response) to provide LDP for edges in GNNs. Our DPRR preserves each user's degree hence a graph structure while providing edge LDP. Technically, our DPRR uses Warner's RR (Randomized Response) and strategic edge sampling, where each user's sampling probability is automatically tuned using the Laplacian mechanism to preserve the degree information under edge LDP. We also propose a privacy budget allocation method to make the noise in both Warner's RR and the Laplacian mechanism small. We focus on graph classification as a task of GNNs and evaluate the DPRR using three social graph datasets. Our experimental results show that the DPRR significantly outperforms three baselines and provides accuracy close to a non-private algorithm in all datasets with a reasonable privacy budget, e.g., epsilon=1. Finally, we introduce data poisoning attacks to our DPRR and a defense against the attacks. We evaluate them using the three social graph datasets and discuss the experimental results.
翻訳日:2024-06-07 04:58:43 公開日:2024-06-01
# 脳グラフ学習のためのグラフニューラルネットワーク:サーベイ

Graph Neural Networks for Brain Graph Learning: A Survey ( http://arxiv.org/abs/2406.02594v1 )

ライセンス: Link先を確認
Xuexiong Luo, Jia Wu, Jian Yang, Shan Xue, Amin Beheshti, Quan Z. Sheng, David McAlpine, Paul Sowman, Alexis Giral, Philip S. Yu, (参考訳) 人間の脳の複雑な構造を探索することは、その機能を理解し、脳の障害を診断するために重要である。 神経画像技術の進歩により、人間の脳をグラフ構造パターンとしてモデル化し、異なる脳領域をノードとして表現し、それらの領域間の機能的関係をエッジとして表現する新たなアプローチが出現した。 さらに、グラフニューラルネットワーク(GNN)は、グラフ構造化データのマイニングにおいて大きな優位性を示している。 脳障害解析のための脳グラフ表現学習のためのGNNの開発が最近注目されている。 しかし、この領域では現在の研究手法を要約する体系的な調査作業が欠如している。 本稿では,GNNを利用した脳グラフ学習の成果をレビューすることで,このギャップを埋めることを目的としている。 まず、一般的な神経画像データに基づく脳グラフモデリングのプロセスを紹介する。 その後、脳グラフのタイプと対象とする研究課題に基づいて、現在の研究を体系的に分類する。 この研究を幅広い興味を持つ研究者が利用できるようにするために、代表的手法と一般的に使用されるデータセットの概要と、その実装源について概説する。 最後に,今後の研究の方向性について考察する。 この調査のリポジトリは \url{https://github.com/XuexiongLuoMQ/Awesome-Brain-Graph-Learning-with-GNNs} で公開されている。

Exploring the complex structure of the human brain is crucial for understanding its functionality and diagnosing brain disorders. Thanks to advancements in neuroimaging technology, a novel approach has emerged that involves modeling the human brain as a graph-structured pattern, with different brain regions represented as nodes and the functional relationships among these regions as edges. Moreover, graph neural networks (GNNs) have demonstrated a significant advantage in mining graph-structured data. Developing GNNs to learn brain graph representations for brain disorder analysis has recently gained increasing attention. However, there is a lack of systematic survey work summarizing current research methods in this domain. In this paper, we aim to bridge this gap by reviewing brain graph learning works that utilize GNNs. We first introduce the process of brain graph modeling based on common neuroimaging data. Subsequently, we systematically categorize current works based on the type of brain graph generated and the targeted research problems. To make this research accessible to a broader range of interested researchers, we provide an overview of representative methods and commonly used datasets, along with their implementation sources. Finally, we present our insights on future research directions. The repository of this survey is available at \url{https://github.com/XuexiongLuoMQ/Awesome-Brain-Graph-Learning-with-GNNs}.
翻訳日:2024-06-06 23:49:24 公開日:2024-06-01
# Slow and Steadyがレースで優勝:ハレとトルトーデスのネットワークでプラスチックを維持する

Slow and Steady Wins the Race: Maintaining Plasticity with Hare and Tortoise Networks ( http://arxiv.org/abs/2406.02596v1 )

ライセンス: Link先を確認
Hojoon Lee, Hyeonseo Cho, Hyunseung Kim, Donghu Kim, Dugki Min, Jaegul Choo, Clare Lyle, (参考訳) 本研究では、ニューラルネットワークにおける一般化能力の喪失について検討し、Ash & Adamsによる温暖化開始実験を再考する。 実験により, 可塑性向上のための一般的な手法として, 訓練性を維持することにより, 一般化のメリットが限定されていることがわかった。 ネットワークを再起動することは効果的であるが、価値ある事前知識を失うリスクもある。 この目的のために,脳の補完学習システムに触発されたHare & Tortoiseを紹介した。 Hare & Tortoiseは、海馬と似た新しい情報に迅速に適応するHareネットワークと、ネオコルテックスに似た知識を徐々に統合するTortoiseネットワークの2つのコンポーネントで構成されている。 周期的にHareネットワークをトルトーゼの重みに再起動させることで、一般的な知識を維持しながら可塑性を保ちます。 Hare & Tortoiseは、Atari-100kベンチマークの高度な強化学習アルゴリズムを改善するために、ネットワークの一般化能力を効果的に維持することができる。 コードはhttps://github.com/dojeon-ai/hare-tortoise.comで公開されている。

This study investigates the loss of generalization ability in neural networks, revisiting warm-starting experiments from Ash & Adams. Our empirical analysis reveals that common methods designed to enhance plasticity by maintaining trainability provide limited benefits to generalization. While reinitializing the network can be effective, it also risks losing valuable prior knowledge. To this end, we introduce the Hare & Tortoise, inspired by the brain's complementary learning system. Hare & Tortoise consists of two components: the Hare network, which rapidly adapts to new information analogously to the hippocampus, and the Tortoise network, which gradually integrates knowledge akin to the neocortex. By periodically reinitializing the Hare network to the Tortoise's weights, our method preserves plasticity while retaining general knowledge. Hare & Tortoise can effectively maintain the network's ability to generalize, which improves advanced reinforcement learning algorithms on the Atari-100k benchmark. The code is available at https://github.com/dojeon-ai/hare-tortoise.
翻訳日:2024-06-06 23:49:24 公開日:2024-06-01
# CoNO:連続力学系のための複雑神経演算子

CoNO: Complex Neural Operator for Continous Dynamical Physical Systems ( http://arxiv.org/abs/2406.02597v1 )

ライセンス: Link先を確認
Karn Tiwari, N M Anoop Krishnan, A P Prathosh, (参考訳) ニューラルネットワークは、無限次元の関数空間間のマップにデータ駆動モデルを拡張する。 これらの演算子は時間領域または周波数領域で効果的に動作するが、周波数特性が時間とともに変化する非定常的空間信号や時間信号に適用した場合、その性能は制限される。 本稿では、FrFT(Fractional Fourier Transform)を用いて積分カーネルをパラメータ化する複雑なニューラルネットワーク(CoNO)を提案する。 理論的には、CoNOの普遍近似能力を証明する。 我々は,正則格子,構造化メッシュ,点雲を含む7つの挑戦的偏微分方程式(PDE)に対して,CoNOを広範囲に評価する。 実証的には、CoNOは一貫して最先端のパフォーマンスを達成しており、平均的な相対的な利益は10.9%である。 さらに、CoNOは優れた性能を示し、ゼロショット超解像やノイズに対する堅牢性など、他の全てのモデルよりも優れている。 CoNOはまた、少量のデータから学ぶ能力も示しています -- トレーニングデータの60%で、次の最高のモデルと同じパフォーマンスを提供します。 さらに、CoNOは連続力学系をモデリングするための堅牢で優れたモデルを示し、科学的な機械学習の補足を提供する。

Neural operators extend data-driven models to map between infinite-dimensional functional spaces. While these operators perform effectively in either the time or frequency domain, their performance may be limited when applied to non-stationary spatial or temporal signals whose frequency characteristics change with time. Here, we introduce Complex Neural Operator (CoNO) that parameterizes the integral kernel using Fractional Fourier Transform (FrFT), better representing non-stationary signals in a complex-valued domain. Theoretically, we prove the universal approximation capability of CoNO. We perform an extensive empirical evaluation of CoNO on seven challenging partial differential equations (PDEs), including regular grids, structured meshes, and point clouds. Empirically, CoNO consistently attains state-of-the-art performance, showcasing an average relative gain of 10.9%. Further, CoNO exhibits superior performance, outperforming all other models in additional tasks such as zero-shot super-resolution and robustness to noise. CoNO also exhibits the ability to learn from small amounts of data -- giving the same performance as the next best model with just 60% of the training data. Altogether, CoNO presents a robust and superior model for modeling continuous dynamical systems, providing a fillip to scientific machine learning.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-01
# パスフィニング問題を解くためのヒューリスティック関数の基礎モデル学習に向けて

Towards Learning Foundation Models for Heuristic Functions to Solve Pathfinding Problems ( http://arxiv.org/abs/2406.02598v1 )

ライセンス: Link先を確認
Vedant Khandelwal, Amit Sheth, Forest Agostinelli, (参考訳) パスフィニング問題は、ロボティクス、計算科学、自然科学で見られる。 これらの問題を解決するには、新しい問題領域ごとにディープニューラルネットワーク(DNN)をトレーニングする必要がある。 本研究では、深層強化学習を活用して、新たなドメインにシームレスに適応するヒューリスティック機能を学習する基礎モデルを提案する。 DeepCubeAに基づいて、ドメインの状態遷移情報をヒューリスティック関数として提供し、適応性を向上させることにより、モデルを強化する。 15個のアクション空間変化領域に対するパズル生成器を用いることで、我々のモデルが目に見えない領域を一般化し解決する能力を実証する。 R-squared と Concordance correlation Coefficient で示されるように,学習領域における真理ヒューリスティック値と基底領域間の強い相関関係が得られた。 これらの結果は、複雑なパスフィニング問題におけるAI駆動型ソリューションの効率性と適応性に関する新しい標準を確立するための基礎モデルの可能性を強調している。

Pathfinding problems are found throughout robotics, computational science, and natural sciences. Traditional methods to solve these require training deep neural networks (DNNs) for each new problem domain, consuming substantial time and resources. This study introduces a novel foundation model, leveraging deep reinforcement learning to train heuristic functions that seamlessly adapt to new domains without further fine-tuning. Building upon DeepCubeA, we enhance the model by providing the heuristic function with the domain's state transition information, improving its adaptability. Utilizing a puzzle generator for the 15-puzzle action space variation domains, we demonstrate our model's ability to generalize and solve unseen domains. We achieve a strong correlation between learned and ground truth heuristic values across various domains, as evidenced by robust R-squared and Concordance Correlation Coefficient metrics. These results underscore the potential of foundation models to establish new standards in efficiency and adaptability for AI-driven solutions in complex pathfinding problems.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-01
# 線形プログラミングによるプライバシーを考慮したランダム化量子化

Privacy-Aware Randomized Quantization via Linear Programming ( http://arxiv.org/abs/2406.02599v1 )

ライセンス: Link先を確認
Zhongteng Cai, Xueru Zhang, Mohammad Mahdi Khalili, (参考訳) GaussianやLaplaceといった異なるプライバシメカニズムは、個々のプライバシを保存するためにデータ分析に広く使用されている。 しかし、それらは主に連続的な出力のために設計されており、個別の値が必要なシナリオには適していない。 近年、差分プライバシーの下で離散的な出力を生成するために様々な量子化機構が提案されているが、結果は偏りがあるか、精度とプライバシーのトレードオフが劣っている。 本稿では,偏りがなく,偏りのない量子化機構のファミリーを提案する。 高い自由度を持ち、既存のメカニズムが我々の特別な場合とみなすことができることを示す。 最適メカニズムを見つけるために,線形プログラミングツールを用いて効率よく解ける線形最適化を定式化する。 実験の結果,提案手法はベースラインよりもプライバシーと精度のトレードオフが良好であることが確認された。

Differential privacy mechanisms such as the Gaussian or Laplace mechanism have been widely used in data analytics for preserving individual privacy. However, they are mostly designed for continuous outputs and are unsuitable for scenarios where discrete values are necessary. Although various quantization mechanisms were proposed recently to generate discrete outputs under differential privacy, the outcomes are either biased or have an inferior accuracy-privacy trade-off. In this paper, we propose a family of quantization mechanisms that is unbiased and differentially private. It has a high degree of freedom and we show that some existing mechanisms can be considered as special cases of ours. To find the optimal mechanism, we formulate a linear optimization that can be solved efficiently using linear programming tools. Experiments show that our proposed mechanism can attain a better privacy-accuracy trade-off compared to baselines.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-01
# エッジ機械学習におけるデータ品質:現状調査

Data Quality in Edge Machine Learning: A State-of-the-Art Survey ( http://arxiv.org/abs/2406.02600v1 )

ライセンス: Link先を確認
Mohammed Djameleddine Belgoumri, Mohamed Reda Bouadjenek, Sunil Aryal, Hakim Hacid, (参考訳) 機械学習(ML)を使ってトレーニングされたデータ駆動人工知能(AI)システムは、リコメンデーションシステム、自動運転技術、医療診断、金融サービス、パーソナライズされたマーケティングなど、私たちの生活の絶え間なく増加する部分(サイズと重要性)を形作っている。 一方で、これらのシステムの影響は、特にトレーニングに使用されるデータにおいて、高い品質の基準を課している。 一方、エッジコンピューティングとIoTデバイスの普及により、データ品質(DQ)の標準を確立し、維持することが難しくなり、MLモデルのトレーニングとデプロイへの採用が増加している。 限られたリソース、分散データストレージ、処理によって特徴づけられるエッジ環境の性質は、データ関連の問題を悪化させ、より頻繁に、深刻で、検出と緩和が困難になる。 これらの観察から、エッジMLのDQ研究は、現在および将来のAIシステムの安全性と堅牢性のための、重要かつ緊急な探索トラックであることが示された。 この事実にもかかわらず、エッジMLのDQ研究はまだ初期段階にある。 この主題に関する文献は、現在も断片化され、様々な研究コミュニティに分散しており、現在まで包括的な調査は行われていない。 そこで本稿は,エッジMLのためのDQの傘の下でグループ化できる複数の分野から,既存の文献のグローバルなビューを提供することによって,このギャップを埋めることを目的としている。 具体的には、エッジコンピューティングにおけるデータ品質の仮定義を示し、DQ次元のセットを確立するために使用する。 我々は、既存の緩和ソリューションを含む、各次元を詳細に探求する。

Data-driven Artificial Intelligence (AI) systems trained using Machine Learning (ML) are shaping an ever-increasing (in size and importance) portion of our lives, including, but not limited to, recommendation systems, autonomous driving technologies, healthcare diagnostics, financial services, and personalized marketing. On the one hand, the outsized influence of these systems imposes a high standard of quality, particularly in the data used to train them. On the other hand, establishing and maintaining standards of Data Quality (DQ) becomes more challenging due to the proliferation of Edge Computing and Internet of Things devices, along with their increasing adoption for training and deploying ML models. The nature of the edge environment -- characterized by limited resources, decentralized data storage, and processing -- exacerbates data-related issues, making them more frequent, severe, and difficult to detect and mitigate. From these observations, it follows that DQ research for edge ML is a critical and urgent exploration track for the safety and robust usefulness of present and future AI systems. Despite this fact, DQ research for edge ML is still in its infancy. The literature on this subject remains fragmented and scattered across different research communities, with no comprehensive survey to date. Hence, this paper aims to fill this gap by providing a global view of the existing literature from multiple disciplines that can be grouped under the umbrella of DQ for edge ML. Specifically, we present a tentative definition of data quality in Edge computing, which we use to establish a set of DQ dimensions. We explore each dimension in detail, including existing solutions for mitigation.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-01
# バックドア型教師モデルに対する特徴変数に基づくロバスト知識蒸留

Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model ( http://arxiv.org/abs/2406.03409v1 )

ライセンス: Link先を確認
Jinyin Chen, Xiaoming Zhao, Haibin Zheng, Xiao Li, Sheng Xiang, Haifeng Guo, (参考訳) 十分に訓練されたディープニューラルネットワーク(DNN)に適合したモデル圧縮は、コンピューティングリソースの制限された機器、特にエッジデバイスに特に注目されている。 知識蒸留 (KD) は, 公的なプラットフォーム上で広く訓練された教師モデルから, 軽量な学生モデルを得ることによって, エッジ配置の圧縮技術として広く利用されている技術の一つである。 しかし、KDの過程において、教師モデルのバックドアが学生モデルに移管されることは実証的に認識されている。 多くのKD法が提案されているが、そのほとんどは頑健さを考慮せずに高性能な学生モデルの蒸留に焦点を当てている。 さらに、KDテクニックを効果的なバックドア緩和ツールとして採用する研究もあるが、同時にモデル圧縮を行うことはできなかった。 その結果、学生モデルの性能とバックドア緩和という、堅牢なKDの2つの目的を十分に達成することは、依然として未解決の問題である。 本稿では,ロバストKDを提案する。ロバストKDは,特徴分散に基づいてバックドアを緩和しながらモデルを圧縮する,堅牢な知識蒸留法である。 特に、RobustKDは、従来の3つの重要な側面を区別している: 有効性: 解毒後の教師モデルの特徴マップを蒸留することにより、学生モデルの主タスク性能は教師モデルのそれと同等になる; 堅牢性: 教師モデルと生徒モデルの特徴的差異を減らすことにより、バックドア型教師モデルのバックドアを緩和する; 汎用性: RobustKDは、複数のデータモデル(例えば、WRN 28-4, Pyramid-200)と多様なDNN(例えば、ResNet50, MobileNet)の面において、優れたパフォーマンスを持つ。

Benefiting from well-trained deep neural networks (DNNs), model compression have captured special attention for computing resource limited equipment, especially edge devices. Knowledge distillation (KD) is one of the widely used compression techniques for edge deployment, by obtaining a lightweight student model from a well-trained teacher model released on public platforms. However, it has been empirically noticed that the backdoor in the teacher model will be transferred to the student model during the process of KD. Although numerous KD methods have been proposed, most of them focus on the distillation of a high-performing student model without robustness consideration. Besides, some research adopts KD techniques as effective backdoor mitigation tools, but they fail to perform model compression at the same time. Consequently, it is still an open problem to well achieve two objectives of robust KD, i.e., student model's performance and backdoor mitigation. To address these issues, we propose RobustKD, a robust knowledge distillation that compresses the model while mitigating backdoor based on feature variance. Specifically, RobustKD distinguishes the previous works in three key aspects: (1) effectiveness: by distilling the feature map of the teacher model after detoxification, the main task performance of the student model is comparable to that of the teacher model; (2) robustness: by reducing the characteristic variance between the teacher model and the student model, it mitigates the backdoor of the student model under backdoored teacher model scenario; (3) generic: RobustKD still has good performance in the face of multiple data models (e.g., WRN 28-4, Pyramid-200) and diverse DNNs (e.g., ResNet50, MobileNet).
翻訳日:2024-06-06 17:22:00 公開日:2024-06-01
# 幾何学的場を用いたロバストバイハーモニックスキニング

Robust Biharmonic Skinning Using Geometric Fields ( http://arxiv.org/abs/2406.00238v1 )

ライセンス: Link先を確認
Ana Dodik, Vincent Sitzmann, Justin Solomon, Oded Stein, (参考訳) スキニングはアニメーションの文字をリグ&デフォームし、低次シミュレーションを計算し、幾何学処理の機能を定義する一般的な方法である。 スキンニングの手法はメッシュにまたがる各自由度の影響を分配する重み関数に依存している。 自動スキンニング法は,これらの重み関数を最小限のユーザ入力で生成する。 この定式化は、表面内部の体積を四面体化し、メッシュ化アーティファクト、四面体化失敗の可能性、および閉じていない表面の重みを発生できないことをもたらす。 メッシュフリーでロバストな自動スキンニング手法を導入し、ボリュームメッシュのない最先端のスキンニングウェイトに匹敵する高品質なスキンニングウェイトを生成する。 提案手法は,現行の手法が失敗する開放面や三角形のスープでも確実に機能する。 このことは、双調和エネルギーを最適化しながら有限要素の必要性を回避できるラグランジアン表現を用いて達成する。

Skinning is a popular way to rig and deform characters for animation, to compute reduced-order simulations, and to define features for geometry processing. Methods built on skinning rely on weight functions that distribute the influence of each degree of freedom across the mesh. Automatic skinning methods generate these weight functions with minimal user input, usually by solving a variational problem on a mesh whose boundary is the skinned surface. This formulation necessitates tetrahedralizing the volume inside the surface, which brings with it meshing artifacts, the possibility of tetrahedralization failure, and the impossibility of generating weights for surfaces that are not closed. We introduce a mesh-free and robust automatic skinning method that generates high-quality skinning weights comparable to the current state of the art without volumetric meshes. Our method reliably works even on open surfaces and triangle soups where current methods fail. We achieve this through the use of a Lagrangian representation for skinning weights, which circumvents the need for finite elements while optimizing the biharmonic energy.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# パルス結合型ニューラルネットワークのコンピュータビジョンと画像処理への応用

A Review of Pulse-Coupled Neural Network Applications in Computer Vision and Image Processing ( http://arxiv.org/abs/2406.00239v1 )

ライセンス: Link先を確認
Nurul Rafi, Pablo Rivas, (参考訳) 哺乳類の視覚野にインスパイアされた神経モデルの研究は、パルス結合ニューラルネットワーク(PCNN)のような多くのスパイク神経ネットワークにつながった。 これらのモデルは振動する時空間モデルであり、画像によって刺激され、いくつかの時間ベースの応答を生成する。 本稿はPCNNの最先端技術について概説し、その数学的定式化、変種、および文献に見られるその他の単純化について述べる。 我々は,PCNNアーキテクチャが画像分割,エッジ検出,医用画像,画像融合,画像圧縮,物体認識,リモートセンシングなど,基本的な画像処理とコンピュータビジョンの課題にうまく取り組んできたアプリケーションをいくつか提示する。 これらのアプリケーションで得られた結果は、PCNNアーキテクチャが様々なコンピュータビジョンタスクに関連する有用な知覚情報を生成することを示唆している。

Research in neural models inspired by mammal's visual cortex has led to many spiking neural networks such as pulse-coupled neural networks (PCNNs). These models are oscillating, spatio-temporal models stimulated with images to produce several time-based responses. This paper reviews PCNN's state of the art, covering its mathematical formulation, variants, and other simplifications found in the literature. We present several applications in which PCNN architectures have successfully addressed some fundamental image processing and computer vision challenges, including image segmentation, edge detection, medical imaging, image fusion, image compression, object recognition, and remote sensing. Results achieved in these applications suggest that the PCNN architecture generates useful perceptual information relevant to a wide variety of computer vision tasks.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# 大規模言語モデルにおける脆弱性と保護の探索:調査

Exploring Vulnerabilities and Protections in Large Language Models: A Survey ( http://arxiv.org/abs/2406.00240v1 )

ライセンス: Link先を確認
Frank Weizhen Liu, Chenhui Hu, (参考訳) 大規模言語モデル(LLM)は、さまざまなAIアプリケーションにおいて、ますます重要なコンポーネントになりつつあるため、セキュリティ上の脆弱性と防御メカニズムの有効性を理解することが不可欠である。 本調査では, LLM のセキュリティ上の課題について検討し, プロンプトハッキングとアタックの2つの主要な分野に注目した。 Prompt Hackingの下で、私たちはPrompt InjectionとJailbreaking Attacksを調査し、それらがどのように機能するか、その潜在的な影響、そしてそれらを緩和する方法について議論する。 同様に、敵攻撃を分析し、それらをデータポジショニングアタックとバックドアアタックに分解する。 この構造化された検査は、これらの脆弱性と実装可能な防衛戦略との関係を理解するのに役立ちます。 この調査では、これらのセキュリティ上の課題を強調し、これらの脅威からLLMを保護するための堅牢な防御フレームワークについて論じている。 これらのセキュリティ問題の詳細を明らかにすることで、この調査は高度な攻撃に耐えられるレジリエントなAIシステム構築に関する広範な議論に貢献する。

As Large Language Models (LLMs) increasingly become key components in various AI applications, understanding their security vulnerabilities and the effectiveness of defense mechanisms is crucial. This survey examines the security challenges of LLMs, focusing on two main areas: Prompt Hacking and Adversarial Attacks, each with specific types of threats. Under Prompt Hacking, we explore Prompt Injection and Jailbreaking Attacks, discussing how they work, their potential impacts, and ways to mitigate them. Similarly, we analyze Adversarial Attacks, breaking them down into Data Poisoning Attacks and Backdoor Attacks. This structured examination helps us understand the relationships between these vulnerabilities and the defense strategies that can be implemented. The survey highlights these security challenges and discusses robust defensive frameworks to protect LLMs against these threats. By detailing these security issues, the survey contributes to the broader discussion on creating resilient AI systems that can resist sophisticated attacks.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# エントロピー的アクティベーションステアリングによる大規模言語モデルエージェントの制御

Controlling Large Language Model Agents with Entropic Activation Steering ( http://arxiv.org/abs/2406.00244v1 )

ライセンス: Link先を確認
Nate Rahn, Pierluca D'Oro, Marc G. Bellemare, (参考訳) 事前訓練された大規模言語モデル(LLM)の汎用性は、文脈内学習エージェントとしての使用に対する関心を高めている。 成功させるためには、このようなエージェントは環境との限られた相互作用に基づいて目標を達成する方法についての信念を定めなければならない。 本稿では,LLMエージェントがこれらの信念に対してどのように作用するかを,制御された逐次意思決定タスクにおける実験により検討する。 まず、LSMのエージェントは過信であり、不十分な証拠に基づいて何をすべきかという強い結論を導き、結果として爆発的な振る舞いが不十分になる。 我々は,この現象を深く掘り下げ,LLMからのサンプリングによって引き起こされる作用分布のエントロピーの崩壊からどのように現れるかを示す。 次に,既存のトークンレベルのサンプリング技術は,エージェントの探索に不十分であることを示す。 この事実に感銘を受けて, テキスト内LCMエージェントのアクティベーションステアリング法であるEntropic Activation Steering (EAST)を導入する。 EASTは、エントロピー重み付けされた表現の組み合わせとしてステアリングベクトルを計算し、前方通過中にその活性化に介入することで、LDMエージェントの動作に対する不確実性を操作する。 EAST は LLM エージェントの作用のエントロピーを確実に増加させ,より爆発的な挙動を生じさせることを示す。 最後に、EASTは、LLMエージェントが表現する主観的不確実性を修正し、LLMエージェントがそれらの決定に対して不確実性をどう表現するかを解釈し、制御する方法を舗装する。

The generality of pretrained large language models (LLMs) has prompted increasing interest in their use as in-context learning agents. To be successful, such agents must form beliefs about how to achieve their goals based on limited interaction with their environment, resulting in uncertainty about the best action to take at each step. In this paper, we study how LLM agents form and act on these beliefs by conducting experiments in controlled sequential decision-making tasks. To begin, we find that LLM agents are overconfident: They draw strong conclusions about what to do based on insufficient evidence, resulting in inadequately explorative behavior. We dig deeper into this phenomenon and show how it emerges from a collapse in the entropy of the action distribution implied by sampling from the LLM. We then demonstrate that existing token-level sampling techniques are by themselves insufficient to make the agent explore more. Motivated by this fact, we introduce Entropic Activation Steering (EAST), an activation steering method for in-context LLM agents. EAST computes a steering vector as an entropy-weighted combination of representations, and uses it to manipulate an LLM agent's uncertainty over actions by intervening on its activations during the forward pass. We show that EAST can reliably increase the entropy in an LLM agent's actions, causing more explorative behavior to emerge. Finally, EAST modifies the subjective uncertainty an LLM agent expresses, paving the way to interpreting and controlling how LLM agents represent uncertainty about their decisions.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# 製品検索における関連判断のための大規模言語モデル

Large Language Models for Relevance Judgment in Product Search ( http://arxiv.org/abs/2406.00247v1 )

ライセンス: Link先を確認
Navid Mehrdad, Hrushikesh Mohapatra, Mossaab Bagdouri, Prijith Chandran, Alessandro Magnani, Xunfan Cai, Ajit Puthenputhussery, Sachin Yadav, Tony Lee, ChengXiang Zhai, Ciya Liao, (参考訳) 検索クエリに対する検索および再ランク項目の高関連性は、製品検索の成功の基盤であるが、クエリに対するアイテムの関連性の測定は、製品情報検索において最も困難な課題の1つであり、製品検索の品質は、利用可能な関連ラベル付きデータの正確性とスケールの影響を強く受けている。 本稿では,大規模言語モデル (LLM) を利用したクエリ-イム対 (QIP) の関連判断を大規模に行うための一連の手法を提案する。 マルチミリオンQIPのユニークなデータセットを用いて,低ランク適応 (LoRA) と低ランク適応 (LoRA) を併用した10億パラメトリックLCMの微調整のためのハイパーパラメータのテストと最適化を行い,LCMファインタニングにおけるアイテム属性の結合と促進の様々なモードについて検討し,関連性予測の品質に対するアイテム属性の包摂性を考慮したトレードオフを検討する。 我々は,従来のLLMのベースライン,および市販のモデルに対して,人間の関連性評価値と同等の関連アノテーションに対して,大幅に改善されていることを示す。 本研究は,製品検索における関連判断の自動化の分野への直接的な影響を示唆するものである。

High relevance of retrieved and re-ranked items to the search query is the cornerstone of successful product search, yet measuring relevance of items to queries is one of the most challenging tasks in product information retrieval, and quality of product search is highly influenced by the precision and scale of available relevance-labelled data. In this paper, we present an array of techniques for leveraging Large Language Models (LLMs) for automating the relevance judgment of query-item pairs (QIPs) at scale. Using a unique dataset of multi-million QIPs, annotated by human evaluators, we test and optimize hyper parameters for finetuning billion-parameter LLMs with and without Low Rank Adaption (LoRA), as well as various modes of item attribute concatenation and prompting in LLM finetuning, and consider trade offs in item attribute inclusion for quality of relevance predictions. We demonstrate considerable improvement over baselines of prior generations of LLMs, as well as off-the-shelf models, towards relevance annotations on par with the human relevance evaluators. Our findings have immediate implications for the growing field of relevance judgment automation in product search.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# メタラーニングにおけるプライバシー問題:モデルに依存しないメタラーニングに関する研究

Privacy Challenges in Meta-Learning: An Investigation on Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2406.00249v1 )

ライセンス: Link先を確認
Mina Rafiei, Mohammadmahdi Maheri, Hamid R. Rabiee, (参考訳) メタラーニングには複数の学習者が含まれ、それぞれが特定のタスクに特化し、データ制約された環境で協調する。 現在のメタラーニング手法では、タスク学習者は、サポートセットと呼ばれるセンシティブなデータからモデルをローカルに学習する。 これらのタスク学習者はその後、勾配や損失値などのモデル関連情報をメタラーナーで共有する。 メタラーナーはこの情報を使ってメタ知識を更新する。 明示的なデータ共有がないにもかかわらず、プライバシーの懸念は続いている。 本稿では,メタラーニングアルゴリズム,特にモデル非依存メタラーニング(MAML)における潜在的なデータ漏洩について検討する。 MAMLでは、勾配はメタルナーとタスクラーナーの間で共有される。 主な目的は、勾配とタスクデータセットに関する情報を精査することである。 その後、サポートとクエリセットを含むタスクデータセットを対象とした、メンバシップ推論攻撃を提案する。 最後に,タスクデータのプライバシ保護と潜在的な攻撃防止を目的とした各種ノイズ注入手法について検討する。 実験により,MAMLに対するこれらの攻撃の有効性と,それに対応する適切なノイズ注入法の有効性が示された。

Meta-learning involves multiple learners, each dedicated to specific tasks, collaborating in a data-constrained setting. In current meta-learning methods, task learners locally learn models from sensitive data, termed support sets. These task learners subsequently share model-related information, such as gradients or loss values, which is computed using another part of the data termed query set, with a meta-learner. The meta-learner employs this information to update its meta-knowledge. Despite the absence of explicit data sharing, privacy concerns persist. This paper examines potential data leakage in a prominent metalearning algorithm, specifically Model-Agnostic Meta-Learning (MAML). In MAML, gradients are shared between the metalearner and task-learners. The primary objective is to scrutinize the gradient and the information it encompasses about the task dataset. Subsequently, we endeavor to propose membership inference attacks targeting the task dataset containing support and query sets. Finally, we explore various noise injection methods designed to safeguard the privacy of task data and thwart potential attacks. Experimental results demonstrate the effectiveness of these attacks on MAML and the efficacy of proper noise injection methods in countering them.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# 合理性を考慮したマルチモーダル・マルチエージェントシステム:サーベイ

Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey ( http://arxiv.org/abs/2406.00252v1 )

ライセンス: Link先を確認
Bowen Jiang, Yangxinyu Xie, Xiaomeng Wang, Weijie J. Su, Camillo J. Taylor, Tanwi Mallick, (参考訳) 合理性(Rationality)とは、論理的な思考と、証拠や論理的な規則に沿った決定によって特徴づけられる、理性によって導かれる性質である。 この品質は、ソリューションが十分に確立され、体系的に導出されることを保証するため、効果的な問題解決に不可欠である。 大きな言語モデル(LLM)が顕著な精度で人間に似たテキストを生成するのに進歩しているにもかかわらず、トレーニングデータから継承されたバイアス、異なるコンテキスト間での不整合、複数のコンテキスト層を含む複雑なシナリオを理解するのが困難である。 したがって、近年の研究は、一貫性と信頼性を高めるために、様々な種類のデータやツールと協調して働く複数のエージェントの強度を活用しようとしている。 そこで本稿は,マルチモーダルシステムとマルチエージェントシステムが合理性に向かって進んでいるかを理解することを目的として,現状を調査し,合理性の観点から単モーダルシステムと単モーダルシステムの進歩を特定し,オープンな問題と今後の方向性について議論する。 https://github.com/bowen-upenn/MMMA_Rationality.comでオープンリポジトリをメンテナンスしています。

Rationality is the quality of being guided by reason, characterized by logical thinking and decision-making that align with evidence and logical rules. This quality is essential for effective problem-solving, as it ensures that solutions are well-founded and systematically derived. Despite the advancements of large language models (LLMs) in generating human-like text with remarkable accuracy, they present biases inherited from the training data, inconsistency across different contexts, and difficulty understanding complex scenarios involving multiple layers of context. Therefore, recent research attempts to leverage the strength of multiple agents working collaboratively with various types of data and tools for enhanced consistency and reliability. To that end, this paper aims to understand whether multi-modal and multi-agent systems are advancing toward rationality by surveying the state-of-the-art works, identifying advancements over single-agent and single-modal systems in terms of rationality, and discussing open problems and future directions. We maintain an open repository at https://github.com/bowen-upenn/MMMA_Rationality.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# 特徴差分プライバシを用いたオーバー・ザ・エア協調推論

Over-the-Air Collaborative Inference with Feature Differential Privacy ( http://arxiv.org/abs/2406.00256v1 )

ライセンス: Link先を確認
Mohamed Seif, Yuqi Nie, Andrea Goldsmith, Vincent Poor, (参考訳) 次世代ネットワークにおける協調推論は、自律運転、個人識別、アクティビティ分類を含む人工知能(AI)アプリケーションを強化することができる。 この方法は3段階のプロセスを含む。 a) センシングによるデータ取得 b)特徴抽出,及び c) 送信のための特徴符号化 抽出した特徴の伝達は、機密性の高い個人情報を暴露する危険性を伴う。 この問題に対処するため,新たなプライバシー保護型協調推論機構が開発されている。 このメカニズムの下で、ネットワーク内の各エッジデバイスは、推論のために中央サーバに送信する前に抽出した機能のプライバシを保護する。 このメカニズムは、効果的な推論性能を確保しながら、2つの主要な目的を達成することを目的としている。 1)通信のオーバーヘッドを減らし 2)機能伝達時の厳格なプライバシー保証を維持すること。

Collaborative inference in next-generation networks can enhance Artificial Intelligence (AI) applications, including autonomous driving, personal identification, and activity classification. This method involves a three-stage process: a) data acquisition through sensing, b) feature extraction, and c) feature encoding for transmission. Transmission of the extracted features entails the potential risk of exposing sensitive personal data. To address this issue, in this work a new privacy-protecting collaborative inference mechanism is developed. Under this mechanism, each edge device in the network protects the privacy of extracted features before transmitting them to a central server for inference. This mechanism aims to achieve two main objectives while ensuring effective inference performance: 1) reducing communication overhead, and 2) maintaining strict privacy guarantees during features transmission.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# 大規模視覚言語モデルはチャート理解と推論の課題に到達しているか? : LVLMの能力と限界に関する広範囲にわたる調査

Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs ( http://arxiv.org/abs/2406.00257v1 )

ライセンス: Link先を確認
Mohammed Saidul Islam, Raian Rahman, Ahmed Masry, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem, Enamul Hoque, (参考訳) 自然言語は、バーやラインチャートのようなデータ視覚化のためのコミュニケーションの強力な補完的モダリティである。 自然言語を用いたチャートベースの推論を容易にするため,近年,チャート質問応答,チャート要約,ファクトチェックなど,さまざまなダウンストリームタスクが導入されている。 これらのタスクはユニークな課題であり、視覚言語推論とグラフデータテーブル、ビジュアルエンコーディング、自然言語プロンプトの微妙な理解の両方を要求する。 さまざまなNLPタスクにわたるLarge Language Models (LLMs) の成功にもかかわらず、データ視覚化の領域におけるそれらの能力と限界は、おそらくはマルチモーダル能力の欠如のために、未調査のままである。 本稿では,このギャップを埋めるために,最近開発された大規模視覚言語モデル(LVLM)の総合的な評価を行った。 GPT-4VやGeminiを含むLVLMの総合的な評価を4つの主要なチャート推論タスクで行う。 さらに,様々なチャート上でLVLMの性能を定性的に評価し,その強度と弱点を徹底的に解析することを目的とした。 以上の結果から,LVLMは高レベルのデータインサイトをカバーする流動的なテキストを生成する上で,幻覚,事実誤差,データバイアスといった一般的な問題に直面していることがわかった。 我々は、チャート理解タスクの重要な強みと限界を強調し、将来の研究に対する洞察を提供する。

Natural language is a powerful complementary modality of communication for data visualizations, such as bar and line charts. To facilitate chart-based reasoning using natural language, various downstream tasks have been introduced recently such as chart question answering, chart summarization, and fact-checking with charts. These tasks pose a unique challenge, demanding both vision-language reasoning and a nuanced understanding of chart data tables, visual encodings, and natural language prompts. Despite the recent success of Large Language Models (LLMs) across diverse NLP tasks, their abilities and limitations in the realm of data visualization remain under-explored, possibly due to their lack of multi-modal capabilities. To bridge the gap, this paper presents the first comprehensive evaluation of the recently developed large vision language models (LVLMs) for chart understanding and reasoning tasks. Our evaluation includes a comprehensive assessment of LVLMs, including GPT-4V and Gemini, across four major chart reasoning tasks. Furthermore, we perform a qualitative evaluation of LVLMs' performance on a diverse range of charts, aiming to provide a thorough analysis of their strengths and weaknesses. Our findings reveal that LVLMs demonstrate impressive abilities in generating fluent texts covering high-level data insights while also encountering common problems like hallucinations, factual errors, and data bias. We highlight the key strengths and limitations of chart comprehension tasks, offering insights for future research.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# Artemis: 複雑なビデオにおける参照理解を目指して

Artemis: Towards Referential Understanding in Complex Videos ( http://arxiv.org/abs/2406.00258v1 )

ライセンス: Link先を確認
Jihao Qiu, Yuan Zhang, Xi Tang, Lingxi Xie, Tianren Ma, Pengyu Yan, David Doermann, Qixiang Ye, Yunjie Tian, (参考訳) ビデオには、オブジェクト記述、アクション、インタラクションなどを含む豊富な視覚情報が含まれているが、既存のマルチモーダルな大規模言語モデル(MLLM)は、ビデオベースの参照のような参照理解のシナリオでは不足している。 本稿では,ビデオに基づく参照理解をより微細なレベルに押し上げるMLLMであるArtemisを紹介する。 ビデオが与えられたとき、Artemisはどんなビデオフレームにもバウンディングボックスのある自然言語の質問を受け取り、ビデオ全体の中で参照対象を説明する。 この目標を達成するための鍵は、コンパクトでターゲット固有のビデオ特徴を抽出することであり、そこでは、ビデオから時空間の特徴を追跡して選択することで、安定したベースラインを設定する。 新たに確立されたVideoRef45Kデータセット上で,45KビデオQAペアを用いてArtemisをトレーニングし,計算効率のよい3段階トレーニング手順を設計する。 結果は量的にも質的にも有望です。 さらに,より複雑なシナリオを理解するために,ビデオグラウンドやテキスト要約ツールとの統合も可能であることを示す。 コードとデータはhttps://github.com/qiujihao19/Artemis.comで公開されている。

Videos carry rich visual information including object description, action, interaction, etc., but the existing multimodal large language models (MLLMs) fell short in referential understanding scenarios such as video-based referring. In this paper, we present Artemis, an MLLM that pushes video-based referential understanding to a finer level. Given a video, Artemis receives a natural-language question with a bounding box in any video frame and describes the referred target in the entire video. The key to achieving this goal lies in extracting compact, target-specific video features, where we set a solid baseline by tracking and selecting spatiotemporal features from the video. We train Artemis on the newly established VideoRef45K dataset with 45K video-QA pairs and design a computationally efficient, three-stage training procedure. Results are promising both quantitatively and qualitatively. Additionally, we show that \model can be integrated with video grounding and text summarization tools to understand more complex scenarios. Code and data are available at https://github.com/qiujihao19/Artemis.
翻訳日:2024-06-06 08:04:10 公開日:2024-06-01
# PuzzleFusion++: DenoiseとVerifyによる自動凝集型3Dフラクチャアセンブリ

PuzzleFusion++: Auto-agglomerative 3D Fracture Assembly by Denoise and Verify ( http://arxiv.org/abs/2406.00259v1 )

ライセンス: Link先を確認
Zhengqing Wang, Jiacheng Chen, Yasutaka Furukawa, (参考訳) 本稿では,人間が難解な空間パズルを解く方法に類似した,新しい「自動凝集型」3次元フラクチャーアセンブリ手法であるPuzzleFusion++を提案する。 個々の断片から始まるアプローチ 1) フラグメントをアグリメティブクラスタリングに似た大きなグループにアライメントし、マージする。 2) 自動回帰法に似たアセンブリの完了時に反復的にプロセスを繰り返す。 具体的には、拡散モデルがフラグメントの6-DoFアライメントパラメータを同時に認知し、トランスフォーマーモデルがペアワイズアライメントを検証してマージし、そのプロセスが反復的に繰り返される。 Breaking Badデータセットに関する大規模な実験によると、PuzzleFusion++はすべてのメトリクス、特に部分精度が10%以上、Chamfer距離が50%以上、他の最先端技術よりも優れています。 コードはプロジェクトのページで公開されます。

This paper proposes a novel "auto-agglomerative" 3D fracture assembly method, PuzzleFusion++, resembling how humans solve challenging spatial puzzles. Starting from individual fragments, the approach 1) aligns and merges fragments into larger groups akin to agglomerative clustering and 2) repeats the process iteratively in completing the assembly akin to auto-regressive methods. Concretely, a diffusion model denoises the 6-DoF alignment parameters of the fragments simultaneously, and a transformer model verifies and merges pairwise alignments into larger ones, whose process repeats iteratively. Extensive experiments on the Breaking Bad dataset show that PuzzleFusion++ outperforms all other state-of-the-art techniques by significant margins across all metrics, in particular by over 10% in part accuracy and 50% in Chamfer distance. The code will be available on our project page: https://puzzlefusion-plusplus.github.io.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# 等変表現を用いたコントラスト学習

Contrastive Learning Via Equivariant Representation ( http://arxiv.org/abs/2406.00262v1 )

ライセンス: Link先を確認
Sifan Song, Jinfeng Wang, Qiaochu Zhao, Xiang Li, Dufan Wu, Angelos Stefanidis, Jionglong Su, S. Kevin Zhou, Quanzheng Li, (参考訳) Invariant-based Contrastive Learning (ICL) 法は様々な領域で優れた性能を発揮している。 しかし、歪み(増大)に関連する情報に対する潜時空間表現が欠如しているため、下流タスクのトレーニング効率と堅牢性に関して、ICLは準最適である。 近年の研究では、コントラスト学習(CL)に同値を導入することにより、全体的な性能が向上することが示唆されている。 本稿では,CLの有効性向上における拡張戦略と等価性の役割を再考する。 本稿では,多種多様な主要なCLメソッドやモデルフレームワークに対して,任意の複雑性の増大戦略と互換性のある,新しいEquivariant-based Contrastive Learning (ECL)フレームワークであるCLeVERを提案する。 実験の結果,CLeVERはデータから同変情報を効果的に抽出し,組み込むことで,下流タスクにおけるベースラインモデルのトレーニング効率とロバスト性を向上させることができた。

Invariant-based Contrastive Learning (ICL) methods have achieved impressive performance across various domains. However, the absence of latent space representation for distortion (augmentation)-related information in the latent space makes ICL sub-optimal regarding training efficiency and robustness in downstream tasks. Recent studies suggest that introducing equivariance into Contrastive Learning (CL) can improve overall performance. In this paper, we rethink the roles of augmentation strategies and equivariance in improving CL efficacy. We propose a novel Equivariant-based Contrastive Learning (ECL) framework, CLeVER (Contrastive Learning Via Equivariant Representation), compatible with augmentation strategies of arbitrary complexity for various mainstream CL methods and model frameworks. Experimental results demonstrate that CLeVER effectively extracts and incorporates equivariant information from data, thereby improving the training efficiency and robustness of baseline models in downstream tasks.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# グラフ畳み込みネットワークによる直立調整

Upright adjustment with graph convolutional networks ( http://arxiv.org/abs/2406.00263v1 )

ライセンス: Link先を確認
Raehyuk Jung, Sungmin Cho, Junseok Kwon, (参考訳) 本稿では,360度画像のアップライト調整のための新しい手法を提案する。 我々のネットワークは、畳み込みニューラルネットワーク(CNN)とグラフ畳み込みニューラルネットワーク(GCN)の2つのモジュールから構成される。 入力360画像は、視覚特徴抽出のためにCNNで処理され、抽出された特徴マップを、入力の球面表現を求めるグラフに変換する。 また、球面上で定義された離散確率分布の問題に対処する新たな損失関数を導入する。 実験の結果,本手法は完全連結方式よりも優れていた。

We present a novel method for the upright adjustment of 360 images. Our network consists of two modules, which are a convolutional neural network (CNN) and a graph convolutional network (GCN). The input 360 images is processed with the CNN for visual feature extraction, and the extracted feature map is converted into a graph that finds a spherical representation of the input. We also introduce a novel loss function to address the issue of discrete probability distributions defined on the surface of a sphere. Experimental results demonstrate that our method outperforms fully connected based methods.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# オープン量子システムにおける散逸経路の定量化フレームワーク I. 理論的定式化

General Framework for Quantifying Dissipation Pathways in Open Quantum Systems. I. Theoretical Formulation ( http://arxiv.org/abs/2406.00266v1 )

ライセンス: Link先を確認
Chang Woo Kim, Ignacio Franco, (参考訳) オープン量子系力学におけるエネルギーの散逸について、汎用的で実用的な理論的枠組みを提案する。 これは、個々の浴室成分のシステム全体の消散への寄与を定量化する。 本手法は, 中島・Zwanzigプロジェクション・オペレーターの手法をベースとして, 演算子生成物のトレースを用いて, 特定の浴室自由度にエネルギー散逸率を表現できる。 このアプローチは全ての順序に対するシステム-バス相互作用を捉えるが、対角部分系のカップリングに関する二階摂動理論と、入浴のマルコフ的記述に基づいている。 本理論の有用性は, 高調波発振器やスピン浴を含むオープン量子系の様々なモデルに適用し, 局所結合型高調波浴 (J. Chem. Phys. 154, 084109 (2021)) で導かれた式など, 既存の結果と結合することによって実証される。 また、我々の理論によって計算された散逸は、エネルギー保存や詳細なバランスといった熱力学の原理を厳格に満たしていることを示す。 全体として、この戦略は開量子系の力学を解釈・工学するために散逸経路の理論とシミュレーションを開発するのに利用できる。

We present a general and practical theoretical framework to investigate how energy is dissipated in open quantum system dynamics. This is done by quantifying the contributions of individual bath components to the overall dissipation of the system. The framework is based on the Nakajima-Zwanzig projection operator technique which allows us to express the rate of energy dissipation into a specific bath degree of freedom by using traces of operator products. The approach captures system-bath interactions to all orders, but is based on second-order perturbation theory on the off-diagonal subsystem's couplings and a Markovian description of the bath. The usefulness of our theory is demonstrated by applying it to various models of open quantum systems involving harmonic oscillator or spin baths, and connecting the outcomes to existing results such as our previously reported formula derived for locally coupled harmonic bath [J. Chem. Phys. 154, 084109 (2021)]. We also prove that the dissipation calculated by our theory rigorously satisfies thermodynamic principles such as energy conservation and detailed balance. Overall, the strategy can be used to develop the theory and simulation of dissipation pathways to interpret and engineer the dynamics of open quantum systems.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# 開放量子系における散逸経路の定量化のための一般フレームワーク II. 数値検証と非マルコビアン性の役割

General Framework for Quantifying Dissipation Pathways in Open Quantum Systems. II. Numerical Validation and the Role of Non-Markovianity ( http://arxiv.org/abs/2406.00267v1 )

ライセンス: Link先を確認
Chang Woo Kim, Ignacio Franco, (参考訳) 前回の論文 (C. W. Kim and I. Franco, J. Chem. Phys. 160, XXXXXX (2024)] において,我々は MQME-D という理論を考案した。 本稿では,階層型運動方程式(HEOM)と最近報告された浴槽の統計モニタリングプロトコルを組み合わせることで得られる数値的精度とMQME-Dの予測を対比する。 全体として、MQME-D は、HEOM を用いた正確な計算に比べて計算コストを大幅に削減しつつ、特定の浴室成分の全体散布への寄与を正確に捉えている。 計算の結果,MQME-Dはマルコフ近似に起因した誤差を示すことがわかった。 浴槽の異なる成分に時間スケール分離(TSS)を利用することにより,非マルコビアン性を導入することにより,その精度を著しく向上できることを実証した。 我々の研究は、MQME-DとTSSを組み合わせることで、現実的なオープン量子系の力学において、エネルギーがどのように散逸するかを確実に理解できることを示した。

In the previous paper [C. W. Kim and I. Franco, J. Chem. Phys. 160, XXXXXX (2024)], we developed a theory called MQME-D, which allows us to decompose the overall energy dissipation process in open quantum system dynamics into contributions by individual components of the bath when the subsystem dynamics is governed by a Markovian quantum master equation (MQME). Here, we contrast the predictions of MQME-D against the numerically exact results obtained by combining hierarchical equations of motion (HEOM) with a recently reported protocol for monitoring the statistics of the bath. Overall, MQME-D accurately captures the contributions of specific bath components to the overall dissipation while greatly reducing the computational cost as compared to exact computations using HEOM. The computations show that MQME-D exhibits errors originating from its inherent Markov approximation. We demonstrate that its accuracy can be significantly increased by incorporating non-Markovianity by exploiting time scale separations (TSS) in different components of the bath. Our work demonstrates that MQME-D combined with TSS can be reliably used to understanding how energy is dissipated in realistic open quantum system dynamics.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# 非平衡量子スピン系における磁化

Magnetization in a non-equilibrium quantum spin system ( http://arxiv.org/abs/2406.00268v1 )

ライセンス: Link先を確認
X. Z. Zhang, (参考訳) 非エルミート・ハミルトニアンによって記述される力学は、通常、量子ジャンプが起こる前に開量子系の短期的な挙動を捉える。 対照的に、Lindblad Master equation (LME) によって特徴づけられる長期力学は、システムを非平衡定常状態 (NESS) へと誘導する。 伝統的に、これらの2種類の進化は異なる動的挙動を示す。 しかし、本研究では、この共通信念に挑戦し、実効的な非エルミート的ハミルトニアンが臨界2レベル開量子系の長期力学を正確に表現できることを実証する。 システムの臨界性は、実効非エルミート・ハミルトニアンの例外点(EP)から生じる。 さらに、NESSは非エルミート・ハミルトニアンの合体状態と同一である。 この発見を一連の臨界開量子系に適用し、局所散逸チャネルが同じ方向に全てのスピンの集合的アライメントを誘導できることを示す。 この方向は量子ジャンプ作用素を変調することでうまく制御できる。 対応するNESSは製品状態であり、長年のコヒーレンスを維持し、オープンな多体システムにおける量子制御を容易にする。 この発見は、重要なオープン量子システムの長期的ダイナミクスをよりよく理解するための道を開く。

The dynamics described by the non-Hermitian Hamiltonian typically capture the short-term behavior of open quantum systems before quantum jumps occur. In contrast, the long-term dynamics, characterized by the Lindblad master equation (LME), drive the system towards a non-equilibrium steady state (NESS), which is an eigenstate with zero energy of the Liouvillian superoperator, denoted as $\mathcal{L}$. Conventionally, these two types of evolutions exhibit distinct dynamical behaviors. However, in this study, we challenge this common belief and demonstrate that the effective non-Hermitian Hamiltonian can accurately represent the long-term dynamics of a critical two-level open quantum system. The criticality of the system arises from the exceptional point (EP) of the effective non-Hermitian Hamiltonian. Additionally, the NESS is identical to the coalescent state of the effective non-Hermitian Hamiltonian. We apply this finding to a series of critical open quantum systems and show that a local dissipation channel can induce collective alignment of all spins in the same direction. This direction can be well controlled by modulating the quantum jump operator. The corresponding NESS is a product state and maintains long-time coherence, facilitating quantum control in open many-body systems. This discovery paves the way for a better understanding of the long-term dynamics of critical open quantum systems.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# 拡張注意を用いたビデオにおける時間的一貫性のあるオブジェクト編集

Temporally Consistent Object Editing in Videos using Extended Attention ( http://arxiv.org/abs/2406.00272v1 )

ライセンス: Link先を確認
AmirHossein Zamani, Amir G. Aghdam, Tiberiu Popa, Eugene Belilovsky, (参考訳) 画像生成と編集は、テキスト、マスク、深度マップなどの様々なモードをユーザが制御できる大規模拡散モデルの台頭とともに、大きな進歩を遂げてきた。 しかし、動画の編集はいまだに遅れている。 この領域での以前の研究は、既存のビデオのスタイルを世界規模で変えるために2次元拡散モデルを使うことに重点を置いていた。 一方、多くの実用的なアプリケーションでは、ビデオのローカライズされた部分の編集が重要である。 本研究では,事前に学習した画像拡散モデルを用いて映像を編集する手法を提案する。 フレームレベルの依存関係を生成するアテンションモジュールの拡張バージョンに自己アテンションモジュールを置き換えることで,モデルの前方経路を体系的に再設計する。 このようにして、マスク領域の形状や位置がどうであれ、編集された情報がすべてのビデオフレームに整合していることを保証する。 我々は、オブジェクトの再ターゲティング、オブジェクト置換、オブジェクト削除タスクなど、いくつかのビデオ編集タスクの精度の観点から、我々の結果を最先端のものと質的に比較する。 シミュレーションは提案手法の優れた性能を示す。

Image generation and editing have seen a great deal of advancements with the rise of large-scale diffusion models that allow user control of different modalities such as text, mask, depth maps, etc. However, controlled editing of videos still lags behind. Prior work in this area has focused on using 2D diffusion models to globally change the style of an existing video. On the other hand, in many practical applications, editing localized parts of the video is critical. In this work, we propose a method to edit videos using a pre-trained inpainting image diffusion model. We systematically redesign the forward path of the model by replacing the self-attention modules with an extended version of attention modules that creates frame-level dependencies. In this way, we ensure that the edited information will be consistent across all the video frames no matter what the shape and position of the masked area is. We qualitatively compare our results with state-of-the-art in terms of accuracy on several video editing tasks like object retargeting, object replacement, and object removal tasks. Simulations demonstrate the superior performance of the proposed strategy.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# StyDeSty: 単一領域一般化のためのMin-Maxスティル化とデスティル化

StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization ( http://arxiv.org/abs/2406.00275v1 )

ライセンス: Link先を確認
Songhua Liu, Xin Jin, Xingyi Yang, Jingwen Ye, Xinchao Wang, (参考訳) 単一ドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としており、非常に野心的で挑戦的なタスクである。 最先端のアプローチは、主に、新しいデータを合成し、堅牢性を高めるために、敵対的な摂動やスタイルの強化のようなデータ拡張に依存している。 それでも彼らは、拡張されたドメイン間のコヒーレンスを概ね見落としており、現実のシナリオでは結果が劣っている。 本稿では,データ拡張過程におけるソースドメインと疑似ドメインのアライメントを明示的に考慮し,自己整合的に相互に対話し,強力な一般化力を持つ潜伏ドメインを創出する,シンプルで効果的なスキームを提案する。 StyDeStyの心臓部は、ソースドメインを使用して新しいスタイリングされたサンプルを生成する \emph{stylization} モジュールと、スタイリングされたサンプルとソースサンプルを潜在ドメインに転送してコンテンツ不変の機能を学ぶ \emph{destylization} モジュールとの相互作用にある。 スタイリゼーションとデスティリゼーションモジュールは逆向きに働き、互いに強化する。 推論中、デスティル化モジュールは入力サンプルを任意のスタイルのシフトで変換し、下流タスクを実行する。 具体的には、バックボーンネットワーク内のデスティリゼーション層の位置は、専用のニューラルアーキテクチャサーチ(NAS)戦略によって決定される。 我々は、複数のベンチマークでStyDeStyを評価し、それが奨励的な結果をもたらし、分類精度を最大13.44%向上させることを示した。 コードは、https://github.com/Huage001/StyDeSty.comで入手できる。

Single domain generalization (single DG) aims at learning a robust model generalizable to unseen domains from only one training domain, making it a highly ambitious and challenging task. State-of-the-art approaches have mostly relied on data augmentations, such as adversarial perturbation and style enhancement, to synthesize new data and thus increase robustness. Nevertheless, they have largely overlooked the underlying coherence between the augmented domains, which in turn leads to inferior results in real-world scenarios. In this paper, we propose a simple yet effective scheme, termed as \emph{StyDeSty}, to explicitly account for the alignment of the source and pseudo domains in the process of data augmentation, enabling them to interact with each other in a self-consistent manner and further giving rise to a latent domain with strong generalization power. The heart of StyDeSty lies in the interaction between a \emph{stylization} module for generating novel stylized samples using the source domain, and a \emph{destylization} module for transferring stylized and source samples to a latent domain to learn content-invariant features. The stylization and destylization modules work adversarially and reinforce each other. During inference, the destylization module transforms the input sample with an arbitrary style shift to the latent domain, in which the downstream tasks are carried out. Specifically, the location of the destylization layer within the backbone network is determined by a dedicated neural architecture search (NAS) strategy. We evaluate StyDeSty on multiple benchmarks and demonstrate that it yields encouraging results, outperforming the state of the art by up to {13.44%} on classification accuracy. Codes are available here: https://github.com/Huage001/StyDeSty.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# 物理インフォームド・機械学習を用いた超早期電池プロトタイプ検証のための非破壊劣化パターンデカップリング

Non-destructive Degradation Pattern Decoupling for Ultra-early Battery Prototype Verification Using Physics-informed Machine Learning ( http://arxiv.org/abs/2406.00276v1 )

ライセンス: Link先を確認
Shengyu Tao, Mengtian Zhang, Zixi Zhao, Haoyang Li, Ruifei Ma, Yunhong Che, Xin Sun, Lin Su, Xiangyu Chen, Zihao Zhou, Heng Chang, Tingwei Cao, Xiao Xiao, Yaojun Liu, Wenjun Yu, Zhongling Xu, Yang Li, Han Hao, Xuan Zhang, Xiaosong Hu, Guangmin ZHou, (参考訳) 製造の複雑さと不確実性により、材料プロトタイプから商用バッテリーへの移行が妨げられ、品質評価にとってプロトタイプの検証が重要になった。 基本的な課題は、相互に結合した化学過程を解読して劣化パターンとバッテリー性能との定量的な関係を特徴づけることである。 ここでは, 物理インフォームド機械学習手法を用いて, 熱力学と運動学に関する時間分解損失を, 電気信号のみを用いて定量化し, 可視化することができることを示す。 本手法は, 終末点ではなく, 終末軌道の温度適応予測を高速化し, 非破壊劣化パターンのキャラクタリゼーションを可能にする。 検証速度は25倍速く、温度の95.1%の精度を維持している。 このような進歩は、大量生産の前に欠陥のある試作機をより持続的に管理し、2060年までに1976億米ドルのスクラップ素材リサイクル市場を築き上げた。 通常の同一電池の初期製造変動の尺度として段階的に電荷受け入れを組み込むことで, 長期劣化のばらつきを即座に識別できる。 我々は、劣化パターンのデカップリングに物質非依存の成果化分類を用いて機械学習の洞察を解釈するのに、予測力があると考えている。 本研究は, 複雑なパターンの進化を非破壊的かつデータ駆動的な方法で正確に予測し, 物理インフォームド・機械学習を組み込むことにより, 動的システム解析の可能性を示すものである。

Manufacturing complexities and uncertainties have impeded the transition from material prototypes to commercial batteries, making prototype verification critical to quality assessment. A fundamental challenge involves deciphering intertwined chemical processes to characterize degradation patterns and their quantitative relationship with battery performance. Here we show that a physics-informed machine learning approach can quantify and visualize temporally resolved losses concerning thermodynamics and kinetics only using electric signals. Our method enables non-destructive degradation pattern characterization, expediting temperature-adaptable predictions of entire lifetime trajectories, rather than end-of-life points. The verification speed is 25 times faster yet maintaining 95.1% accuracy across temperatures. Such advances facilitate more sustainable management of defective prototypes before massive production, establishing a 19.76 billion USD scrap material recycling market by 2060 in China. By incorporating stepwise charge acceptance as a measure of the initial manufacturing variability of normally identical batteries, we can immediately identify long-term degradation variations. We attribute the predictive power to interpreting machine learning insights using material-agnostic featurization taxonomy for degradation pattern decoupling. Our findings offer new possibilities for dynamic system analysis, such as battery prototype degradation, demonstrating that complex pattern evolutions can be accurately predicted in a non-destructive and data-driven fashion by integrating physics-informed machine learning.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# アンダーサンプルOCT画像再構成のためのハイブリットアテンション構造保存ネットワーク

Hybrid attention structure preserving network for reconstruction of under-sampled OCT images ( http://arxiv.org/abs/2406.00279v1 )

ライセンス: Link先を確認
Zezhao Guo, Zhanfang Zhao, (参考訳) 光コヒーレンス断層撮影(OCT)は、組織の断面画像を提供する非侵襲的高分解能イメージング技術である。 高解像度画像を得るには高速軸に沿ったAスキャンの高密度取得が必要である。 しかし、密接な買収によって取得時間が増加し、患者の不快感がもたらされる。 さらに、取得時間が長くなると、モーションアーティファクトが発生し、画像品質が低下する可能性がある。 本研究では,HASPN(Hybrid attention structure Preserving Network)を提案する。 適応的拡張畳み込み型チャネルアテンション(ADCCA)と空間アテンション(ESA)を利用して特徴のチャネルと空間情報をよりよく捉えた。 さらに、畳み込みニューラルネットワーク(CNN)は、高周波情報よりも低周波情報の感度が高く、微細構造を再構築する際の限られた性能をもたらす可能性がある。 この問題に対処するため,我々は,高頻度分解画像を用いて高分解能網膜構造を改良した,テクスチャとディテールのブランチを新たに導入した。 本手法の優位性は,本手法と定性的,定量的に比較した。 HASPNは糖尿病黄斑浮腫網膜データセットに適用され、その優れた一般化能が検証された。

Optical coherence tomography (OCT) is a non-invasive, high-resolution imaging technology that provides cross-sectional images of tissues. Dense acquisition of A-scans along the fast axis is required to obtain high digital resolution images. However, the dense acquisition will increase the acquisition time, causing the discomfort of patients. In addition, the longer acquisition time may lead to motion artifacts, thereby reducing imaging quality. In this work, we proposed a hybrid attention structure preserving network (HASPN) to achieve super-resolution of under-sampled OCT images to speed up the acquisition. It utilized adaptive dilated convolution-based channel attention (ADCCA) and enhanced spatial attention (ESA) to better capture the channel and spatial information of the feature. Moreover, convolutional neural networks (CNNs) exhibit a higher sensitivity of low-frequency than high-frequency information, which may lead to a limited performance on reconstructing fine structures. To address this problem, we introduced an additional branch, i.e., textures & details branch, using high-frequency decomposition images to better super-resolve retinal structures. The superiority of our method was demonstrated by qualitative and quantitative comparisons with mainstream methods. HASPN was applied to the diabetic macular edema retinal dataset, validating its good generalization ability.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# ハイブリッド量子古典スキームによるノイズ量子ハードウェア上の圧縮不可能なナビエ・ストークスの解法

Incompressible Navier-Stokes solve on noisy quantum hardware via a hybrid quantum-classical scheme ( http://arxiv.org/abs/2406.00280v1 )

ライセンス: Link先を確認
Zhixin Song, Robert Deaton, Bryan Gard, Spencer H. Bryngelson, (参考訳) 流体流に対するナヴィエ・ストークス方程式を解くためには偏微分方程式解法が必要である。 近年,量子コンピュータ上での流体力学をシミュレーションするアルゴリズムが提案されている。 フォールトトレラントな量子デバイスは、古典的コンピュータ上のアルゴリズムの指数的な高速化を可能にする。 しかし、現在の量子ハードウェアと今後の量子ハードウェアは計算にノイズをもたらし、より浅い回路深さとより少ない量子ビットの量子リソースを適度に利用するアルゴリズムを必要とする。 変分アルゴリズムはリソース制限下でより適切で堅牢である。 この研究は、圧縮不能なナビエ・ストークス方程式に対するハイブリッド量子古典アルゴリズムを示す。 古典的なデバイスは非線形計算を行い、量子デバイスは圧力ポアソン方程式を解くために変分アルゴリズムを使用する。 蓋駆動型空洞問題は、その方法のベンチマークを行う。 我々は、ノイズフリーシミュレーションを用いてアルゴリズムを検証し、ノイズの多いIBM超伝導量子ハードウェア上でテストする。 その結果,現在の量子デバイス上でも,このアプローチによって高忠実度が達成できることが示唆された。 マルチグリッドプレコンディショニングアプローチは、局所的なミニマを避けるのに役立つ。 量子ビットカウントにおける線形複雑度を持つトモグラフィー技術であるHTreeは、量子状態の読み出し時間を短縮する。 我々は,流体シミュレーションの量子ハードウェア要件を決定するために,短期的およびフォールトトレラントな解法に必要な量子リソースを比較した。

Partial differential equation solvers are required to solve the Navier-Stokes equations for fluid flow. Recently, algorithms have been proposed to simulate fluid dynamics on quantum computers. Fault-tolerant quantum devices might enable exponential speedups over algorithms on classical computers. However, current and upcoming quantum hardware presents noise in the computations, requiring algorithms that make modest use of quantum resources: shallower circuit depths and fewer qubits. Variational algorithms are more appropriate and robust under resource restrictions. This work presents a hybrid quantum-classical algorithm for the incompressible Navier-Stokes equations. Classical devices perform nonlinear computations, and quantum ones use variational algorithms to solve the pressure Poisson equation. A lid-driven cavity problem benchmarks the method. We verify the algorithm via noise-free simulation and test it on noisy IBM superconducting quantum hardware. Results show that high-fidelity results can be achieved via this approach, even on current quantum devices. A multigrid preconditioning approach helps avoid local minima. HTree, a tomography technique with linear complexity in qubit count, reduces the quantum state readout time. We compare the quantum resources required for near-term and fault-tolerant solvers to determine quantum hardware requirements for fluid simulations with complexity improvements.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# 不均一な語彙データに対する普遍関数空間へのクロステーブル事前学習

Cross-Table Pretraining towards a Universal Function Space for Heterogeneous Tabular Data ( http://arxiv.org/abs/2406.00281v1 )

ライセンス: Link先を確認
Jintai Chen, Zhen Lin, Qiyuan Chen, Jimeng Sun, (参考訳) 異なる表からのタブラリデータは、様々な定義や特徴の種類、複雑な機能間関係や特徴-対象関係により、大きな多様性を示す。 上流データから再利用可能なパターンを学習し、下流タスクをサポートするクロスデータセット事前学習は、様々な分野で顕著な成功を収めている。 しかし、表型データ予測に適用した場合、様々な表型データセット(テーブル)の再利用パターンの制限と、微調整に利用可能な表型データの全般的不足により、このパラダイムは課題に直面している。 本研究では,このギャップを,クロステーブルな事前学習型変換器,XTFormerを導入して,下流の多目的な表型予測タスクを実現する。 我々の方法論の洞察は、XTFormerを事前訓練し、全ての潜在的な機能ターゲットマッピングを含む「メタ関数」空間を確立することである。 事前学習では、事前学習した表型データセットから様々なポテンシャルマッピングを抽出し、「メタファンクション」空間に埋め込み、特定の座標位置決めアプローチにより下流タスクのための「メタファンクション」空間から適切なマッピングを抽出する。 実験によると、190の下流の表型予測タスクでは、XTFormerは137タスクでXGBoostとCatboostの両方に勝利し、代表的なディープラーニングモデルFT-Transformerと144タスク(76%)と162タスク(85%)で表型事前学習アプローチXTabを上回っている。

Tabular data from different tables exhibit significant diversity due to varied definitions and types of features, as well as complex inter-feature and feature-target relationships. Cross-dataset pretraining, which learns reusable patterns from upstream data to support downstream tasks, have shown notable success in various fields. Yet, when applied to tabular data prediction, this paradigm faces challenges due to the limited reusable patterns among diverse tabular datasets (tables) and the general scarcity of tabular data available for fine-tuning. In this study, we fill this gap by introducing a cross-table pretrained Transformer, XTFormer, for versatile downstream tabular prediction tasks. Our methodology insight is pretraining XTFormer to establish a "meta-function" space that encompasses all potential feature-target mappings. In pre-training, a variety of potential mappings are extracted from pre-training tabular datasets and are embedded into the "meta-function" space, and suited mappings are extracted from the "meta-function" space for downstream tasks by a specified coordinate positioning approach. Experiments show that, in 190 downstream tabular prediction tasks, our cross-table pretrained XTFormer wins both XGBoost and Catboost on 137 (72%) tasks, and surpasses representative deep learning models FT-Transformer and the tabular pre-training approach XTab on 144 (76%) and 162 (85%) tasks.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# 積分勾配を用いた3次元仮想パッチ

Adversarial 3D Virtual Patches using Integrated Gradients ( http://arxiv.org/abs/2406.00282v1 )

ライセンス: Link先を確認
Chengzeng You, Zhongyuan Hau, Binbin Xu, Soteris Demetriou, (参考訳) LiDARセンサーは、環境をよりよく知覚するために自動運転車で広く使われている。 しかし、以前の研究では、LiDAR信号は3Dオブジェクト検出器から実際の物体を隠すために密封されていることが示されている。 本研究では,仮想パッチ(VP)に基づく新たなオブジェクト隠蔽戦略により,必要なスプーフィング面積を減らすことの実現可能性について検討した。 まず最初に、VP(MVP)を手動で設計し、VP中心の攻撃が、以前の作業と同じような成功率を得るが、必要なスプーフィング領域のごく一部で達成できることを示します。 次に,SALL(Saliency-LiDAR)フレームワークを設計し,LiDARオブジェクトの重要な領域を統合勾配を用いて識別する。 臨界領域(CVP)を利用するVPは、平均サイズの車両のスプーフィング面積をおよそ50%減らすことで、私たちのベースラインと比較して、オブジェクト検出リコールを少なくとも15%削減する。

LiDAR sensors are widely used in autonomous vehicles to better perceive the environment. However, prior works have shown that LiDAR signals can be spoofed to hide real objects from 3D object detectors. This study explores the feasibility of reducing the required spoofing area through a novel object-hiding strategy based on virtual patches (VPs). We first manually design VPs (MVPs) and show that VP-focused attacks can achieve similar success rates with prior work but with a fraction of the required spoofing area. Then we design a framework Saliency-LiDAR (SALL), which can identify critical regions for LiDAR objects using Integrated Gradients. VPs crafted on critical regions (CVPs) reduce object detection recall by at least 15% compared to our baseline with an approximate 50% reduction in the spoofing area for vehicles of average size.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# LLMによる論理的推論 - ツール項目の選択

A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters ( http://arxiv.org/abs/2406.00284v1 )

ライセンス: Link先を確認
Long Hei Matthew Lam, Ehsan Shareghi, (参考訳) 論理的推論は人間の認知の基礎となる。 近年,Large Language Models (LLMs) の出現は論理的推論タスクを効果的に解く上で有望な進歩を示している。 この能力を改善するために、近年の研究では、多様な技術や方法論を用いて、LLMを様々な記号解法と統合する研究が進められている。 いくつかの組み合わせは特定のデータセットで優れているが、他の組み合わせは不足している。 しかし, 性能のばらつきが, 使用する手法や特定の記号解法に起因しているかどうかは不明である。 したがって、記号的解法とLLMの論理的推論能力にどのように影響するかは、一貫した比較が欠如している。 我々は、Z3、Pyke、Prover9の3つのシンボリック・ソルバと統合されたLLMの実験を行い、ProofWriter、PrOntoQA、FOLIOの3つの論理推論データセットのパフォーマンスを比較した。 以上の結果から,LLMと組み合わせた場合,Pykeの性能はProver9とZ3に比べ有意に劣ることがわかった。 Z3の全体的な精度はProver9をわずかに上回ったが、Prover9はより多くの質問を実行できる。

Logical reasoning serves as a cornerstone for human cognition. Recently, the emergence of Large Language Models (LLMs) has demonstrated promising progress in solving logical reasoning tasks effectively. To improve this capability, recent studies have delved into integrating LLMs with various symbolic solvers using diverse techniques and methodologies. While some combinations excel on specific datasets, others fall short. However, it remains unclear whether the variance in performance stems from the methodologies employed or the specific symbolic solvers utilized. Therefore, there is a lack of consistent comparison between symbolic solvers and how they influence LLM's logical reasoning ability. We perform experiments on LLMs integrated with 3 symbolic solvers: Z3, Pyke, and Prover9, and compare their performance on 3 logical reasoning datasets: ProofWriter, PrOntoQA, and FOLIO. Our findings indicate that when combined with LLMs Pyke's performance is significantly inferior to that of Prover9 and Z3. Z3's overall accuracy performance slightly surpasses Prover9, but Prover9 could execute more questions.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# GenPalm:拡散モデルによる接触レスパルププリント生成

GenPalm: Contactless Palmprint Generation with Diffusion Models ( http://arxiv.org/abs/2406.00287v1 )

ライセンス: Link先を確認
Steven A. Grosz, Anil K. Jain, (参考訳) 大規模パームプリントデータベースの不足は、接触のないパームプリント認識の進歩に重大なボトルネックをもたらす。 これを解決するために、研究者らは合成データ生成に目を向けた。 GAN(Generative Adversarial Networks)は広く使われているが、不安定性とモード崩壊に悩まされている。 近年、拡散確率モデルは、安定した訓練とより良い分布範囲を提供する、有望な代替品として出現している。 本稿では,拡散確率モデルを用いた新しいパームプリント生成手法を提案し,複数のパームプリントを合成するためのエンドツーエンドフレームワークを開発し,生成されたパームプリントの現実性と有用性を検証する。 実験結果から,複数試験データベース間の接触のないパームプリント認識性能を向上させるヤシプリント画像生成手法の有効性が示された。

The scarcity of large-scale palmprint databases poses a significant bottleneck to advancements in contactless palmprint recognition. To address this, researchers have turned to synthetic data generation. While Generative Adversarial Networks (GANs) have been widely used, they suffer from instability and mode collapse. Recently, diffusion probabilistic models have emerged as a promising alternative, offering stable training and better distribution coverage. This paper introduces a novel palmprint generation method using diffusion probabilistic models, develops an end-to-end framework for synthesizing multiple palm identities, and validates the realism and utility of the generated palmprints. Experimental results demonstrate the effectiveness of our approach in generating palmprint images which enhance contactless palmprint recognition performance across several test databases utilizing challenging cross-database and time-separated evaluation protocols.
翻訳日:2024-06-06 07:54:19 公開日:2024-06-01
# ラグランジアンコストによるニューラル・オプティカル・トランスポート

Neural Optimal Transport with Lagrangian Costs ( http://arxiv.org/abs/2406.00288v1 )

ライセンス: Link先を確認
Aram-Alexandre Pooladian, Carles Domingo-Enrich, Ricky T. Q. Chen, Brandon Amos, (参考訳) ラグランジアンコスト(Lagrangian cost)としても知られる最小作用原理を満たすために、基礎となるコスト関数が理解された場合の確率測度間の最適輸送問題について検討する。 これらの一般化は、輸送力学が障害物(例えばラグランジアンにおける障壁関数を含む)のような系の幾何学の影響を受けている物理系からの観測を接続する際に有用であり、実践者は非ユークリッド幾何学(例えば、経路は円形でなければならない)のような基礎系の事前知識を組み込むことができる。 我々の貢献は、測地学を効率的に計算し、低次元問題においてもこれまで行われていなかったスプラインベースの経路を補正する能力を示す計算的関心事である。 従来の作業とは異なり、ODEソルバを必要とせずにラグランジアン最適輸送写像を出力する。 先行研究から得られた低次元実例に対する定式化の有効性を実証する。 実験を再現するソースコードはhttps://github.com/facebookresearch/lagrangian-ot.comで公開されている。

We investigate the optimal transport problem between probability measures when the underlying cost function is understood to satisfy a least action principle, also known as a Lagrangian cost. These generalizations are useful when connecting observations from a physical system where the transport dynamics are influenced by the geometry of the system, such as obstacles (e.g., incorporating barrier functions in the Lagrangian), and allows practitioners to incorporate a priori knowledge of the underlying system such as non-Euclidean geometries (e.g., paths must be circular). Our contributions are of computational interest, where we demonstrate the ability to efficiently compute geodesics and amortize spline-based paths, which has not been done before, even in low dimensional problems. Unlike prior work, we also output the resulting Lagrangian optimal transport map without requiring an ODE solver. We demonstrate the effectiveness of our formulation on low-dimensional examples taken from prior work. The source code to reproduce our experiments is available at https://github.com/facebookresearch/lagrangian-ot.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# フェーズインプリンティングによるフェルミオン環内スーパーフローの動的生成

Dynamic Generation of Superflow in a Fermionic Ring through Phase Imprinting ( http://arxiv.org/abs/2406.00289v1 )

ライセンス: Link先を確認
Ke-Ji Chen, Wei Yi, Fan Wu, (参考訳) リング幾何学におけるフェミオン原子の位相印加による持続電流の動的生成について検討する。 対の相互作用によって媒介されるフェルミ凝縮体は、密度と対の次数-パラメータの減少と同様に、アジムタール相スリップを発生させることにより、量子化された電流を動的に取得する。 ボゴリオボフ・ド・ジェンヌの形式主義に取って代わり、位相印加過程を通じて移動した全角運動量と量子化された超流動電流の時間的進化を考察する。 これにより、相互作用と異なる初期ペアリング状態がスーパーフロー形成に与える影響を詳細に分析することができる。 特に、フェーシュバッハ共鳴のボース・アインシュタイン凝縮側に向かって凝縮が調整されると、アジムタール密度分布は位相印加電位の影響を受けにくくなり、同じ印加パラメータの下での量子化電流が小さくなることを示す。 以上の結果から, 位相印字プロセスにおけるスーパーフローの動的発達に関する微視的知見が得られ, 実験の継続に有効である。

We study the dynamic generation of persistent current by phase imprinting fermionic atoms in a ring geometry. Mediated by the pairing interaction, the Fermi condensate dynamically acquires a quantized current by developing azimuthal phase slips, as well as density and pairing-order-parameter depletions. Resorting to the Bogolioubov-de Gennes formalism, we investigate the time evolution of the transferred total angular momentum and the quantized superfluid current throughout the phase-imprinting process. This enables a detailed analysis of the impact of interaction, as well as different initial pairing states, on the superflow formation. In particular, we show that, as the condensate is tuned toward the Bose-Einstein-condensate side of the Feshbach resonance, the azimuthal density distribution becomes less susceptible to the phase imprinting potential, leading to smaller quantized current under the same imprinting parameters. Our results offer microscopic insights into the dynamic development of superflow in the phase-imprinting process, and are helpful for the ongoing experimental effort.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# FFTベースCNNのファザード駆動高速化

Phasor-Driven Acceleration for FFT-based CNNs ( http://arxiv.org/abs/2406.00290v1 )

ライセンス: Link先を確認
Eduardo Reis, Thangarajah Akilan, Mohammed Khalid, (参考訳) 深層学習(DL)における最近の研究は、空間畳み込みをスペクトル領域上の要素ワイド乗算に置き換えることで、畳み込みニューラルネットワーク(CNN)に関わる計算を高速化するために、FFT(Fast Fourier Transform)を用いて研究している。 これらのアプローチは主にFFTに依存して演算数を削減し、実値FFTを採用することでさらに削減することができる。 本稿では,従来の手法の代替として,複素数の極性表現であるファサー形式(phasor form)を提案する。 CIFAR-10を用いて評価した結果, 従来のCNNアーキテクチャと比較すると, トレーニング時の最大1.376(平均1.316), 推論時の最大1.390(平均1.321)の高速化が得られた。 同様に、CIFAR-100で評価すると、トレーニング中に最大1.375(平均1.299)、推論時に最大1.387(平均1.300)の速度向上が達成される。 最も重要なことは、我々のアプローチのモジュラーな側面を考えると、提案手法は設計変更なしに既存の畳み込みベースのDLモデルに適用できるということである。

Recent research in deep learning (DL) has investigated the use of the Fast Fourier Transform (FFT) to accelerate the computations involved in Convolutional Neural Networks (CNNs) by replacing spatial convolution with element-wise multiplications on the spectral domain. These approaches mainly rely on the FFT to reduce the number of operations, which can be further decreased by adopting the Real-Valued FFT. In this paper, we propose using the phasor form, a polar representation of complex numbers, as a more efficient alternative to the traditional approach. The experimental results, evaluated on the CIFAR-10, demonstrate that our method achieves superior speed improvements of up to a factor of 1.376 (average of 1.316) during training and up to 1.390 (average of 1.321) during inference when compared to the traditional rectangular form employed in modern CNN architectures. Similarly, when evaluated on the CIFAR-100, our method achieves superior speed improvements of up to a factor of 1.375 (average of 1.299) during training and up to 1.387 (average of 1.300) during inference. Most importantly, given the modular aspect of our approach, the proposed method can be applied to any existing convolution-based DL model without design changes.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 探索空間分割学習による多目的ニューラルアーキテクチャ探索

Multi-objective Neural Architecture Search by Learning Search Space Partitions ( http://arxiv.org/abs/2406.00291v1 )

ライセンス: Link先を確認
Yiyang Zhao, Linnan Wang, Tian Guo, (参考訳) ディープラーニングモデルをデプロイするには、モデルサイズ、推論レイテンシ、#FLOPなどのニューラルネットワークメトリクスを考慮する必要がある。 この結果、ディープラーニングモデルデザイナは、多目的最適化を利用して、効率的なディープニューラルネットワークを複数の基準で設計する。 しかし、NASタスクは一般に巨大な検索空間を持ち、非無視探索コストもかかるため、ニューラルネットワーク探索(NAS)に多目的最適化を適用することは簡単ではない。 これはGPUコストを軽減するために効果的な多目的探索アルゴリズムを必要とする。 本研究では,NASタスク上でのLaMOOというメタアルゴリズムに基づく,新しい多目的最適化手法を提案する。 簡単に言えば、LaMOOは観測されたサンプルからモデルを学び、探索空間を分割し、パレートフロンティアのサブセットを含む可能性のある領域にフォーカスすることで、探索プロセスを高速化する。 LaMOOを用いて,異なるNASデータセット上でのベイズ最適化と進化型多目的最適化と比較して200%以上のサンプル効率の改善を観察した。 例えば、LaMOOと組み合わせると、qEHVIはNasBench201でqEHVIのみを使用するよりも225%効率が向上する。 現実世界のタスクでは、LaMOOの精度は97.36%、CIFAR10の#Paramsはわずか600のサンプルで1.62万である。 ImageNetでは、私たちの大モデルは80.4%の精度で、522M #FLOPsしかありません。

Deploying deep learning models requires taking into consideration neural network metrics such as model size, inference latency, and #FLOPs, aside from inference accuracy. This results in deep learning model designers leveraging multi-objective optimization to design effective deep neural networks in multiple criteria. However, applying multi-objective optimizations to neural architecture search (NAS) is nontrivial because NAS tasks usually have a huge search space, along with a non-negligible searching cost. This requires effective multi-objective search algorithms to alleviate the GPU costs. In this work, we implement a novel multi-objectives optimizer based on a recently proposed meta-algorithm called LaMOO on NAS tasks. In a nutshell, LaMOO speedups the search process by learning a model from observed samples to partition the search space and then focusing on promising regions likely to contain a subset of the Pareto frontier. Using LaMOO, we observe an improvement of more than 200% sample efficiency compared to Bayesian optimization and evolutionary-based multi-objective optimizers on different NAS datasets. For example, when combined with LaMOO, qEHVI achieves a 225% improvement in sample efficiency compared to using qEHVI alone in NasBench201. For real-world tasks, LaMOO achieves 97.36% accuracy with only 1.62M #Params on CIFAR10 in only 600 search samples. On ImageNet, our large model reaches 80.4% top-1 accuracy with only 522M #FLOPs.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 合成器プログラミングによる創造的テキスト・ツー・オーディオ生成

Creative Text-to-Audio Generation via Synthesizer Programming ( http://arxiv.org/abs/2406.00294v1 )

ライセンス: Link先を確認
Manuel Cherep, Nikhil Singh, Jessica Shand, (参考訳) ニューラルオーディオ合成法では、自然言語でアイデアを指定できるようになった。 しかし、これらの手法は、大きな潜在空間と最大数十億の非解釈パラメータに基づいているため、簡単には微調整できない結果を生み出す。 78個のパラメータしか持たない仮想モジュールサウンドシンセサイザーを利用するテキスト音声生成手法を提案する。 シンセサイザーは、柔軟性と直感的な制御のために、音楽や映画のようなメディアのために、熟練したサウンドデザイナーによって長い間使われてきた。 提案手法であるCTAGは,テキストプロンプトの高品質なオーディオレンダリングを生成するために,シンセサイザーのパラメータを反復的に更新する。 この方法で作られた音は、より抽象的で、よりきめ細かな音響的詳細よりも重要な概念的特徴を捉えており、単純なスケッチが視覚的概念をいかに鮮明に伝達するかに似ています。 以上の結果から,CTAGは芸術的と認識されながら,近年のニューラルオーディオ合成モデルと同等に識別され,有用かつ補完的なツールとして位置づけられている。

Neural audio synthesis methods now allow specifying ideas in natural language. However, these methods produce results that cannot be easily tweaked, as they are based on large latent spaces and up to billions of uninterpretable parameters. We propose a text-to-audio generation method that leverages a virtual modular sound synthesizer with only 78 parameters. Synthesizers have long been used by skilled sound designers for media like music and film due to their flexibility and intuitive controls. Our method, CTAG, iteratively updates a synthesizer's parameters to produce high-quality audio renderings of text prompts that can be easily inspected and tweaked. Sounds produced this way are also more abstract, capturing essential conceptual features over fine-grained acoustic details, akin to how simple sketches can vividly convey visual concepts. Our results show how CTAG produces sounds that are distinctive, perceived as artistic, and yet similarly identifiable to recent neural audio synthesis models, positioning it as a valuable and complementary tool.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 量子システムにおける固有状態エネルギー決定のための新しい量子古典ハイブリッドアルゴリズム

A Novel Quantum-Classical Hybrid Algorithm for Determining Eigenstate Energies in Quantum Systems ( http://arxiv.org/abs/2406.00296v1 )

ライセンス: Link先を確認
Qing-Xing Xie, Yan Zhao, (参考訳) 効率的な量子コンピューティングアルゴリズムの開発は、様々な分野にわたる計算上の問題に対処するために不可欠である。 本稿では,任意の量子系の固有エネルギースペクトルを効率的に計算するための新しい量子XZ24アルゴリズムを提案する。 このアルゴリズムは、制御量子ビットとして補助量子ビットを使用し、ターゲット量子ビット上でハミルトン$\hat{H}$の時間反転のリアルタイム進化を実行する。 参照状態の波動関数 $|\phi_0 \rangle$ はターゲット量子ビットに格納される。 制御キュービット(すなわち補助キュービット)が 0 (1) 状態にあるとき、$e^{-i\hat{H}t/2} (e^{i\hat{H}t/2})$進化作用素が適用される。 補助量子ビット上のアダマールゲートと位相ゲートを組み合わせることにより、出力補助量子ビット状態から$\langle \psi_0 | \cos(\hat{H}t) | \psi_0 \rangle$に関する情報を得ることができる。 理論的には、$\langle \psi_0 | \cos(\hat{H}t) | \psi_0 \rangle$信号にフーリエ変換を適用することで、スペクトルにおけるハミルトニアンの固有エネルギーを解くことができる。 本稿では,アルゴリズムの理論的解析と数値シミュレーションを行い,計算効率と精度の優位性を実証する。 既存の量子法と比較して、新しいアルゴリズムは測定コストが著しく低いという点で際立っている。 任意の複雑性を持つ量子系の場合、1つの補助量子ビットだけを測る必要があり、その結果、測定複雑性は$O(1)$となる。 さらに、基準状態に依存する複数の固有エネルギーを同時に得ることができる。 我々は,新しいアルゴリズムが量子システムシミュレーションに大きな進歩をもたらすことを期待し,量子コンピューティングや量子情報処理において有望な応用を提供する。

Developing efficient quantum computing algorithms is crucial for addressing computationally challenging problems across various fields. In this paper, we introduce a novel quantum XZ24 algorithm, designed for efficiently computing the eigen-energy spectra of any quantum systems. The algorithm employs an auxiliary qubit as a control qubit to execute a pair of time-reversing real-time evolutions of Hamiltonian $\hat{H}$ on the target qubits. The reference state wavefunction $|\phi_0 \rangle$ is stored in target qubits. When the control qubit (i.e., the auxiliary qubit) is in the 0 (1) state, the $e^{-i\hat{H}t/2} (e^{i\hat{H}t/2})$ evolution operator is applied. By combining Hadamard gates and phase gates on the auxiliary qubit, information about $\langle \psi_0 | \cos(\hat{H}t) | \psi_0 \rangle$ can be obtained from the output auxiliary qubit state. Theoretically, applying the Fourier transformation to the $\langle \psi_0 | \cos(\hat{H}t) | \psi_0 \rangle$ signal can resolve the eigen-energies of the Hamiltonian in the spectrum. We provide theoretical analysis and numerical simulations of the algorithm, demonstrating its advantages in computational efficiency and accuracy. Compared to existing quantum methods, the new algorithm stands out for its remarkably low measurement cost. For quantum systems of any complexity, only a single auxiliary qubit needs to be measured, resulting in a measurement complexity of $O(1)$. Moreover, this method can simultaneously obtain multiple eigen-energies, dependent on the reference state. We anticipate that the new algorithm will drive significant progress in quantum system simulation and offer promising applications in quantum computing and quantum information processing.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 医用画像における領域一般化のための複雑な画像変換

Complex Style Image Transformations for Domain Generalization in Medical Images ( http://arxiv.org/abs/2406.00298v1 )

ライセンス: Link先を確認
Nikolaos Spanos, Anastasios Arsenos, Paraskevi-Antonia Theofilou, Paraskevi Tzouveli, Athanasios Voulodimos, Stefanos Kollias, (参考訳) 医用コンピュータビジョンに十分に構造化された大規模なデータセットがないと、自動化システムの性能が低下し、特にディープラーニングモデルの性能が低下する。 ドメインの一般化技術は、単一のデータソースから未知のドメインにアプローチすることを目的としています。 本稿では,ドメイン空間を効果的に拡張し,未知の分布に対処するための高レベルな入力複雑性拡張とともに,スタイル伝達と対角トレーニングを活用する,CompStyleという新しいフレームワークを紹介する。 State-of-the-artスタイルの転送方法は、ソースデータセット内のサブドメインの存在に依存します。 しかし、これは画像生成に固有のデータセットバイアスをもたらす可能性がある。 入力レベルの拡張は、ソースデータセット内のドメインスペースを拡大し、ドメイン外の分散のパフォーマンスを向上することで、この問題に対する解決策を提供することができる。 本研究は, 前立腺データに対する意味的セグメンテーションと, 心臓データに対する破壊堅牢性について実験を行い, 本手法の有効性を実証した。 我々の方法は、トレーニング時間やリソースにコストを加えることなく、両方のタスクのパフォーマンスを向上させる。

The absence of well-structured large datasets in medical computer vision results in decreased performance of automated systems and, especially, of deep learning models. Domain generalization techniques aim to approach unknown domains from a single data source. In this paper we introduce a novel framework, named CompStyle, which leverages style transfer and adversarial training, along with high-level input complexity augmentation to effectively expand the domain space and address unknown distributions. State-of-the-art style transfer methods depend on the existence of subdomains within the source dataset. However, this can lead to an inherent dataset bias in the image creation. Input-level augmentation can provide a solution to this problem by widening the domain space in the source dataset and boost performance on out-of-domain distributions. We provide results from experiments on semantic segmentation on prostate data and corruption robustness on cardiac data which demonstrate the effectiveness of our approach. Our method increases performance in both tasks, without added cost to training time or resources.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# Coded Computing: 学習理論フレームワーク

Coded Computing: A Learning-Theoretic Framework ( http://arxiv.org/abs/2406.00300v1 )

ライセンス: Link先を確認
Parsa Moradi, Behrooz Tahmasebi, Mohammad Ali Maddah-Ali, (参考訳) コードコンピューティングは、遅い、欠陥のある、あるいは妥協されたサーバーの存在を含む、大規模分散コンピューティングにおける重要な課題に取り組むための、有望なフレームワークとして登場した。 このアプローチでは、各ワーカノードは生のデータ自体ではなく、データの組み合わせを処理する。 最終的な結果は、ワーカノードの集合出力からデコードされる。 しかしながら、現在のコード化されたコンピューティングアプローチと、一般的な分散コンピューティングのより広い視野、特に機械学習のワークロードでは、大きなギャップがあります。 このギャップを埋めるために、我々は、符号化コンピューティングのための新しい基盤を提案し、学習理論の原理を統合し、機械学習アプリケーションにシームレスに適応する新しいフレームワークを開発した。 このフレームワークでは、推定値と真値の間の平均2乗誤差として定義される損失関数を最小限に抑えるエンコーダとデコーダ関数を見つけることが目的である。 最適復号と関数の探索を行い、復号関数の一般化誤差と符号化関数の訓練誤差という2つの項の和によって損失関数が上界化可能であることを示す。 2階ソボレフ空間に着目して最適エンコーダとデコーダを導出する。 提案手法では,推定値の平均2乗誤差が$O(S^4 N^{-3})$と$O(S^{\frac{8}{5}}N^{\frac{-3}{5}})$の2乗誤差であることを示す。 最後に,様々な機械学習モデルの推論タスクに関する提案手法を評価し,提案手法が精度と収束率において最先端の手法より優れていることを示す。

Coded computing has emerged as a promising framework for tackling significant challenges in large-scale distributed computing, including the presence of slow, faulty, or compromised servers. In this approach, each worker node processes a combination of the data, rather than the raw data itself. The final result then is decoded from the collective outputs of the worker nodes. However, there is a significant gap between current coded computing approaches and the broader landscape of general distributed computing, particularly when it comes to machine learning workloads. To bridge this gap, we propose a novel foundation for coded computing, integrating the principles of learning theory, and developing a new framework that seamlessly adapts with machine learning applications. In this framework, the objective is to find the encoder and decoder functions that minimize the loss function, defined as the mean squared error between the estimated and true values. Facilitating the search for the optimum decoding and functions, we show that the loss function can be upper-bounded by the summation of two terms: the generalization error of the decoding function and the training error of the encoding function. Focusing on the second-order Sobolev space, we then derive the optimal encoder and decoder. We show that in the proposed solution, the mean squared error of the estimation decays with the rate of $O(S^4 N^{-3})$ and $O(S^{\frac{8}{5}}N^{\frac{-3}{5}})$ in noiseless and noisy computation settings, respectively, where $N$ is the number of worker nodes with at most $S$ slow servers (stragglers). Finally, we evaluate the proposed scheme on inference tasks for various machine learning models and demonstrate that the proposed framework outperforms the state-of-the-art in terms of accuracy and rate of convergence.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# FedAST: フェデレーション非同期同時トレーニング

FedAST: Federated Asynchronous Simultaneous Training ( http://arxiv.org/abs/2406.00302v1 )

ライセンス: Link先を確認
Baris Askin, Pranay Sharma, Carlee Joe-Wong, Gauri Joshi, (参考訳) Federated Learning (FL)は、エッジデバイスやクライアントがプライベートデータを共有せずに機械学習(ML)モデルを協調的にトレーニングすることを可能にする。 FLにおける既存の作業の多くは、1つのタスクのモデルを効率的に学習することに集中しています。 本稿では,クライアントの共通集合を用いて複数のFLモデルの同時学習について検討する。 既存の数少ない同時トレーニング方法は、クライアント更新の同期アグリゲーションを採用しており、大きなモデルや遅いクライアントがアグリゲーションをボトルネックにする可能性があるため、大きな遅延を引き起こす可能性がある。 一方、単純な非同期アグリゲーションは、古いクライアント更新によって悪影響を受けます。 我々は、緩やかなモデルのボトルネックを克服し、不均一なタスクにクライアントリソースを適応的に割り当てるバッファリング非同期フェデレーション同時学習アルゴリズムであるFedASTを提案する。 滑らかな非凸目的関数に対するFedASTの理論的収束保証を提供する。 複数の実世界のデータセットに対する大規模な実験により、提案手法は既存のFLアプローチよりも優れており、複数のタスクを完了させるために最大46.0%の時間を短縮できることを示した。

Federated Learning (FL) enables edge devices or clients to collaboratively train machine learning (ML) models without sharing their private data. Much of the existing work in FL focuses on efficiently learning a model for a single task. In this paper, we study simultaneous training of multiple FL models using a common set of clients. The few existing simultaneous training methods employ synchronous aggregation of client updates, which can cause significant delays because large models and/or slow clients can bottleneck the aggregation. On the other hand, a naive asynchronous aggregation is adversely affected by stale client updates. We propose FedAST, a buffered asynchronous federated simultaneous training algorithm that overcomes bottlenecks from slow models and adaptively allocates client resources across heterogeneous tasks. We provide theoretical convergence guarantees for FedAST for smooth non-convex objective functions. Extensive experiments over multiple real-world datasets demonstrate that our proposed method outperforms existing simultaneous FL approaches, achieving up to 46.0% reduction in time to train multiple tasks to completion.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 強化学習によるテキスト要約の多次元最適化

Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning ( http://arxiv.org/abs/2406.00303v1 )

ライセンス: Link先を確認
Sangwon Ryu, Heejin Do, Yunsu Kim, Gary Geunbae Lee, Jungseul Ok, (参考訳) 要約品質の評価は、一貫性、コヒーレンス、妥当性、流布度などの様々な次元を含む。 しかし、既存の要約手法はしばしば特定の次元をターゲットにしており、複数の次元にわたってバランスのとれた要約を生成する際の課題に直面している。 本稿では,4次元すべてにまたがるバランスの取れた要約を生成するために,多目的強化学習を提案する。 適応学習のための2つの多次元最適化(MDO)戦略を導入する。 1)MDO_min、現在の最低寸法スコア、及び 2) MDO_proはマルチタスク学習に類似した複数の次元を最適化し、勾配投影により次元間の対立する勾配を解消する。 従来のROUGEベースの報酬が参照サマリーに依存しているのとは違って、QAベースの報酬モデルが人間の好みに合わせている。 さらに,重要な点をカプセル化した簡潔かつ情報に富んだ要約を生成するために,割引係数を調整して要約の長さを調節する能力を見出した。 提案手法は,特に見過ごされた次元において,代表的な要約データセットのベースラインモデルと比較して,かなりの性能向上を達成した。

The evaluation of summary quality encompasses diverse dimensions such as consistency, coherence, relevance, and fluency. However, existing summarization methods often target a specific dimension, facing challenges in generating well-balanced summaries across multiple dimensions. In this paper, we propose multi-objective reinforcement learning tailored to generate balanced summaries across all four dimensions. We introduce two multi-dimensional optimization (MDO) strategies for adaptive learning: 1) MDO_min, rewarding the current lowest dimension score, and 2) MDO_pro, optimizing multiple dimensions similar to multi-task learning, resolves conflicting gradients across dimensions through gradient projection. Unlike prior ROUGE-based rewards relying on reference summaries, we use a QA-based reward model that aligns with human preferences. Further, we discover the capability to regulate the length of summaries by adjusting the discount factor, seeking the generation of concise yet informative summaries that encapsulate crucial points. Our approach achieved substantial performance gains compared to baseline models on representative summarization datasets, particularly in the overlooked dimensions.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# HENASY:Egocentric Video-Language Modelのためのシーンエンティティの集合学習

HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model ( http://arxiv.org/abs/2406.00307v1 )

ライセンス: Link先を確認
Khoa Vo, Thinh Phan, Kashu Yamazaki, Minh Tran, Ngan Le, (参考訳) 大規模なビデオキャプチャデータセットで事前トレーニングされたVLM(Video-Language Models)が、堅牢なビジュアル言語表現とダウンストリームタスクの標準になった。 しかし、グローバルコントラストアライメントへの依存は、視覚的要素とテキスト的要素の間のきめ細かい相互作用を捉える能力を制限している。 これらの課題に対処するために,ビデオコンテンツ表現の粒度を向上するエゴセントリックなビデオ分析のための新しいフレームワークであるHENASY(Hierarchical ENtities ASsemblY)を紹介する。 HENASYは、ビデオパッチから動的エンティティを組み立て、拡張スロットアテンションとグループ化機構を使用して構成的なアプローチを採用する。 ダイナミックモデリングのためのローカルエンティティエンコーダ、より広いコンテキスト理解のためのグローバルエンコーダ、後期融合のためのエンティティ認識デコーダを統合し、効果的なビデオシーンダイナミックスモデリングとビジュアルエンティティとテキスト間の粒度レベルのアライメントを可能にする。 革新的な対照的な損失を取り入れることで、HENASYはエンティティとアクティビティの認識を大幅に改善し、Ego4DやEpicKitchenのようなベンチマークで優れたパフォーマンスを提供し、ゼロショットと広範なビデオ理解タスクにおいて新しい標準を設定する。 我々は,HENASYの画期的な能力を確認し,ビデオ言語マルチモーダル研究における重要な進歩として確立した。

Video-Language Models (VLMs), pre-trained on large-scale video-caption datasets, are now standard for robust visual-language representation and downstream tasks. However, their reliance on global contrastive alignment limits their ability to capture fine-grained interactions between visual and textual elements. To address these challenges, we introduce HENASY (Hierarchical ENtities ASsemblY), a novel framework designed for egocentric video analysis that enhances the granularity of video content representations. HENASY employs a compositional approach using an enhanced slot-attention and grouping mechanisms for videos, assembling dynamic entities from video patches. It integrates a local entity encoder for dynamic modeling, a global encoder for broader contextual understanding, and an entity-aware decoder for late-stage fusion, enabling effective video scene dynamics modeling and granular-level alignment between visual entities and text. By incorporating innovative contrastive losses, HENASY significantly improves entity and activity recognition, delivering superior performance on benchmarks such as Ego4D and EpicKitchen, and setting new standards in both zero-shot and extensive video understanding tasks. Our results confirm groundbreaking capabilities of HENASY and establish it as a significant advancement in video-language multimodal research.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 種苗からハーベスト:インスタンスセグメンテーションによる大豆の雑草検出用成長大豆データセット

From Seedling to Harvest: The GrowingSoy Dataset for Weed Detection in Soy Crops via Instance Segmentation ( http://arxiv.org/abs/2406.00313v1 )

ライセンス: Link先を確認
Raul Steinmetz, Victor A. Kich, Henrique Krever, Joao D. Rigo Mazzarolo, Ricardo B. Grando, Vinicius Marini, Celio Trois, Ard Nieuwenhuizen, (参考訳) ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン、特に農業タスクにおいてその有効性に大きな注目を集めている。 近年のインスタンスセグメンテーションの進歩により、画像分類精度が向上した。 本研究では,ニューラルネットワークを学習して雑草や大豆をインスタンスセグメンテーションで検出するための包括的データセットを提案する。 我々のデータセットは、大豆の生育の様々な段階をカバーし、1,000枚の微妙な注釈付き画像とともに、雑草の侵入の影響に関する時系列的な視点を提供する。 また、このデータセットでトレーニングされた6つの最先端モデルを提供し、プランテーションプロセスのすべての段階で大豆や雑草を理解し、検出することができます。 本データセットを雑草と大豆のセグメンテーションに使用することにより, セグメンテーション平均精度79.1%, 全植物種別平均リコール69.2%, YOLOv8Xモデルを用いて達成した。 さらに、YOLOv8Mモデルでは、カルー雑草における平均精度(mAp-50)が78.7%、草雑草では69.7%、大豆では90.1%に達した。

Deep learning, particularly Convolutional Neural Networks (CNNs), has gained significant attention for its effectiveness in computer vision, especially in agricultural tasks. Recent advancements in instance segmentation have improved image classification accuracy. In this work, we introduce a comprehensive dataset for training neural networks to detect weeds and soy plants through instance segmentation. Our dataset covers various stages of soy growth, offering a chronological perspective on weed invasion's impact, with 1,000 meticulously annotated images. We also provide 6 state of the art models, trained in this dataset, that can understand and detect soy and weed in every stage of the plantation process. By using this dataset for weed and soy segmentation, we achieved a segmentation average precision of 79.1% and an average recall of 69.2% across all plant classes, with the YOLOv8X model. Moreover, the YOLOv8M model attained 78.7% mean average precision (mAp-50) in caruru weed segmentation, 69.7% in grassy weed segmentation, and 90.1% in soy plant segmentation.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 事例:Curricular Data Pre-training for building Generative and Discriminative Assistive Psychology Expert Models

CASE: Curricular Data Pre-training for Building Generative and Discriminative Assistive Psychology Expert Models ( http://arxiv.org/abs/2406.00314v1 )

ライセンス: Link先を確認
Sarthak Harne, Monjoy Narayan Choudhury, Madhav Rao, TK Srikanth, Seema Mehrotra, Apoorva Vashisht, Aarushi Basu, Manjit Sodhi, (参考訳) 心理学者の限られた可用性は、緊急の精神医療を必要とする個人を効果的に識別する必要がある。 本研究では、自然言語処理(NLP)パイプラインを用いて、コンサルティングに使用されるオンラインメンタルヘルスフォーラムのテキストデータを解析する。 フォーラムの投稿を分析することで、これらのパイプラインは、すぐに専門家の注意を必要とするかもしれないユーザーにフラグを付けることができる。 この領域における重要な課題は、データのプライバシと不足である。 そこで本研究では,NLPパイプラインの事前学習のために,メンタルヘルスを専門とする研究所で利用可能なカリキュラムテキストを活用することを提案する。 これは心理学者のトレーニングプロセスを模倣するのに役立ちます。 本研究は,ホルムテキストに基づく潜在的なメンタルヘルス障害をフラグするCASE-BERTモデルと,予備診断のための重要な特徴を抽出するCASE-Gemmaという生成モデルとの2つのモデルを提案する。 Case-BERTは既存の方法に比べて優れたパフォーマンスを示しており、うつ病では0.91点、不安では0.88点と報告されている精神疾患では最も多い。 CASE-Gemmaは、フォーラムテキストに基づいて診断を生成するBERTスコア0.849を達成できる。 CASE-Gemmaの有効性は、人的評価と質的評価の両方を通じて評価され、臨床心理学者の協力を得て、微調整と評価のための注釈付きデータのセットが提供される。 私たちのコードはhttps://github.com/sarthakharne/CASEで利用可能です。

The limited availability of psychologists necessitates efficient identification of individuals requiring urgent mental healthcare. This study explores the use of Natural Language Processing (NLP) pipelines to analyze text data from online mental health forums used for consultations. By analyzing forum posts, these pipelines can flag users who may require immediate professional attention. A crucial challenge in this domain is data privacy and scarcity. To address this, we propose utilizing readily available curricular texts used in institutes specializing in mental health for pre-training the NLP pipelines. This helps us mimic the training process of a psychologist. Our work presents two models: a discriminative BERT-based model called CASE-BERT that flags potential mental health disorders based on forum text, and a generative model called CASE-Gemma that extracts key features for a preliminary diagnosis. CASE-BERT demonstrates superior performance compared to existing methods, achieving an f1 score of 0.91 for Depression and 0.88 for Anxiety, two of the most commonly reported mental health disorders. CASE-Gemma can achieve a BERT Score of 0.849 on generating diagnoses based on forum text. The effectiveness of CASE-Gemma is evaluated through both human evaluation and qualitative methods, with the collaboration of clinical psychologists who provide us with a set of annotated data for fine-tuning and evaluation. Our code is available at https://github.com/sarthakharne/CASE
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 動的ロボット環境におけるYOLOv5とYOLOv8の精度と適応性

Precision and Adaptability of YOLOv5 and YOLOv8 in Dynamic Robotic Environments ( http://arxiv.org/abs/2406.00315v1 )

ライセンス: Link先を確認
Victor A. Kich, Muhammad A. Muttaqien, Junya Toyama, Ryutaro Miyoshi, Yosuke Ida, Akihisa Ohya, Hisashi Date, (参考訳) リアルタイムオブジェクト検出フレームワークの最近の進歩は、ロボットシステムへの応用に関する広範な研究を刺激している。 本研究は、YOLOv5とYOLOv8モデルの比較分析を行い、パフォーマンス指標における後者の優位性の仮定に挑戦する。 初期の期待とは対照的に、YOLOv5モデルは同等で、場合によってはオブジェクト検出タスクの精度が優れていた。 分析は、モデルアーキテクチャの複雑さ、データセットの分散のトレーニング、実世界の適用性といった側面を考察し、これらの発見に寄与する要因について考察する。 厳密なテストとアブレーション研究を通じて、ロボットアプリケーションのためのオブジェクト検出フレームワークの選択と最適化に関する洞察を提供する。 この研究の意味は、より効率的で文脈適応的なシステムの設計にまで拡張され、モデル性能を評価するための全体論的アプローチの必要性を強調している。

Recent advancements in real-time object detection frameworks have spurred extensive research into their application in robotic systems. This study provides a comparative analysis of YOLOv5 and YOLOv8 models, challenging the prevailing assumption of the latter's superiority in performance metrics. Contrary to initial expectations, YOLOv5 models demonstrated comparable, and in some cases superior, precision in object detection tasks. Our analysis delves into the underlying factors contributing to these findings, examining aspects such as model architecture complexity, training dataset variances, and real-world applicability. Through rigorous testing and an ablation study, we present a nuanced understanding of each model's capabilities, offering insights into the selection and optimization of object detection frameworks for robotic applications. Implications of this research extend to the design of more efficient and contextually adaptive systems, emphasizing the necessity for a holistic approach to evaluating model performance.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# 政策評価のための実験データと歴史的データの組み合わせ

Combining Experimental and Historical Data for Policy Evaluation ( http://arxiv.org/abs/2406.00317v1 )

ライセンス: Link先を確認
Ting Li, Chengchun Shi, Qianglin Wen, Yang Sui, Yongli Qin, Chunbo Lai, Hongtu Zhu, (参考訳) 本稿では,複数のデータソースを用いた政策評価,特に2つのアームを持つ実験データセットを1つのコントロールアームで生成した履歴データセットで補完するシナリオについて検討する。 実験データと履歴データに基づいて構築された基本方針値推定器を線形に積分する新たなデータ統合手法を提案し,その結果の組合せ推定器の平均二乗誤差(MSE)を最小化するために重みを最適化した。 さらに悲観的原理を適用して、より堅牢な推定値を求め、これらの展開を逐次的な意思決定にまで拡張する。 理論的には、提案した推定器のMSEに対する非漸近誤差境界を確立し、そのオラクル、効率、ロバストネス特性を広い範囲の報酬シフトシナリオで導出する。 配車会社による数値実験と実データに基づく分析は,提案した推定器の優れた性能を示す。

This paper studies policy evaluation with multiple data sources, especially in scenarios that involve one experimental dataset with two arms, complemented by a historical dataset generated under a single control arm. We propose novel data integration methods that linearly integrate base policy value estimators constructed based on the experimental and historical data, with weights optimized to minimize the mean square error (MSE) of the resulting combined estimator. We further apply the pessimistic principle to obtain more robust estimators, and extend these developments to sequential decision making. Theoretically, we establish non-asymptotic error bounds for the MSEs of our proposed estimators, and derive their oracle, efficiency and robustness properties across a broad spectrum of reward shift scenarios. Numerical experiments and real-data-based analyses from a ridesharing company demonstrate the superior performance of the proposed estimators.
翻訳日:2024-06-06 07:44:24 公開日:2024-06-01
# KGLink:知識グラフと事前学習言語モデルを組み合わせた列型アノテーション手法

KGLink: A column type annotation method that combines knowledge graph and pre-trained language model ( http://arxiv.org/abs/2406.00318v1 )

ライセンス: Link先を確認
Yubo Wang, Hao Xin, Lei Chen, (参考訳) 表形式のデータのセマンティックアノテーションは、下流の様々なタスクにおいて重要な役割を果たす。 従来の研究では、知識グラフ(KG)に基づく深層学習に基づく手法が提案されており、それぞれに固有の制限がある。 KGをベースとした手法は、KGのカラム細胞にマッチしない場合、カラムに注釈を付けるのが困難である。 さらに、KGベースの手法では、1つの列に対して複数の予測が可能であるため、データセットに最も適した粒度でセマンティックタイプを決定することは困難である。 このタイプの粒度問題はスケーラビリティを制限します。 一方、深層学習に基づく手法は、価値ある文脈不足問題に関連する課題に直面している。 これは、テーブル内の情報が正しい列タイプを決定するのに不十分な場合に発生する。 本稿では,WikiData KG情報とテーブル列アノテーションのための事前学習言語モデルを組み合わせたKGLinkを提案する。 KGLinkの有効性と有効性を示すために,数値列と文字列列を多種多様に包含する広範に使われている表型データセットに関する総合実験を行った。 KGLinkの強みを生かして、我々は、型粒度と貴重なコンテキスト問題に関連する課題を克服し、表データの意味的アノテーションのための堅牢なソリューションとして確立した。

The semantic annotation of tabular data plays a crucial role in various downstream tasks. Previous research has proposed knowledge graph (KG)-based and deep learning-based methods, each with its inherent limitations. KG-based methods encounter difficulties annotating columns when there is no match for column cells in the KG. Moreover, KG-based methods can provide multiple predictions for one column, making it challenging to determine the semantic type with the most suitable granularity for the dataset. This type granularity issue limits their scalability. On the other hand, deep learning-based methods face challenges related to the valuable context missing issue. This occurs when the information within the table is insufficient for determining the correct column type. This paper presents KGLink, a method that combines WikiData KG information with a pre-trained deep learning language model for table column annotation, effectively addressing both type granularity and valuable context missing issues. Through comprehensive experiments on widely used tabular datasets encompassing numeric and string columns with varying type granularity, we showcase the effectiveness and efficiency of KGLink. By leveraging the strengths of KGLink, we successfully surmount challenges related to type granularity and valuable context issues, establishing it as a robust solution for the semantic annotation of tabular data.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# Frieren: フローマッチングによる効率的なビデオ・ツー・オーディオ生成

Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching ( http://arxiv.org/abs/2406.00320v1 )

ライセンス: Link先を確認
Yongqi Wang, Wenxiang Guo, Rongjie Huang, Jiawei Huang, Zehan Wang, Fuming You, Ruiqi Li, Zhou Zhao, (参考訳) Video-to-audio (V2A) の生成は、サイレントビデオからコンテンツマッチング音声を合成することを目的としており、高世代品質、効率、ビジュアルオーディオ時間同期を備えたV2Aモデルを構築することは依然として困難である。 本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。 Frierenは、ノイズからスペクトルへの遅延したスペクトルへの条件伝達ベクトル場を直線的な経路で回帰し、ODEを解くことでサンプリングを行い、オーディオ品質の観点から自己回帰モデルとスコアベースモデルより優れている。 フィードフォワード変換器をベースとした非自己回帰ベクトル場推定器と、時間的アライメントの強いチャネルレベルのクロスモーダル特徴融合を用いて、入力ビデオと高度に同期した音声を生成する。 さらに,リフローと誘導ベクトル場による一段階蒸留により,本モデルでは,数回,あるいは1回のみのサンプリングステップで良好な音声を生成できる。 実験により、フリーレンはVGGSoundにおける生成品質と時間的アライメントの両方で最先端のパフォーマンスを達成し、アライメント精度は97.22%に達し、強力な拡散ベースラインよりも6.2%向上した。 オーディオサンプルはhttp://frieren-v2a.github.ioで入手できる。

Video-to-audio (V2A) generation aims to synthesize content-matching audio from silent video, and it remains challenging to build V2A models with high generation quality, efficiency, and visual-audio temporal synchrony. We propose Frieren, a V2A model based on rectified flow matching. Frieren regresses the conditional transport vector field from noise to spectrogram latent with straight paths and conducts sampling by solving ODE, outperforming autoregressive and score-based models in terms of audio quality. By employing a non-autoregressive vector field estimator based on a feed-forward transformer and channel-level cross-modal feature fusion with strong temporal alignment, our model generates audio that is highly synchronized with the input video. Furthermore, through reflow and one-step distillation with guided vector field, our model can generate decent audio in a few, or even only one sampling step. Experiments indicate that Frieren achieves state-of-the-art performance in both generation quality and temporal alignment on VGGSound, with alignment accuracy reaching 97.22%, and 6.2% improvement in inception score over the strong diffusion-based baseline. Audio samples are available at http://frieren-v2a.github.io .
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# フォトニック合成周波数次元における非アベリア格子ゲージ場

Non-Abelian lattice gauge fields in the photonic synthetic frequency dimension ( http://arxiv.org/abs/2406.00321v1 )

ライセンス: Link先を確認
Dali Cheng, Kai Wang, Charles Roques-Carmes, Eran Lustig, Olivia Y. Long, Heming Wang, Shanhui Fan, (参考訳) 非アベリアゲージ場はスピンを持つ粒子を記述するための概念的枠組みを提供する。 非アベリアゲージ場の理論的重要性は、その実験的合成と探索を動機付けている。 ここでは、光子に対する非アベリア格子ゲージ場を示す。 ゲージ場の研究において、格子モデルは拡張系におけるそれらの意味を理解するのに不可欠である。 我々は合成周波数次元のプラットフォームを利用して、スケーラブルでプログラム可能な方法で格子物理学の研究を可能にする。 このようなディラック円錐に付随する固有状態軌道の向き逆転と同様に、時間反転不変モータにおけるディラック円錐を観察する。 どちらも格子系における非アベリアゲージ場の特異なシグネチャである。 この結果は、トポロジカル物理学の研究における非アベリアゲージ場の影響を強調し、光子スピンと擬似スピンの制御の機会を提案する。

Non-Abelian gauge fields provide a conceptual framework for the description of particles having spins. The theoretical importance of non-Abelian gauge fields motivates their experimental synthesis and explorations. Here, we demonstrate non-Abelian lattice gauge fields for photons. In the study of gauge fields, lattice models are essential for the understanding of their implications in extended systems. We utilize the platform of synthetic frequency dimensions, which enables the study of lattice physics in a scalable and programmable way. We observe Dirac cones at time-reversal-invariant momenta as well as the direction reversal of eigenstate trajectories associated with such Dirac cones. Both of them are unique signatures of non-Abelian gauge fields in our lattice system. Our results highlight the implications of non-Abelian gauge field in the study of topological physics and suggest opportunities for the control of photon spins and pseudospins.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# Do's and Don'ts: インストラクションビデオによる望ましいスキルの学習

Do's and Don'ts: Learning Desirable Skills with Instruction Videos ( http://arxiv.org/abs/2406.00324v1 )

ライセンス: Link先を確認
Hyunseung Kim, Byungkun Lee, Hojoon Lee, Dongyoon Hwang, Donghu Kim, Jaegul Choo, (参考訳) 教師なしスキル発見は、明確な報酬なしに多様な行動を取得することを目的とした学習パラダイムである。 しかし、複雑な振る舞いを学習する際の課題に直面し、多くの場合、安全でない振る舞いや望ましくない振る舞いを学ぶことにつながる。 例えば、様々な継続的制御タスクにおいて、現在の教師なしスキル発見手法は、立ち上がりのような基本的な動きを学ぶのに成功するが、歩行やランニングのようなより複雑な動きを学ぶのに苦労する。 さらに、トリップや転がりといった危険な行動や、落とし穴や危険地域といった望ましくない場所への移動も可能である。 そこで本研究では,2段階からなる教示に基づくスキル発見アルゴリズムであるDoDont(Do's and Don'ts)を提案する。 第一に、教示学習の段階では、DoDontはアクションフリーの教示ビデオを利用して、望ましくない教示ネットワークを訓練し、望ましい移行と望ましくない遷移を区別する。 そして、スキル学習段階において、指導ネットワークは、スキル発見アルゴリズムの報酬関数を調整し、所望の行動を重み付けする。 具体的には、命令ネットワークを距離最大化スキル発見アルゴリズムに統合し、命令ネットワークが距離関数として機能する。 実証的には、8つ未満のインストラクションビデオで、DoDontは望ましい振る舞いを効果的に学習し、複雑な継続的制御タスクで望ましくないものを避ける。 コードとビデオはhttps://mynsng.github.io/dodont/で公開されている。

Unsupervised skill discovery is a learning paradigm that aims to acquire diverse behaviors without explicit rewards. However, it faces challenges in learning complex behaviors and often leads to learning unsafe or undesirable behaviors. For instance, in various continuous control tasks, current unsupervised skill discovery methods succeed in learning basic locomotions like standing but struggle with learning more complex movements such as walking and running. Moreover, they may acquire unsafe behaviors like tripping and rolling or navigate to undesirable locations such as pitfalls or hazardous areas. In response, we present DoDont (Do's and Don'ts), an instruction-based skill discovery algorithm composed of two stages. First, in an instruction learning stage, DoDont leverages action-free instruction videos to train an instruction network to distinguish desirable transitions from undesirable ones. Then, in the skill learning stage, the instruction network adjusts the reward function of the skill discovery algorithm to weight the desired behaviors. Specifically, we integrate the instruction network into a distance-maximizing skill discovery algorithm, where the instruction network serves as the distance function. Empirically, with less than 8 instruction videos, DoDont effectively learns desirable behaviors and avoids undesirable ones across complex continuous control tasks. Code and videos are available at https://mynsng.github.io/dodont/
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# 品質感:医療セグメンテーションデータセットにおけるラベル品質と誤差の推定

Quality Sentinel: Estimating Label Quality and Errors in Medical Segmentation Datasets ( http://arxiv.org/abs/2406.00327v1 )

ライセンス: Link先を確認
Yixiong Chen, Zongwei Zhou, Alan Yuille, (参考訳) 公開データセットの増加は、自動化された医療セグメンテーションに変革的な影響を示している。 しかしながら、これらのデータセットは、手動のエキスパートアノテーションからAI生成の擬似アノテーションまで、さまざまなラベル品質を持つことが多い。 体系的で信頼性があり、自動品質管理(QC)はない。 このブリッジを埋めるために、医療セグメント化データセットのマニュアルアノテーションと比較してラベル品質を推定する回帰モデル、Quality Sentinelを導入する。 この回帰モデルは、私たちが開発した400万以上の画像ラベルペアでトレーニングされました。 各ペアは、手動のアノテーションに基づいて、変動するが定量化されたラベル品質を示し、推論において、任意の画像ラベルペアのラベル品質を予測できる。 われわれの品質センサーは、142のボディ構造のラベル品質を予測することができる。 Dice similarity Coefficient (DSC) によって定量化された予測されたラベル品質は、正の相関係数 (r=0.902) とともに、地上の真実品質と強い相関関係を持つ。 Quality Sentinelは、いくつかの影響のあるユースケースを見つけた。 (I) 公開データセットにおけるラベル品質の評価を行った。 分析の結果,男性と若年者の品質が著しく向上していることが判明した。 (II) TotalSegmentatorを最適予算化することによりアノテーションコストの1/3削減を実現し,アノテートが不十分なラベルを特定し,修正した。 (III) 高品質な擬似ラベルに着目してAIトレーニングの効率とパフォーマンスを向上させた結果、エントロピーベースの手法よりも33%~88%のパフォーマンスが向上し、コストは31%、メモリは4.5%になった。 データとモデルがリリースされる。

An increasing number of public datasets have shown a transformative impact on automated medical segmentation. However, these datasets are often with varying label quality, ranging from manual expert annotations to AI-generated pseudo-annotations. There is no systematic, reliable, and automatic quality control (QC). To fill in this bridge, we introduce a regression model, Quality Sentinel, to estimate label quality compared with manual annotations in medical segmentation datasets. This regression model was trained on over 4 million image-label pairs created by us. Each pair presents a varying but quantified label quality based on manual annotations, which enable us to predict the label quality of any image-label pairs in the inference. Our Quality Sentinel can predict the label quality of 142 body structures. The predicted label quality quantified by Dice Similarity Coefficient (DSC) shares a strong correlation with ground truth quality, with a positive correlation coefficient (r=0.902). Quality Sentinel has found multiple impactful use cases. (I) We evaluated label quality in publicly available datasets, where quality highly varies across different datasets. Our analysis also uncovers that male and younger subjects exhibit significantly higher quality. (II) We identified and corrected poorly annotated labels, achieving 1/3 reduction in annotation costs with optimal budgeting on TotalSegmentator. (III) We enhanced AI training efficiency and performance by focusing on high-quality pseudo labels, resulting in a 33%--88% performance boost over entropy-based methods, with a cost of 31% time and 4.5% memory. The data and model are released.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# $\ell_2$拡張による$\ell_p$感度サンプリングのための最適境界

Optimal bounds for $\ell_p$ sensitivity sampling via $\ell_2$ augmentation ( http://arxiv.org/abs/2406.00328v1 )

ライセンス: Link先を確認
Alexander Munteanu, Simon Omlor, (参考訳) データサブサンプリングは、小さな代表プロキシによって設定された巨大なデータセットを近似する最も自然な方法の1つである。 特に感度サンプリングには多くの注意が払われており、これは感度と呼ばれる個々の重要度に比例する。 このフレームワークは、データのサイズをおよそVC次元の$d$の合計感度の$\mathfrak S$の約$d$に減らし、強い$(1\pm\varepsilon)$近似の品質を保証する。 Woodruff & Yasuda (2023c) の最近の研究は、一般の$\tilde O(\varepsilon^{-2}\mathfrak Sd)$ と $\tilde O(\varepsilon^{-2}\mathfrak S^{2/p})$ に$\ell_p$ の部分空間埋め込みの重要な問題に対する$ を$p\in[1,2]$ に限定して大幅に改善した。 それらの結果は、より初期の$\tilde O(\varepsilon^{-2}\mathfrak Sd^{1-p/2})$boundによって仮定され、これはChen & Derezinski (2021) の研究で暗黙的に与えられた。 通常の$\ell_p$ Sensitivitiesに従ってサンプリングすると,結果が厳密であることを示す。 我々は、$\ell_p$ Sensitivities を$\ell_2$ Sensitivities で増すことにより、上記の結果よりもより良い境界を最適線型 $\tilde O(\varepsilon^{-2}(\mathfrak S+d)) = \tilde O(\varepsilon^{-2}d)$ sample complexity for all $p \in [1,2]$ とする。 特に、このことはWoodruff & Yasuda (2023c) を$p \in [1,2]$で肯定的に解決し、以前ルイス重みを使ってしかできなかった体制に感度サブサンプリングをもたらす(Cohen & Peng, 2015)。 主な結果の応用として、ロジスティック回帰のために束縛された$\tilde O(\varepsilon^{-2}\mu d)$感度サンプリングも得られる。 これは以前の$\tilde O(\varepsilon^{-2}\mu^2 d)$ bound of Mai et al (2021)よりも改善される。

Data subsampling is one of the most natural methods to approximate a massively large data set by a small representative proxy. In particular, sensitivity sampling received a lot of attention, which samples points proportional to an individual importance measure called sensitivity. This framework reduces in very general settings the size of data to roughly the VC dimension $d$ times the total sensitivity $\mathfrak S$ while providing strong $(1\pm\varepsilon)$ guarantees on the quality of approximation. The recent work of Woodruff & Yasuda (2023c) improved substantially over the general $\tilde O(\varepsilon^{-2}\mathfrak Sd)$ bound for the important problem of $\ell_p$ subspace embeddings to $\tilde O(\varepsilon^{-2}\mathfrak S^{2/p})$ for $p\in[1,2]$. Their result was subsumed by an earlier $\tilde O(\varepsilon^{-2}\mathfrak Sd^{1-p/2})$ bound which was implicitly given in the work of Chen & Derezinski (2021). We show that their result is tight when sampling according to plain $\ell_p$ sensitivities. We observe that by augmenting the $\ell_p$ sensitivities by $\ell_2$ sensitivities, we obtain better bounds improving over the aforementioned results to optimal linear $\tilde O(\varepsilon^{-2}(\mathfrak S+d)) = \tilde O(\varepsilon^{-2}d)$ sampling complexity for all $p \in [1,2]$. In particular, this resolves an open question of Woodruff & Yasuda (2023c) in the affirmative for $p \in [1,2]$ and brings sensitivity subsampling into the regime that was previously only known to be possible using Lewis weights (Cohen & Peng, 2015). As an application of our main result, we also obtain an $\tilde O(\varepsilon^{-2}\mu d)$ sensitivity sampling bound for logistic regression, where $\mu$ is a natural complexity measure for this problem. This improves over the previous $\tilde O(\varepsilon^{-2}\mu^2 d)$ bound of Mai et al. (2021) which was based on Lewis weights subsampling.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# Sparse 2D Cardiac MR画像による全心3D+T表現学習

Whole Heart 3D+T Representation Learning Through Sparse 2D Cardiac MR Images ( http://arxiv.org/abs/2406.00329v1 )

ライセンス: Link先を確認
Yundi Zhang, Chen Chen, Suprosanna Shit, Sophie Starck, Daniel Rueckert, Jiazhen Pan, (参考訳) 心臓磁気共鳴(CMR)イメージングは、心臓形態と機能を評価するための金標準として機能する。 通常、短軸(SA)と2/3/4チャンバー長軸(LA)をカバーした多視点CMRスタックが、徹底的な心臓評価のために取得される。 しかし、複雑で高次元の3D+T CMRデータを効率的に合理化し、コンパクトでコヒーレントな表現を蒸留することは依然として困難である。 本研究では,マスク画像モデルを用いて心臓スタック全体における空間的パッチと時間的パッチの相関関係を自動的に解明する自己教師付き学習フレームワークを提案する。 このプロセスは、伝統的に必要であり、しばしばコストがかかるラベル付きデータに頼ることなく、有意義でクラスタ化された心臓表現の生成を促進する。 学習したハート表現は、様々な下流タスクに直接使用することができる。 さらに,本手法は,特定のCMR平面が欠落した場合でも,一貫した表現を確実にする,顕著な堅牢性を示す。 我々は、UK BioBankから14,000のラベルなしCMRデータをトレーニングし、1000の注釈付きデータで評価する。 提案手法は, 包括的な3D+T心筋情報, eg心筋表現型(エジェクション分画および心室容積)予測, マルチプレーン/マルチフレームCMRセグメンテーションを要求されるタスクにおけるベースラインよりも優れた性能を示し, 解剖学的および病理学的に関連のある包括的な心臓特徴の抽出に有効であることを示す。

Cardiac Magnetic Resonance (CMR) imaging serves as the gold-standard for evaluating cardiac morphology and function. Typically, a multi-view CMR stack, covering short-axis (SA) and 2/3/4-chamber long-axis (LA) views, is acquired for a thorough cardiac assessment. However, efficiently streamlining the complex, high-dimensional 3D+T CMR data and distilling compact, coherent representation remains a challenge. In this work, we introduce a whole-heart self-supervised learning framework that utilizes masked imaging modeling to automatically uncover the correlations between spatial and temporal patches throughout the cardiac stacks. This process facilitates the generation of meaningful and well-clustered heart representations without relying on the traditionally required, and often costly, labeled data. The learned heart representation can be directly used for various downstream tasks. Furthermore, our method demonstrates remarkable robustness, ensuring consistent representations even when certain CMR planes are missing/flawed. We train our model on 14,000 unlabeled CMR data from UK BioBank and evaluate it on 1,000 annotated data. The proposed method demonstrates superior performance to baselines in tasks that demand comprehensive 3D+T cardiac information, e.g. cardiac phenotype (ejection fraction and ventricle volume) prediction and multi-plane/multi-frame CMR segmentation, highlighting its effectiveness in extracting comprehensive cardiac features that are both anatomically and pathologically relevant.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# 機械学習とディープラーニングにおける不確実性に関する文献の構造化

A Structured Review of Literature on Uncertainty in Machine Learning & Deep Learning ( http://arxiv.org/abs/2406.00332v1 )

ライセンス: Link先を確認
Fahimeh Fakour, Ali Mosleh, Ramin Ramezani, (参考訳) 私たちの日常生活における機械学習(ML)の適応と利用は、透明性、プライバシ、信頼性などの欠如に悩まされている。 その結果,解釈可能性,因果性,偏見,公平性,信頼性などのニッチ分野の研究が注目されている。 本稿では、リスクに敏感なアプリケーション、すなわち不確実性を理解し定量化するアプリケーションにおけるMLの適応に対する重要な懸念に焦点を当てる。 本稿では,このトピックを構造化した方法でアプローチし,不確実性がMLプロセスに封入されているというさまざまな側面の文献をレビューする。 まず、不確実性とそのカテゴリ(例えば、失語症やてんかん)を定義し、不確実性の原因(例えば、データやモデル)を理解し、不確実性定量化技術(アンサンブル、ベイズニューラルネットワークなど)で不確実性を評価することから始める。 ML領域における不確実性の評価と理解の一環として、単一のサンプル、データセット、および不確実性推定自体の精度に関する不確実性定量化のメトリクスを網羅する。 この後、キャリブレーション(モデルと不確実性)と不確実性に基づく意思決定に関する議論が続く。 したがって、不確実性の原因から意思決定プロセスまで、より完全な不確実性処理を提供する。 我々は,ディープラーニング(DL)における不確実性定量化手法の見直しに焦点を合わせ,ML内における不確実性議論の背景を提供する。 このレビューの主な貢献は、不確実性議論の範囲を広げることと、DLにおける不確実性定量化手法の見直しである。

The adaptation and use of Machine Learning (ML) in our daily lives has led to concerns in lack of transparency, privacy, reliability, among others. As a result, we are seeing research in niche areas such as interpretability, causality, bias and fairness, and reliability. In this survey paper, we focus on a critical concern for adaptation of ML in risk-sensitive applications, namely understanding and quantifying uncertainty. Our paper approaches this topic in a structured way, providing a review of the literature in the various facets that uncertainty is enveloped in the ML process. We begin by defining uncertainty and its categories (e.g., aleatoric and epistemic), understanding sources of uncertainty (e.g., data and model), and how uncertainty can be assessed in terms of uncertainty quantification techniques (Ensembles, Bayesian Neural Networks, etc.). As part of our assessment and understanding of uncertainty in the ML realm, we cover metrics for uncertainty quantification for a single sample, dataset, and metrics for accuracy of the uncertainty estimation itself. This is followed by discussions on calibration (model and uncertainty), and decision making under uncertainty. Thus, we provide a more complete treatment of uncertainty: from the sources of uncertainty to the decision-making process. We have focused the review of uncertainty quantification methods on Deep Learning (DL), while providing the necessary background for uncertainty discussion within ML in general. Key contributions in this review are broadening the scope of uncertainty discussion, as well as an updated review of uncertainty quantification methods in DL.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# ダイナミックパスカスタマイズによる画像キャプション

Image Captioning via Dynamic Path Customization ( http://arxiv.org/abs/2406.00334v1 )

ライセンス: Link先を確認
Yiwei Ma, Jiayi Ji, Xiaoshuai Sun, Yiyi Zhou, Xiaopeng Hong, Yongjian Wu, Rongrong Ji, (参考訳) 本稿では,視覚と言語タスクのための新しい動的ネットワークについて検討し,異なる入力に対して推論構造をその場でカスタマイズする。 従来の最先端のアプローチは静的で手作りのネットワークであり、専門家の知識に大きく依存するだけでなく、入力サンプルの意味的な多様性も無視している。 これらの課題に対処するために,画像キャプションのための新しい動的トランスフォーマーネットワーク(DTNet)を提案する。 具体的には、リッチなルーティング空間を構築し、ルーティング効率を向上させるために、5種類の基本セルを導入し、それらの操作領域、すなわち空間とチャネルに応じて2つの別々のルーティング空間にグループ化する。 そこで我々は,入力サンプルの空間情報とチャネル情報の両方に基づいて,経路のカスタマイズが可能な空間チャネルジョイントルータ(SCJR)を設計する。 提案するDTNetの有効性を検証するため,MS-COCOデータセットの広範な実験を行い,Karpathyスプリットとオンラインテストサーバの両方で最先端の性能を実現する。

This paper explores a novel dynamic network for vision and language tasks, where the inferring structure is customized on the fly for different inputs. Most previous state-of-the-art approaches are static and hand-crafted networks, which not only heavily rely on expert knowledge, but also ignore the semantic diversity of input samples, therefore resulting in suboptimal performance. To address these issues, we propose a novel Dynamic Transformer Network (DTNet) for image captioning, which dynamically assigns customized paths to different samples, leading to discriminative yet accurate captions. Specifically, to build a rich routing space and improve routing efficiency, we introduce five types of basic cells and group them into two separate routing spaces according to their operating domains, i.e., spatial and channel. Then, we design a Spatial-Channel Joint Router (SCJR), which endows the model with the capability of path customization based on both spatial and channel information of the input sample. To validate the effectiveness of our proposed DTNet, we conduct extensive experiments on the MS-COCO dataset and achieve new state-of-the-art performance on both the Karpathy split and the online test server.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# オンラインマーケティングにおけるDeep Uplift Modelingのためのベンチマーク

Benchmarking for Deep Uplift Modeling in Online Marketing ( http://arxiv.org/abs/2406.00335v1 )

ライセンス: Link先を確認
Dugang Liu, Xing Tang, Yang Qiao, Miao Liu, Zexu Sun, Xiuqiang He, Zhong Ming, (参考訳) オンラインマーケティングは多くの産業用プラットフォームやビジネスアプリケーションにとって重要であり、クーポンやボーナスなどの特定のインセンティブに対して、対応する配送に敏感なグループを特定することによって、ユーザーエンゲージメントとプラットフォーム収益を高めることを目指している。 産業シナリオの特徴の規模と複雑さが増大するにつれて、将来性のある技術としての深層揚力モデリング(DUM)は、学術や産業からの研究を惹きつけ、様々な予測モデルを生み出している。 しかし、現在のDUMには標準化されたベンチマークと統一された評価プロトコルが欠けているため、既存の研究における実験結果の再現性や、この方向における実用的価値と潜在的影響が制限されている。 本稿では、DUMのオープンベンチマークと、既存モデルとの比較結果を再現可能で均一な方法で提示する。 この目的のために、我々は、13の既存モデルを再評価するために、異なる前処理設定を持つ2つの代表的な産業データセットに対して広範な実験を行う。 意外なことに,我々の実験結果から,近年の成果が従来の成果よりも少ないことが判明した。 さらに,本実験では,DUMの一般化における限界,特に前処理とテスト分布の差異も明らかにした。 我々のベンチマーク研究は、研究者が新しいモデルの性能を迅速に評価することを可能にするだけでなく、既存のモデルと公正に比較した結果を合理的に示す。 また、DUMをデプロイする際の見過ごされがちな考慮に対して、実践者が貴重な洞察を与える。 このベンチマークライブラリ、評価プロトコル、実験的なセットアップをGitHubで公開します。

Online marketing is critical for many industrial platforms and business applications, aiming to increase user engagement and platform revenue by identifying corresponding delivery-sensitive groups for specific incentives, such as coupons and bonuses. As the scale and complexity of features in industrial scenarios increase, deep uplift modeling (DUM) as a promising technique has attracted increased research from academia and industry, resulting in various predictive models. However, current DUM still lacks some standardized benchmarks and unified evaluation protocols, which limit the reproducibility of experimental results in existing studies and the practical value and potential impact in this direction. In this paper, we provide an open benchmark for DUM and present comparison results of existing models in a reproducible and uniform manner. To this end, we conduct extensive experiments on two representative industrial datasets with different preprocessing settings to re-evaluate 13 existing models. Surprisingly, our experimental results show that the most recent work differs less than expected from traditional work in many cases. In addition, our experiments also reveal the limitations of DUM in generalization, especially for different preprocessing and test distributions. Our benchmarking work allows researchers to evaluate the performance of new models quickly but also reasonably demonstrates fair comparison results with existing models. It also gives practitioners valuable insights into often overlooked considerations when deploying DUM. We will make this benchmarking library, evaluation protocol, and experimental setup available on GitHub.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# Turnstile $\ell_p$ leverage score sample with application

Turnstile $\ell_p$ leverage score sampling with applications ( http://arxiv.org/abs/2406.00339v1 )

ライセンス: Link先を確認
Alexander Munteanu, Simon Omlor, (参考訳) ターンタイルデータストリームモデルは、データを動的に操作できる最も柔軟なフレームワークを提供する。例えば、行、列、さらには入力行列の単一エントリも、データストリームで複数回追加、削除、または更新できる。 我々は,行列$A\in\mathbb{R}^{n\times d}$の行をサンプリングする新しいアルゴリズムを開発した。 我々のアルゴリズムはサンプリングされた行インデックスの集合を返すだけでなく、わずかに摂動された行を $\tilde{a}_i \approx a_i$ で返し、サンプリング確率を $\varepsilon$ の相対誤差に近似する。 プリコンディショニング技術と組み合わせると、我々のアルゴリズムはターンタイルデータストリーム上でのスコアサンプリングに$\ell_p$まで拡張する。 これらの特性により、重要な回帰問題に対するコアセットのサブサンプリング構造をシミュレートし、各オフラインサブサンプリングアルゴリズムと比較して非常にオーバーヘッドの少ないターンタイルデータストリームを操作することができる。 ロジスティック回帰のために、我々のフレームワークは、1+\varepsilon)$近似を達成し、多項式スケッチ/サブサンプルサイズを使用してターンタイルデータストリームで動作し、$O(1)$近似、または$\exp(1/\varepsilon)$以前の作業のスケッチサイズを改善する最初のアルゴリズムを生成する。 実験では, 粗悪なスケッチと, 平均値$\ell_p$とロジスティック回帰のための平易なレバレッジスコアサンプリングアルゴリズムを比較した。

The turnstile data stream model offers the most flexible framework where data can be manipulated dynamically, i.e., rows, columns, and even single entries of an input matrix can be added, deleted, or updated multiple times in a data stream. We develop a novel algorithm for sampling rows $a_i$ of a matrix $A\in\mathbb{R}^{n\times d}$, proportional to their $\ell_p$ norm, when $A$ is presented in a turnstile data stream. Our algorithm not only returns the set of sampled row indexes, it also returns slightly perturbed rows $\tilde{a}_i \approx a_i$, and approximates their sampling probabilities up to $\varepsilon$ relative error. When combined with preconditioning techniques, our algorithm extends to $\ell_p$ leverage score sampling over turnstile data streams. With these properties in place, it allows us to simulate subsampling constructions of coresets for important regression problems to operate over turnstile data streams with very little overhead compared to their respective off-line subsampling algorithms. For logistic regression, our framework yields the first algorithm that achieves a $(1+\varepsilon)$ approximation and works in a turnstile data stream using polynomial sketch/subsample size, improving over $O(1)$ approximations, or $\exp(1/\varepsilon)$ sketch size of previous work. We compare experimentally to plain oblivious sketching and plain leverage score sampling algorithms for $\ell_p$ and logistic regression.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# DSCA(Digital Subtraction Angiography Sequence Dataset and Spatio-Temporal Model for Cerebral Artery Segmentation)

DSCA: A Digital Subtraction Angiography Sequence Dataset and Spatio-Temporal Model for Cerebral Artery Segmentation ( http://arxiv.org/abs/2406.00341v1 )

ライセンス: Link先を確認
Qihang Xie, Mengguo Guo, Lei Mou, Dan Zhang, Da Chen, Caifeng Shan, Yitian Zhao, Ruisheng Su, Jiong Zhang, (参考訳) 脳血管疾患(CVD)は、世界的な障害と死亡の主な原因である。 DSA(Digital Subtraction Angiography)は、CVDの診断における黄金の基準として認識されており、脳血管内のダイナミックフローをはっきりと可視化し、病理状態を明らかにすることができる。 そのため,脳動脈(CA)の正確な分節化と幹と枝の分類は,医師にとって疾患の正確な定量化に不可欠である。 しかし、DSA配列の正確なCAセグメンテーションを実現することは、低コントラストの小さな容器と、船体と残存頭蓋骨構造の間のあいまいさのため、依然として難しい課題である。 さらに、公開データセットの欠如により、フィールドでの探索が制限される。 本稿では,CAの画素レベルのセマンティックセマンティックセマンティックセマンティクスのために設計された,DSAシークエンスに基づく脳動脈セマンティクスデータセット(DSCA)を紹介する。 さらに,DSAシーケンスにおけるCAセグメンテーションのための時空間ネットワークであるDSANetを提案する。 単一のフレームにのみフォーカスする既存のDSAセグメンテーション手法とは異なり、提案されたDSANetでは、複数のフレームにまたがる動的血管の詳細をキャプチャするための、個別のテンポラリエンコーディングブランチが導入されている。 小型の容器のセグメンテーションを強化し、容器接続性を向上させるため、シーケンシャルフレーム間のグローバルなコンテキストと相関をキャプチャする新しいTemporalFormerモジュールを設計する。 さらに,エンコーダの空間的特徴と時間的特徴を効果的に統合する時空間融合(STF)モジュールを開発した。 大規模な実験により、DSANetはCAセグメンテーションにおいて他の最先端の手法よりも優れており、Dice は 0.9033 である。

Cerebrovascular diseases (CVDs) remain a leading cause of global disability and mortality. Digital Subtraction Angiography (DSA) sequences, recognized as the golden standard for diagnosing CVDs, can clearly visualize the dynamic flow and reveal pathological conditions within the cerebrovasculature. Therefore, precise segmentation of cerebral arteries (CAs) and classification between their main trunks and branches are crucial for physicians to accurately quantify diseases. However, achieving accurate CA segmentation in DSA sequences remains a challenging task due to small vessels with low contrast, and ambiguity between vessels and residual skull structures. Moreover, the lack of publicly available datasets limits exploration in the field. In this paper, we introduce a DSA Sequence-based Cerebral Artery segmentation dataset (DSCA), the first publicly accessible dataset designed specifically for pixel-level semantic segmentation of CAs. Additionally, we propose DSANet, a spatio-temporal network for CA segmentation in DSA sequences. Unlike existing DSA segmentation methods that focus only on a single frame, the proposed DSANet introduces a separate temporal encoding branch to capture dynamic vessel details across multiple frames. To enhance small vessel segmentation and improve vessel connectivity, we design a novel TemporalFormer module to capture global context and correlations among sequential frames. Furthermore, we develop a Spatio-Temporal Fusion (STF) module to effectively integrate spatial and temporal features from the encoder. Extensive experiments demonstrate that DSANet outperforms other state-of-the-art methods in CA segmentation, achieving a Dice of 0.9033.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# メトリクスを超えて - 文化に根ざした低リソースな実世界のシナリオにおけるLLMの有効性を評価する

Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios ( http://arxiv.org/abs/2406.00343v1 )

ライセンス: Link先を確認
Millicent Ochieng, Varun Gumma, Sunayana Sitaram, Jindong Wang, Keshet Ronen, Kalika Bali, Jacki O'Neill, (参考訳) LLM(Large Language Models)の現実世界アプリケーションへの展開は、特にマルチリンガルおよびコード混在の通信設定において、機会と課題の両方を示します。 本研究は,スワヒリ,イングリッシュ,シェンなど,多言語およびコード混在のWhatsAppチャットから抽出したデータセットの感情分析における7つのLLMの性能を評価する。 評価には、F1スコアなどの指標を用いた定量的分析と、予測のためのLCMの説明の質的評価の両方が含まれる。 その結果,Mistral-7bとMixtral-8x7bは高いF1スコアを達成できたが,GPT-3.5-Turbo,Llama-2-70b,Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦慮し,意思決定プロセスにおける透明性の欠如が説明から明らかになった。 対照的に、GPT-4とGPT-4-Turboは、多様な言語入力を把握し、様々な文脈情報を管理し、意思決定プロセスにおける人間のアライメントと透明性を高い一貫性で示すのに優れていた。 しかし、LPMは、特にGPT-4の非英語設定において、文化的ニュアンスを取り入れることの難しさに遭遇した。 この知見は、文化的に曖昧で低リソースの現実世界設定の課題に効果的に取り組むために、LLMの継続的な改善の必要性を強調した。

The deployment of Large Language Models (LLMs) in real-world applications presents both opportunities and challenges, particularly in multilingual and code-mixed communication settings. This research evaluates the performance of seven leading LLMs in sentiment analysis on a dataset derived from multilingual and code-mixed WhatsApp chats, including Swahili, English and Sheng. Our evaluation includes both quantitative analysis using metrics like F1 score and qualitative assessment of LLMs' explanations for their predictions. We find that, while Mistral-7b and Mixtral-8x7b achieved high F1 scores, they and other LLMs such as GPT-3.5-Turbo, Llama-2-70b, and Gemma-7b struggled with understanding linguistic and contextual nuances, as well as lack of transparency in their decision-making process as observed from their explanations. In contrast, GPT-4 and GPT-4-Turbo excelled in grasping diverse linguistic inputs and managing various contextual information, demonstrating high consistency with human alignment and transparency in their decision-making process. The LLMs however, encountered difficulties in incorporating cultural nuance especially in non-English settings with GPT-4s doing so inconsistently. The findings emphasize the necessity of continuous improvement of LLMs to effectively tackle the challenges of culturally nuanced, low-resource real-world settings.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# DeCoOp: アウト・オブ・ディストリビューション検出によるロバストプロンプトチューニング

DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection ( http://arxiv.org/abs/2406.00345v1 )

ライセンス: Link先を確認
Zhi Zhou, Ming Yang, Jiang-Xin Shi, Lan-Zhe Guo, Yu-Feng Li, (参考訳) CLIPのようなヴィジュアル言語モデル(VLM)は、様々なダウンストリームタスクに対して印象的なゼロショット機能を示している。 これらの性能は、数発のプロンプトチューニング手法によってさらに向上することができる。 しかし,近年の研究では,初等・新等級の学習指導を個別に評価している。 この評価は、ダウンストリームタスクが前もってデータがベースまたは新しいクラスに属しているかどうかを判断できないため、現実世界のアプリケーションの実用性に欠ける。 本稿では,ベースクラスにおけるプロンプトのチューニングと,ベースクラスと新しいクラスの組み合わせによる評価を含む,Open-world Prompt Tuning (OPT)と呼ばれる問題設定について検討する。 DePT(Decomposed Prompt Tuning framework)を導入することにより,OPTが即時チューニングにアウト・オブ・ディストリビューション検出を組み込むことで解決できることが理論的に証明された。 DePTに基づく新しいプロンプトチューニング手法であるDecomposed Context Optimization (DeCoOp)を提案する。 11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。

Vision-language models (VLMs), such as CLIP, have demonstrated impressive zero-shot capabilities for various downstream tasks. Their performance can be further enhanced through few-shot prompt tuning methods. However, current studies evaluate the performance of learned prompts separately on base and new classes. This evaluation lacks practicality for real-world applications since downstream tasks cannot determine whether the data belongs to base or new classes in advance. In this paper, we explore a problem setting called Open-world Prompt Tuning (OPT), which involves tuning prompts on base classes and evaluating on a combination of base and new classes. By introducing Decomposed Prompt Tuning framework (DePT), we theoretically demonstrate that OPT can be solved by incorporating out-of-distribution detection into prompt tuning, thereby enhancing the base-to-new discriminability. Based on DePT, we present a novel prompt tuning approach, namely, Decomposed Context Optimization (DeCoOp), which introduces new-class detectors and sub-classifiers to further enhance the base-class and new-class discriminability. Experimental results on 11 benchmark datasets validate the effectiveness of DePT and demonstrate that DeCoOp outperforms current state-of-the-art methods, providing a significant 2% average accuracy improvement.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# 高忠実度3次元表面再構成のための符号なし距離場学習の詳細化

Details Enhancement in Unsigned Distance Field Learning for High-fidelity 3D Surface Reconstruction ( http://arxiv.org/abs/2406.00346v1 )

ライセンス: Link先を確認
Cheng Xu, Fei Hou, Wencheng Wang, Hong Qin, Zhebin Zhang, Ying He, (参考訳) SDF (Signed Distance Fields) は、水密面をモデル化するためによく確立されているが、Unsigned Distance Fields (UDF) は、複雑な内部構造を持つ開放面やモデルを含む範囲を広げている。 その柔軟性にもかかわらず、UDFはゼロレベルセットでの非微分可能性、正確なゼロ値の達成の難しさ、多くの局所最小値、消失勾配、ゼロレベルセット近傍での勾配方向の振動など、高忠実度3次元再構成において重大な課題に直面している。 これらの課題に対処するために、正規アライメントとSIRENネットワークを統合したDEUDF学習、ターゲット表面近傍の消滅勾配に適応的に重み付けされたアイコンの制約、非負性制約を緩和する無条件MLPベースのUDF表現、非コンスタントなアイソ値でアイソ面を抽出するUDF調整法を提案する。 これらの戦略は、無向点雲からの学習プロセスを総合的に安定化し、UDFの精度を高める。 計算結果から,DEUDFは既存のUDF学習法よりも精度と再現面の品質が優れていることが示された。 ソースコードを公開します。

While Signed Distance Fields (SDF) are well-established for modeling watertight surfaces, Unsigned Distance Fields (UDF) broaden the scope to include open surfaces and models with complex inner structures. Despite their flexibility, UDFs encounter significant challenges in high-fidelity 3D reconstruction, such as non-differentiability at the zero level set, difficulty in achieving the exact zero value, numerous local minima, vanishing gradients, and oscillating gradient directions near the zero level set. To address these challenges, we propose Details Enhanced UDF (DEUDF) learning that integrates normal alignment and the SIREN network for capturing fine geometric details, adaptively weighted Eikonal constraints to address vanishing gradients near the target surface, unconditioned MLP-based UDF representation to relax non-negativity constraints, and a UDF-tailored method for extracting iso-surface with non-constant iso-values. These strategies collectively stabilize the learning process from unoriented point clouds and enhance the accuracy of UDFs. Our computational results demonstrate that DEUDF outperforms existing UDF learning methods in both accuracy and the quality of reconstructed surfaces. We will make the source code publicly available.
翻訳日:2024-06-06 07:34:33 公開日:2024-06-01
# E$^3$-Net: 効率的なE(3)-等変正規推定ネットワーク

E$^3$-Net: Efficient E(3)-Equivariant Normal Estimation Network ( http://arxiv.org/abs/2406.00347v1 )

ライセンス: Link先を確認
Hanxiao Wang, Mingyang Zhao, Weize Quan, Zhen Chen, Dong-ming Yan, Peter Wonka, (参考訳) 点雲正規推定は3次元幾何処理の基本的な課題である。 最近の学習に基づく手法は、通常の予測において顕著な進歩を遂げる一方で、しばしば同値の重要な側面を見落としている。 これにより、対称パターンの非効率な学習が可能となる。 この問題に対処するため,正規推定のための等価性を実現するためにE3-Netを提案する。 本稿では,このタスクに必要なトレーニングリソースを,従来の作業の1/8に大幅に削減し,精度を向上する,効率的なランダムフレーム手法を提案する。 さらに、ガウス重み付き損失関数と、点雲の局所特性を効果的に活用する受容認識推論戦略を設計する。 提案手法は, 合成と実世界の両方のデータセットにおいて優れた結果が得られ, 最先端技術よりもかなり優れている。 RMSEをPCPNetデータセットで4%改善し、SceneNNデータセットで2.67%、FamousShapeデータセットで2.44%改善しました。

Point cloud normal estimation is a fundamental task in 3D geometry processing. While recent learning-based methods achieve notable advancements in normal prediction, they often overlook the critical aspect of equivariance. This results in inefficient learning of symmetric patterns. To address this issue, we propose E3-Net to achieve equivariance for normal estimation. We introduce an efficient random frame method, which significantly reduces the training resources required for this task to just 1/8 of previous work and improves the accuracy. Further, we design a Gaussian-weighted loss function and a receptive-aware inference strategy that effectively utilizes the local properties of point clouds. Our method achieves superior results on both synthetic and real-world datasets, and outperforms current state-of-the-art techniques by a substantial margin. We improve RMSE by 4% on the PCPNet dataset, 2.67% on the SceneNN dataset, and 2.44% on the FamousShape dataset.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# ディープラーニングのための効果的な重み初期化法:衛星画像分類への応用

An Effective Weight Initialization Method for Deep Learning: Application to Satellite Image Classification ( http://arxiv.org/abs/2406.00348v1 )

ライセンス: Link先を確認
Wadii Boulila, Eman Alshanqiti, Ayyub Alzahem, Anis Koubaa, Nabil Mlaiki, (参考訳) 衛星画像への関心の高まりは、これらの膨大なデータソースから貴重な情報を抽出する効率的なメカニズムの必要性を引き起こし、より深い洞察を与えている。 深層学習は衛星画像の分類に大きな進歩を見せている。 それにもかかわらず、文献では、重量初期化技術では、わずかな結果しか見つからない。 これらのテクニックは伝統的に、トレーニング前のネットワークの重み付けを初期化し、事前訓練されたネットワークの重み付けを微調整することとは異なる。 本研究では,衛星画像分類の文脈において,新しい重み初期化法を提案する。 提案手法は,畳み込みニューラルネットワーク(CNN)モデルの前方・後方通過において,数学的に詳細なものである。 6つの実世界のデータセットを用いて大規模な実験を行う。 既存のCNNモデルを用いた重み初期化手法との比較分析により,提案手法は従来の競合技術よりも精度が高いことがわかった。 提案手法の全コードと得られた結果がhttps://github.com/WadiiBoulila/Weight-Initializationで公開されている。

The growing interest in satellite imagery has triggered the need for efficient mechanisms to extract valuable information from these vast data sources, providing deeper insights. Even though deep learning has shown significant progress in satellite image classification. Nevertheless, in the literature, only a few results can be found on weight initialization techniques. These techniques traditionally involve initializing the networks' weights before training on extensive datasets, distinct from fine-tuning the weights of pre-trained networks. In this study, a novel weight initialization method is proposed in the context of satellite image classification. The proposed weight initialization method is mathematically detailed during the forward and backward passes of the convolutional neural network (CNN) model. Extensive experiments are carried out using six real-world datasets. Comparative analyses with existing weight initialization techniques made on various well-known CNN models reveal that the proposed weight initialization technique outperforms the previous competitive techniques in classification accuracy. The complete code of the proposed technique, along with the obtained results, is available at https://github.com/WadiiBoulila/Weight-Initialization
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# 量子リピータにおける2つの離散量子誤り訂正符号の可逆性について

On Transversality Across Two Distinct Quantum Error Correction Codes For Quantum Repeaters ( http://arxiv.org/abs/2406.00350v1 )

ライセンス: Link先を確認
Mahdi Bayanifar, Alexei Ashikhmin, Dawei Jiao, Olav Tirkkonen, (参考訳) 本稿では,2世代量子リピータ(QR)におけるCSS符号の対の可逆性とその利用について検討する。 量子リンクの異なるステーションは異なるエラーを経験できることを示す。 この事実を考慮すると、異なるステーションで異なるCSSコードを使用するように提案する。 より効率的であるため、$[[n, k]]$コードと$k > 1$を使用するように提案します。 1組のCSSコードが非ローカルなCNOT変換となるための十分かつ必要な条件を確立する。 CNOTトランスバーシティとは対照的に、2つのCSSコードは同一であるべきであり、制約の少ない制約が必要である。 次に,コードペアがCZ変換に十分かつ必要な条件を確立する。

In this paper, we investigate the transversality of pairs of CSS codes and their use in the second generation of quantum repeaters (QR)s. We show that different stations of quantum link can experience different errors. Considering this fact, we suggest to use different CSS codes in different stations. We also suggest to use $[[n, k]]$ codes with $k > 1$ as they are more efficient then codes with $k = 1$. We establish sufficient and necessary conditions for a pair of CSS codes to be non-local CNOT-transversal. We show that in contrast to the well known CNOT transversality which states that two CSS codes should be the same, less restrictive constraints are needed. Next, we establish sufficient and necessary conditions for a code pair to be CZ-transversal.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# 機械学習による量子ローカライゼーションの探索

Exploring quantum localization with machine learning ( http://arxiv.org/abs/2406.00363v1 )

ライセンス: Link先を確認
J. Montes, Lenoardo Ermann, Alejandro M. F. Rivas, Florentino Borondo, Gabriel G. Carlo, (参考訳) 本稿では、その局所化の観点から、波動関数を分類するための効率的なニューラルネットワーク(NN)アーキテクチャを提案する。 提案手法は, 量子位相空間のパラメトリゼーションにより, 改良畳み込みモデルのパターン認識機能と, 独自の「量子」NNへと導かれる。 この設計は任意の次元の波動関数を入力として受け入れ、安価な計算コストで正確な予測を行う。 このスケーラビリティは、半古典的極限における局所化率を探求するために重要となり、量子散乱場における長年の疑問である。 さらに、モデルに組み込まれた物理的な意味は、学習過程の解釈を可能にする。

We introduce an efficient neural network (NN) architecture for classifying wave functions in terms of their localization. Our approach integrates a versatile quantum phase space parametrization leading to a custom 'quantum' NN, with the pattern recognition capabilities of a modified convolutional model. This design accepts wave functions of any dimension as inputs and makes accurate predictions at an affordable computational cost. This scalability becomes crucial to explore the localization rate at the semiclassical limit, a long standing question in the quantum scattering field. Moreover, the physical meaning built in the model allows for the interpretation of the learning process
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# SynthBA: 複数のMRIシークエンスと解像度で信頼性の高い脳年齢推定

SynthBA: Reliable Brain Age Estimation Across Multiple MRI Sequences and Resolutions ( http://arxiv.org/abs/2406.00365v1 )

ライセンス: Link先を確認
Lemuel Puglisi, Alessia Rondinella, Linda De Meo, Francesco Guarnera, Sebastiano Battiato, Daniele Ravì, (参考訳) 脳の老化は、脳の生物学的老化過程を反映する重要な指標である。 脳年齢と時間年齢のギャップは、PAD(予測年齢差)と呼ばれ、神経変性の状況を調べるために利用されてきた。 脳年齢はMRIと機械学習技術を用いて予測できる。 しかしながら、既存の手法は、取得プロトコル、スキャナー、MRIシーケンス、解像度の違いなど、取得に関連するばらつきに敏感であり、高度に異質な臨床環境での適用を著しく制限する。 本研究では,脳年齢予測のための頑健な深層学習モデルであるSynthetic Brain Age(SynthBA)を紹介する。 SynthBAは、高度なドメインランダム化技術を使用して、幅広い取得関連変数にわたる効果的な操作を保証する。 SynthBAの有効性とロバスト性を評価するため、内部および外部のデータセットに対する予測能力を評価し、様々なMRIシーケンスと解像度を包含し、最先端技術と比較した。 さらに,アルツハイマー病 (AD) 患者の脳内PADを算出し,AD関連認知機能障害と有意な相関を示した。 SynthBAは、再トレーニングや微調整がしばしば不可能な、臨床環境での脳年齢予測の広範な採用を促進する可能性を秘めている。 SynthBAのソースコードと事前トレーニングされたモデルはhttps://github.com/LemuelPuglisi/SynthBAで公開されている。

Brain age is a critical measure that reflects the biological ageing process of the brain. The gap between brain age and chronological age, referred to as brain PAD (Predicted Age Difference), has been utilized to investigate neurodegenerative conditions. Brain age can be predicted using MRIs and machine learning techniques. However, existing methods are often sensitive to acquisition-related variabilities, such as differences in acquisition protocols, scanners, MRI sequences, and resolutions, significantly limiting their application in highly heterogeneous clinical settings. In this study, we introduce Synthetic Brain Age (SynthBA), a robust deep-learning model designed for predicting brain age. SynthBA utilizes an advanced domain randomization technique, ensuring effective operation across a wide array of acquisition-related variabilities. To assess the effectiveness and robustness of SynthBA, we evaluate its predictive capabilities on internal and external datasets, encompassing various MRI sequences and resolutions, and compare it with state-of-the-art techniques. Additionally, we calculate the brain PAD in a large cohort of subjects with Alzheimer's Disease (AD), demonstrating a significant correlation with AD-related measures of cognitive dysfunction. SynthBA holds the potential to facilitate the broader adoption of brain age prediction in clinical settings, where re-training or fine-tuning is often unfeasible. The SynthBA source code and pre-trained models are publicly available at https://github.com/LemuelPuglisi/SynthBA.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# キャビティ内に浮遊するナノ粒子の集合モード:メカニカルモードコム

Collective modes of nanoparticles levitated in a cavity: mechanical mode combs ( http://arxiv.org/abs/2406.00366v1 )

ライセンス: Link先を確認
M. Rademacher, T. S. Monteiro, (参考訳) 浮遊ナノ粒子は、ダークマターや量子重力といった基本的な物理現象から現実の応用まで、力と加速の超感度センサーとして研究されている。 最近、最大2つの運動モードでの量子冷却が達成され、現在はマルチモードとマルチ粒子状態に注目が向けられている。 ここでは、共振器の光学光を介して相互作用する2〜20ドルのナノ粒子モードの集団運動のスペクトル特性について検討する。 総運動の出力スペクトルは, 広帯域のスペクトル特徴, 集合的明るいモード (CBM) と, 機械的モードコム (MC) のスペクトル特徴 (以前は研究されていない) の2つの支配的な特徴を示すのが一般的である。 我々は, 数値的に検討し, 簡単なクローズドフォーム表現を用いて, MCスペクトルの複雑な詳細を正確に再現することができる。 本稿では, ナノ粒子の喪失による歯の喪失を自律的に修復できる機構について述べる。

Levitated nanoparticles are being investigated as ultrasensitive sensors of forces and accelerations, with applications ranging from fundamental physics phenomena such as dark matter or quantum gravity to real world applications. Quantum cooling in up to 2 motional modes was achieved recently, and attention is now turning to multimode and multiparticle regimes. We investigate here the spectral characteristics of collective motion of $\Ntot= 2-20 $ nanoparticle modes interacting via the optical light of a cavity. We find output spectra of collective motion typically exhibit two dominant generic features: a broad spectral feature, the collective bright mode (CBM) as expected; but we introduce also the mechanical mode comb (MC) a -- not previously studied -- spectral feature. We investigate numerically, and can also precisely reproduce all the intricate details of the MC spectra, including ponderomotive squeezing, with a simple closed-form expression. We show the mechanical comb can autonomously repair loss of teeth due to nanoparticle loss, a feature that may offer robustness to a levitated sensor of external forces.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# RoBERTa-BiLSTM:知覚分析のためのコンテキスト認識ハイブリッドモデル

RoBERTa-BiLSTM: A Context-Aware Hybrid Model for Sentiment Analysis ( http://arxiv.org/abs/2406.00367v1 )

ライセンス: Link先を確認
Md. Mostafizer Rahman, Ariful Islam Shiplu, Yutaka Watanobe, Md. Ashad Alam, (参考訳) 潜在的な意図を明らかにするためにコメントを効果的に分析することは、さまざまな領域で戦略的決定を行う上で大きな価値を持つ。 しかし、コメントに現れる語彙の多様性、テキスト内に長い依存が存在すること、未知の記号や単語に遭遇すること、不均衡なデータセットを扱うことなど、感情分析のプロセスを妨げるいくつかの課題がある。 さらに、既存の感情分析タスクは、主にシーケンシャルモデルを利用して、長い依存するテキストをエンコードし、テキストをシーケンシャルに処理する際には、実行時間が長い。 対照的に、Transformerは並列処理の性質のため実行時間が少ない。 本研究では,ロバスト最適化BERT事前学習手法(RoBERTa)とBidirectional Long Short-Term Memory(BiLSTM)ネットワークを組み合わせたハイブリッドディープラーニングモデルRoBERTa-BiLSTMを提案する。 RoBERTaは意味のある単語埋め込みベクトルを生成するのに使われ、BiLSTMは長文の文脈意味を効果的にキャプチャする。 RoBERTa-BiLSTMハイブリッドモデルは、シーケンシャルモデルとトランスフォーマーモデルの長所を利用して、感情分析のパフォーマンスを向上させる。 我々は、IMDb、Twitter US Airline、Sentiment140のデータセットを用いて、既存の最先端手法に対して提案したモデルを評価する実験を行った。 実験の結果,RoBERTa-BiLSTMモデルはベースラインモデル(例えばBERT,RoBERTa-base,RoBERTa-GRU,RoBERTa-LSTM)を超え,Twitter US Airline,IMDb,Sentiment140データセットの80.74%,92.36%,82.25%の精度を達成した。 さらに、同じデータセットでそれぞれ80.73%、92.35%、82.25%のF1スコアを達成する。

Effectively analyzing the comments to uncover latent intentions holds immense value in making strategic decisions across various domains. However, several challenges hinder the process of sentiment analysis including the lexical diversity exhibited in comments, the presence of long dependencies within the text, encountering unknown symbols and words, and dealing with imbalanced datasets. Moreover, existing sentiment analysis tasks mostly leveraged sequential models to encode the long dependent texts and it requires longer execution time as it processes the text sequentially. In contrast, the Transformer requires less execution time due to its parallel processing nature. In this work, we introduce a novel hybrid deep learning model, RoBERTa-BiLSTM, which combines the Robustly Optimized BERT Pretraining Approach (RoBERTa) with Bidirectional Long Short-Term Memory (BiLSTM) networks. RoBERTa is utilized to generate meaningful word embedding vectors, while BiLSTM effectively captures the contextual semantics of long-dependent texts. The RoBERTa-BiLSTM hybrid model leverages the strengths of both sequential and Transformer models to enhance performance in sentiment analysis. We conducted experiments using datasets from IMDb, Twitter US Airline, and Sentiment140 to evaluate the proposed model against existing state-of-the-art methods. Our experimental findings demonstrate that the RoBERTa-BiLSTM model surpasses baseline models (e.g., BERT, RoBERTa-base, RoBERTa-GRU, and RoBERTa-LSTM), achieving accuracies of 80.74%, 92.36%, and 82.25% on the Twitter US Airline, IMDb, and Sentiment140 datasets, respectively. Additionally, the model achieves F1-scores of 80.73%, 92.35%, and 82.25% on the same datasets, respectively.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# ランダム観測時空間力学系のモデル化

Modeling Randomly Observed Spatiotemporal Dynamical Systems ( http://arxiv.org/abs/2406.00368v1 )

ライセンス: Link先を確認
Valerii Iakovlev, Harri Lähdesmäki, (参考訳) 時空間過程は、物質の熱伝播から海洋や大気の流れまで、様々な領域にわたる力学をモデル化するための基本的なツールである。 しかし、現在利用可能なニューラルネットワークベースのモデリングアプローチは、クラウドソースの地震検出や汚染監視といった現実世界のアプリケーションにおけるセンサーネットワークのように、時間と空間でランダムに収集されたデータに直面すると、短くなる。 そこで我々は,このようなランダムなサンプルデータを効果的に処理する新しい時空間法を開発した。 我々のモデルは、システムの力学と将来の観測の確率的位置とタイミングの両方を予測するために、償却変分推論、ニューラルディファレンシャル方程式、ニューラルポイントプロセス、暗黙のニューラル表現といった技術を統合する。 予測精度と計算効率を大幅に改善することで、時空間データセットに挑戦する既存の手法よりも優れており、現実的で制約のない条件下で観察される複雑な力学系をモデル化し理解するのに有用なツールである。

Spatiotemporal processes are a fundamental tool for modeling dynamics across various domains, from heat propagation in materials to oceanic and atmospheric flows. However, currently available neural network-based modeling approaches fall short when faced with data collected randomly over time and space, as is often the case with sensor networks in real-world applications like crowdsourced earthquake detection or pollution monitoring. In response, we developed a new spatiotemporal method that effectively handles such randomly sampled data. Our model integrates techniques from amortized variational inference, neural differential equations, neural point processes, and implicit neural representations to predict both the dynamics of the system and the probabilistic locations and timings of future observations. It outperforms existing methods on challenging spatiotemporal datasets by offering substantial improvements in predictive accuracy and computational efficiency, making it a useful tool for modeling and understanding complex dynamical systems observed under realistic, unconstrained conditions.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# パラメータが不特定な時, メトロポリスアルゴリズムの代数的幾何学的解析

Algebraic Geometrical Analysis of Metropolis Algorithm When Parameters Are Non-identifiable ( http://arxiv.org/abs/2406.00369v1 )

ライセンス: Link先を確認
Kenji Nagata, Yoh-ichi Mototake, (参考訳) メトロポリスアルゴリズムは、ターゲット確率分布からのサンプリングを実現するマルコフ連鎖モンテカルロ法(MCMC)の1つである。 本稿では,フィッシャー情報行列が非可逆である可能性のあるモデルを含む非識別ケースにおける分布のサンプリングについて検討する。 確率分布のばらつきであるステップサイズの理論的調整は、不特定ケースでは困難である。 本研究では,MCMC法におけるステップサイズを最適化するためのガイドラインとして使用される平均受入率を非識別ケースで解析的に導出した。 平均受入率の観点から,ステップサイズの最適化原理を考案した。 さらに,特定の対象分布について数値実験を行い,理論結果の有効性を検証した。

The Metropolis algorithm is one of the Markov chain Monte Carlo (MCMC) methods that realize sampling from the target probability distribution. In this paper, we are concerned with the sampling from the distribution in non-identifiable cases that involve models with Fisher information matrices that may fail to be invertible. The theoretical adjustment of the step size, which is the variance of the candidate distribution, is difficult for non-identifiable cases. In this study, to establish such a principle, the average acceptance rate, which is used as a guideline to optimize the step size in the MCMC method, was analytically derived in non-identifiable cases. The optimization principle for the step size was developed from the viewpoint of the average acceptance rate. In addition, we performed numerical experiments on some specific target distributions to verify the effectiveness of our theoretical results.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# ChromeのWeb Storeのベットプロセス、ブラウザ拡張の類似性で評価

Did I Vet You Before? Assessing the Chrome Web Store Vetting Process through Browser Extension Similarity ( http://arxiv.org/abs/2406.00374v1 )

ライセンス: Link先を確認
José Miguel Moreno, Narseo Vallina-Rodriguez, Juan Tapiador, (参考訳) Webブラウザ、特にGoogle Chromeや他のChromiumベースのブラウザは、過去10年間に人気を博し、ブラウザ拡張が彼らのエコシステムの不可欠な部分となった。 これらの拡張機能は、広告ブロッカーから、最近ではAIアシスタントまで幅広い機能を提供することで、ユーザーエクスペリエンスをカスタマイズし、強化することができる。 Webブラウザの重要性がますます高まっていることを踏まえると、エクステンションの配布マーケットプレースは、虐待的または悪意のある振る舞いを示す提出書を審査することで、ユーザを安全に保つ上で重要な役割を担っている。 本稿では,Chrome Web Store (CWS) におけるマルウェアやその他の不正な拡張機能が,この種のソフトウェアで最大の配布プラットフォームとなっていることを特徴付ける。 そこで本研究では,静的および動的解析,自然言語処理(NLP),ベクトル埋め込みを利用した,類似の挙動拡張を検出する新しい手法であるSimExtを紹介する。 本研究は, 侵害拡大の86%が前回の拒否項目と非常によく似ているため, CWS拒否プロセスにおいて大きなギャップが明らかとなり, 削除には数ヶ月, 数年を要する。 83%がNew Tab Extensions(NTE)であり、CWSアナリストが割り当てたベッティングラベルの一貫性に関する懸念が浮かび上がっている。 また,CWSによってフラグ付けされたマルウェアの1%がマルウェア対策として悪用されていることが判明し,CWSモデレーターが見た脅威景観と脅威情報コミュニティの検知能力とのギャップが指摘された。

Web browsers, particularly Google Chrome and other Chromium-based browsers, have grown in popularity over the past decade, with browser extensions becoming an integral part of their ecosystem. These extensions can customize and enhance the user experience, providing functionality that ranges from ad blockers to, more recently, AI assistants. Given the ever-increasing importance of web browsers, distribution marketplaces for extensions play a key role in keeping users safe by vetting submissions that display abusive or malicious behavior. In this paper, we characterize the prevalence of malware and other infringing extensions in the Chrome Web Store (CWS), the largest distribution platform for this type of software. To do so, we introduce SimExt, a novel methodology for detecting similarly behaving extensions that leverages static and dynamic analysis, Natural Language Processing (NLP) and vector embeddings. Our study reveals significant gaps in the CWS vetting process, as 86% of infringing extensions are extremely similar to previously vetted items, and these extensions take months or even years to be removed. By characterizing the top kinds of infringing extension, we find that 83% are New Tab Extensions (NTEs) and raise some concerns about the consistency of the vetting labels assigned by CWS analysts. Our study also reveals that only 1% of malware extensions flagged by the CWS are detected as malicious by anti-malware engines, indicating a concerning gap between the threat landscape seen by CWS moderators and the detection capabilities of the threat intelligence community.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# ニューロモルフィック覚醒系におけるリアルタイム状態変調と取得回路

Real-Time State Modulation and Acquisition Circuit in Neuromorphic Memristive Systems ( http://arxiv.org/abs/2406.00378v1 )

ライセンス: Link先を確認
Shengbo Wang, Cong Li, Tongming Pu, Jian Zhang, Weihao Ma, Luigi Occhipinti, Arokia Nathan, Shuo Gao, (参考訳) 覚醒性ニューロモルフィックシステムは人間の知覚と認知をエミュレートするために設計されており、覚醒剤の状態は低レベルのタスクと高レベルのタスクの両方を実行するために必須の歴史的情報を表す。 しかし、現在のシステムでは、状態変調と取得の分離が問題になり、望ましくない時間遅延が発生し、リアルタイムのパフォーマンスに影響を及ぼす。 この問題を克服するために,メムリスタ状態情報を同時に変調し,取得するデュアルファンクション回路を導入する。 これは2つの重要な特徴によって達成される。 1) 通過電流を電圧信号に変換しながら、メムリスタに正確な電圧印加を保証するフィードバック動作増幅器(オプトアンプ)ベースの回路 2 変調電圧及び変換電圧から状態情報を取得し、メムリスタの内在閾値特性を活用して安定性を向上させる分割計算回路。 この回路はメムリスタベースのノシセプターとメムリスタクロスバーで評価され、例外的な性能を示した。 例えば、ノシセプター応用における変調過程において、1.Omega 以下の平均絶対的な取得誤差を達成する。 これらの結果は、提案回路が様々なスケールで動作可能であることを示し、幅広いニューロモルフィック応用の可能性を秘めている。

Memristive neuromorphic systems are designed to emulate human perception and cognition, where the memristor states represent essential historical information to perform both low-level and high-level tasks. However, current systems face challenges with the separation of state modulation and acquisition, leading to undesired time delays that impact real-time performance. To overcome this issue, we introduce a dual-function circuit that concurrently modulates and acquires memristor state information. This is achieved through two key features: 1) a feedback operational amplifier (op-amp) based circuit that ensures precise voltage application on the memristor while converting the passing current into a voltage signal; 2) a division calculation circuit that acquires state information from the modulation voltage and the converted voltage, improving stability by leveraging the intrinsic threshold characteristics of memristors. This circuit has been evaluated in a memristor-based nociceptor and a memristor crossbar, demonstrating exceptional performance. For instance, it achieves mean absolute acquisition errors below 1 {\Omega} during the modulation process in the nociceptor application. These results demonstrate that the proposed circuit can operate at different scales, holding the potential to enhance a wide range of neuromorphic applications.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# 両世界のベスト - 真面目でヘルプな大規模言語モデルを目指して

The Best of Both Worlds: Toward an Honest and Helpful Large Language Model ( http://arxiv.org/abs/2406.00380v1 )

ライセンス: Link先を確認
Chujie Gao, Qihui Zhang, Dongping Chen, Yue Huang, Siyuan Wu, Zhengyan Fu, Yao Wan, Xiangliang Zhang, Lichao Sun, (参考訳) 大規模言語モデル(LLM)は、その例外的な生成能力により、様々な産業で顕著な成功を収めている。 しかし、安全で効果的な現実世界のデプロイメントでは、誠実さと役に立つことを保証することが重要です。 正直さを維持しながらLLMの有用性を優先できるだろうか? まず,LLMの誠実性を保証するための徹底的な原則を確立する。 さらに,6つのカテゴリにまたがる930のクエリからなる,HoneSetと呼ばれる新しいデータセットを導入する。 次に,LLMの誠実さと有用性を高めるための2つのアプローチとして,トレーニング不要の強化と微調整に基づく改善を提案する。 学習の自由なアプローチは好奇心を駆使したプロンプトに基づいており、LCMはクエリに関する内部の混乱と不確実性を明確にし、その応答を最適化する。 逆に、微調整ベースの手法では、カリキュラム学習にインスパイアされた2段階のプロセスが採用されている。 9つの顕著なLCMを用いて行った実験は,提案手法の実装を通じて,全てのモデルにおいて誠実さに適合することを示す。 特に注目すべきは、Llama3-8bで観測された65.3%の増強と、H$^{2}$(正直で有益な)評価によって測定されたMistral-7bの124.7%の顕著な改善である。 われわれの仕事は、現実世界のアプリケーションのために、より信頼できるLCMを開発するための道を開くことができると信じている。

Large Language Models (LLMs) have achieved remarkable success across various industries due to their exceptional generative capabilities. However, for safe and effective real-world deployments, ensuring honesty and helpfulness is critical. This paper addresses the question: Can we prioritize the helpfulness of LLMs while preserving their honesty? To begin with, we establish exhaustive principles aimed at guaranteeing the honesty of LLM. Additionally, we introduce a novel dataset, referred to as HoneSet, comprising 930 queries spanning six categories meticulously crafted to assess an LLM's capacity for maintaining honesty. Subsequently, we present two approaches to augmenting honesty and helpfulness in LLMs: a training-free enhancement and a fine-tuning-based improvement. The training-free approach, which is based on curiosity-driven prompting, empowers LLMs to articulate internal confusion and uncertainty regarding queries, thereby optimizing their responses. Conversely, the fine-tuning-based method employs a two-stage process inspired by curriculum learning: initially instructing LLMs to discern between honest and dishonest responses, then refining their training to enhance helpfulness. Experiments conducted on nine prominent LLMs demonstrate a significant improvement in alignment with honesty across all models through the implementation of our proposed enhancements. Particularly noteworthy is the 65.3% enhancement observed in Llama3-8b and the remarkable 124.7% improvement in Mistral-7b, as measured by the H$^{2}$ (honest and helpful) assessment. We believe that our work can pave the way for developing more trustworthy LLMs for real-world applications.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# SpikeMM: 高速マイクロモーションのフレキシ化

SpikeMM: Flexi-Magnification of High-Speed Micro-Motions ( http://arxiv.org/abs/2406.00383v1 )

ライセンス: Link先を確認
Baoyue Zhang, Yajing Zheng, Shiyan Chen, Jiyuan Zhang, Kang Chen, Zhaofei Yu, Tiejun Huang, (参考訳) 高速マイクロモーションの増幅は、高速な産業環境における故障検出と医療手順の精密化にまたがる応用において、大きな可能性を秘めている。 しかし、従来の動き倍率アルゴリズムはサンプリングレートの低下や動きのぼかしによる高速シナリオの課題にしばしば遭遇する。 近年、スパイクカメラは、時間的および空間的な周波数領域を異常な忠実さで捉える能力により、このような環境における視覚的タスクの優れた代替手段として出現している。 固定周波数の低周波数で動作する従来のカメラとは異なり、スパイクカメラは網膜の機能をエミュレートし、スパイクストリームを使用して各ピクセル位置の光子変化を非同期にキャプチャする。 この革新的なアプローチは、時間的および空間的な視覚情報を包括的に記録し、特に高速なマイクロモーションを拡大するのに適している。 SpikeMMは、多レベル情報抽出、空間的アップサンプリング、モーション倍率モジュールを統合し、幅広いシナリオに適応可能な自己教師型アプローチを提供する。 特に、SpikeMMは高性能超解像および運動倍率アルゴリズムとのシームレスな統合を容易にする。 本研究では,スパイクカメラが捉えたシーンの厳密な検証を通じてSpikeMMの有効性を実証し,実世界の高周波数環境における動きを拡大する能力を示す。

The amplification of high-speed micro-motions holds significant promise, with applications spanning fault detection in fast-paced industrial environments to refining precision in medical procedures. However, conventional motion magnification algorithms often encounter challenges in high-speed scenarios due to low sampling rates or motion blur. In recent years, spike cameras have emerged as a superior alternative for visual tasks in such environments, owing to their unique capability to capture temporal and spatial frequency domains with exceptional fidelity. Unlike conventional cameras, which operate at fixed, low frequencies, spike cameras emulate the functionality of the retina, asynchronously capturing photon changes at each pixel position using spike streams. This innovative approach comprehensively records temporal and spatial visual information, rendering it particularly suitable for magnifying high-speed micro-motions.This paper introduces SpikeMM, a pioneering spike-based algorithm tailored specifically for high-speed motion magnification. SpikeMM integrates multi-level information extraction, spatial upsampling, and motion magnification modules, offering a self-supervised approach adaptable to a wide range of scenarios. Notably, SpikeMM facilitates seamless integration with high-performance super-resolution and motion magnification algorithms. We substantiate the efficacy of SpikeMM through rigorous validation using scenes captured by spike cameras, showcasing its capacity to magnify motions in real-world high-frequency settings.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# CapeX: テキストポイント記述によるカテゴリー非依存ポス推定

CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation ( http://arxiv.org/abs/2406.00384v1 )

ライセンス: Link先を確認
Matan Rusanovsky, Or Hirschorn, Shai Avidan, (参考訳) 従来の2次元ポーズ推定モデルは、その設計によって特定の対象カテゴリに制約される。 これにより、事前定義されたオブジェクトへの適用が制限される。 これらの制約を克服するため、カテゴリーに依存しないポーズ推定(CAPE)が解として現れた。 CAPEは、最小限の注釈付きサポート画像から一般化可能な統一モデルを用いて、多様なオブジェクトカテゴリのキーポイントローカライズを容易にすることを目的としている。 最近のCAPE作業では、ユーザが提供するサポートイメージに注釈を付けた任意のキーポイント定義に基づいてオブジェクトポーズが作成されている。 本研究は,サポート画像の代わりにテキストベースのアプローチを採用することで,サポート画像を必要とする従来のCAPE手法から逸脱する。 具体的には、ノードがテキストで記述されたキーポイントを表すポーズグラフを使用する。 この表現は、テキスト記述の抽象化とグラフによって課される構造を利用する。 提案手法は, 対称性を効果的に破り, 構造を保ち, 閉塞処理を改善する。 我々は、100以上のカテゴリと18,000のイメージにまたがる包括的なデータセットであるMP-100ベンチマークを用いて、新しいアプローチを検証する。 1ショット設定で、当社のソリューションは1.07\%の顕著なパフォーマンス向上を実現し、CAPEのための新しい最先端技術を確立します。 さらに、テキスト記述アノテーションを提供することでデータセットを充実させ、将来の研究のためにその利便性をさらに強化する。

Conventional 2D pose estimation models are constrained by their design to specific object categories. This limits their applicability to predefined objects. To overcome these limitations, category-agnostic pose estimation (CAPE) emerged as a solution. CAPE aims to facilitate keypoint localization for diverse object categories using a unified model, which can generalize from minimal annotated support images. Recent CAPE works have produced object poses based on arbitrary keypoint definitions annotated on a user-provided support image. Our work departs from conventional CAPE methods, which require a support image, by adopting a text-based approach instead of the support image. Specifically, we use a pose-graph, where nodes represent keypoints that are described with text. This representation takes advantage of the abstraction of text descriptions and the structure imposed by the graph. Our approach effectively breaks symmetry, preserves structure, and improves occlusion handling. We validate our novel approach using the MP-100 benchmark, a comprehensive dataset spanning over 100 categories and 18,000 images. Under a 1-shot setting, our solution achieves a notable performance boost of 1.07\%, establishing a new state-of-the-art for CAPE. Additionally, we enrich the dataset by providing text description annotations, further enhancing its utility for future research.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-01
# 平衡共振・発火ニューロンの収束性を理解する

Understanding the Convergence in Balanced Resonate-and-Fire Neurons ( http://arxiv.org/abs/2406.00389v1 )

ライセンス: Link先を確認
Saya Higuchi, Sander M. Bohte, Sebastian Otte, (参考訳) Resonate-and-Fire(RF)ニューロンは、スパイキングニューラルネットワーク(SNN)におけるインテグレーターニューロンの興味深い補完モデルである。 共鳴膜力学により、時間領域内で周波数パターンを抽出することができる。 確立されたRF変種は本態的な欠点に悩まされているが,近年提案された平衡共振器(BRF)ニューロンは,タスク性能,スパイク,パラメータ効率の面で重要な方法論的進歩をみせた。 しかし、最も興味深い結果の1つは、バックプロップベースのSNNトレーニングにおける典型的な収束ジレンマを克服し、トレーニング収束速度と滑らか性を大幅に改善したことである。 本稿は、これらの収束優位性の出現の経緯と理由について、さらなる直感を提供することを目的としている。 BRFニューロンは、確立されたALIFニューロンとは対照的に、非常に清潔で滑らかでほぼ凸なエラーランドスケープにまたがっている。 さらに, 時間分散共振器近似の数値安定性に対処するBRF定式化の主成分である分散境界認識最適化と, 収束の利点が主に結合していることが実証的な結果から明らかとなった。 これらの結果は膜力学の形式的な研究によって支持され、勾配はマグニチュードを損なわずに時間経過とともに戻されることを示す。

Resonate-and-Fire (RF) neurons are an interesting complementary model for integrator neurons in spiking neural networks (SNNs). Due to their resonating membrane dynamics they can extract frequency patterns within the time domain. While established RF variants suffer from intrinsic shortcomings, the recently proposed balanced resonate-and-fire (BRF) neuron marked a significant methodological advance in terms of task performance, spiking and parameter efficiency, as well as, general stability and robustness, demonstrated for recurrent SNNs in various sequence learning tasks. One of the most intriguing result, however, was an immense improvement in training convergence speed and smoothness, overcoming the typical convergence dilemma in backprop-based SNN training. This paper aims at providing further intuitions about how and why these convergence advantages emerge. We show that BRF neurons, in contrast to well-established ALIF neurons, span a very clean and smooth - almost convex - error landscape. Furthermore, empirical results reveal that the convergence benefits are predominantly coupled with a divergence boundary-aware optimization, a major component of the BRF formulation that addresses the numerical stability of the time-discrete resonator approximation. These results are supported by a formal investigation of the membrane dynamics indicating that the gradient is transferred back through time without loss of magnitude.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# DS@BioMed at ImageCLEFmedical Caption 2024: 概念検出統合による医療カプセル生成における注意機構の増強

DS@BioMed at ImageCLEFmedical Caption 2024: Enhanced Attention Mechanisms in Medical Caption Generation through Concept Detection Integration ( http://arxiv.org/abs/2406.00391v1 )

ライセンス: Link先を確認
Nhi Ngoc-Yen Nguyen, Le-Huy Tu, Dieu-Phuong Nguyen, Nhat-Tan Do, Minh Triet Thai, Bao-Thien Nguyen-Tat, (参考訳) 目的:本研究では,概念検出を注意機構に組み込むことにより,医用画像キャプション生成へのアプローチを改良した。 方法: この手法は, 医用画像内の重要な概念を識別するために, 洗練されたモデルを用いて, キャプション生成プロセスに組み込まれる。 結果: Swin-V2モデルを用いてF1スコアが0.58944、プライベートテストが0.61998となり,第3位が確保された。 キャプション予測タスクでは,概念統合と後処理技術によって強化されたBEiT+BioBartモデルで,検証セットで0.60589,プライベートテストセットで0.5794,9位となった。 結論: これらの結果は, 正確な, 文脈的に適切な医療記述を生成する上で, 概念認識アルゴリズムの有効性を裏付けるものである。 その結果,医用画像のキャプションの質が向上し,医用画像の解釈や文書化が向上し,医療効果の向上に寄与することが示唆された。

Purpose: Our study presents an enhanced approach to medical image caption generation by integrating concept detection into attention mechanisms. Method: This method utilizes sophisticated models to identify critical concepts within medical images, which are then refined and incorporated into the caption generation process. Results: Our concept detection task, which employed the Swin-V2 model, achieved an F1 score of 0.58944 on the validation set and 0.61998 on the private test set, securing the third position. For the caption prediction task, our BEiT+BioBart model, enhanced with concept integration and post-processing techniques, attained a BERTScore of 0.60589 on the validation set and 0.5794 on the private test set, placing ninth. Conclusion: These results underscore the efficacy of concept-aware algorithms in generating precise and contextually appropriate medical descriptions. The findings demonstrate that our approach significantly improves the quality of medical image captions, highlighting its potential to enhance medical image interpretation and documentation, thereby contributing to improved healthcare outcomes.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 人工知能 : 強化学習における文化集積

Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning ( http://arxiv.org/abs/2406.00392v1 )

ライセンス: Link先を確認
Jonathan Cook, Chris Lu, Edward Hughes, Joel Z. Leibo, Jakob Foerster, (参考訳) 文化の蓄積は、人類の歴史にまたがる、オープンで多様な能力の進歩を促進する。 個々の探索と世代間情報伝達を組み合わせることで、知識とスキルの拡充を図っている。 人間の間で広く成功しているにもかかわらず、人工学習エージェントが文化を蓄積する能力はいまだ探索されていない。 特に、強化学習へのアプローチは、通常、たった一生で改善しようと努力する。 現存する世代別アルゴリズムは、個人の革新と模倣のトレードオフを可能にする、オープンで創発的な文化的蓄積の性質を捉えられない。 従来の強化学習エージェントが社会学習を行う能力に基づいて、これと独立学習のバランスをとる訓練装置が文化的な蓄積をもたらすことが判明した。 これらの蓄積剤は、同じ累積経験を持つ一生の訓練者より優れています。 本研究では,この蓄積を,2つの異なる世代概念に基づいて構築することで検討する。すなわち,蓄積は文脈内学習によって起こる,エピソード世代と,重み付き学習によって発生する列車時世代である。 In-contextとIn-weightsの文化的な蓄積は、それぞれ知識とスキルの蓄積に類似していると解釈できる。 我々の知る限り、この研究は、強化学習における創発的な文化的蓄積を実現し、よりオープンな学習システムへの新たな道を開くとともに、人間の文化をモデル化する新たな機会を提示する、最初の一般的なモデルである。

Cultural accumulation drives the open-ended and diverse progress in capabilities spanning human history. It builds an expanding body of knowledge and skills by combining individual exploration with inter-generational information transmission. Despite its widespread success among humans, the capacity for artificial learning agents to accumulate culture remains under-explored. In particular, approaches to reinforcement learning typically strive for improvements over only a single lifetime. Generational algorithms that do exist fail to capture the open-ended, emergent nature of cultural accumulation, which allows individuals to trade-off innovation and imitation. Building on the previously demonstrated ability for reinforcement learning agents to perform social learning, we find that training setups which balance this with independent learning give rise to cultural accumulation. These accumulating agents outperform those trained for a single lifetime with the same cumulative experience. We explore this accumulation by constructing two models under two distinct notions of a generation: episodic generations, in which accumulation occurs via in-context learning and train-time generations, in which accumulation occurs via in-weights learning. In-context and in-weights cultural accumulation can be interpreted as analogous to knowledge and skill accumulation, respectively. To the best of our knowledge, this work is the first to present general models that achieve emergent cultural accumulation in reinforcement learning, opening up new avenues towards more open-ended learning systems, as well as presenting new opportunities for modelling human culture.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 司法判断における性バイアス検出 : ブラジルのケーススタディ

Gender Bias Detection in Court Decisions: A Brazilian Case Study ( http://arxiv.org/abs/2406.00393v1 )

ライセンス: Link先を確認
Raysa Benatti, Fabiana Severi, Sandra Avila, Esther Luna Colombini, (参考訳) 社会科学の領域から派生したデータは、しばしばデジタルテキスト形式で作成され、自然言語処理手法の源泉としての利用を動機付けている。 研究者や実践者は、特にテキスト要約や分類などのタスクにおいて、法律分野における文書を収集、処理、分析するための人工知能技術を開発し、利用してきた。 手続き的効率の向上は、この分野における自然言語処理の主要な動機となっていることが多いが、公共政策の評価や制度的な社会的設定など、人権に関する問題に対する解決策を提案している研究もいくつかある。 性別に基づく暴力に対する制度的反応の偏見は、男女マイノリティが権利にアクセスできなくなり、尊厳を損なうことを防いでいるため、国際人権処分に違反している。 自然言語処理に基づくアプローチは、これらのバイアスを大規模に検出するのに役立つ。 それでも、そのようなツールの開発と利用は、研究者や実践者がデータ共有と使用、再現性、ドメインの専門知識、そして価値に満ちた選択に関する法的および倫理的な側面に留意する必要がある。 この作品では、 (a)ブラジルポルトガル語及びブラジルポルトガル語の裁判所判決におけるジェンダーバイアスを自動的に検出する実験的枠組みについて述べる。 (b)裁判所活動の調査・評価のための支援ツールとして提案されていることから、このような技術に批判的であると認識する特徴について記述し、精査する。

Data derived from the realm of the social sciences is often produced in digital text form, which motivates its use as a source for natural language processing methods. Researchers and practitioners have developed and relied on artificial intelligence techniques to collect, process, and analyze documents in the legal field, especially for tasks such as text summarization and classification. While increasing procedural efficiency is often the primary motivation behind natural language processing in the field, several works have proposed solutions for human rights-related issues, such as assessment of public policy and institutional social settings. One such issue is the presence of gender biases in court decisions, which has been largely studied in social sciences fields; biased institutional responses to gender-based violence are a violation of international human rights dispositions since they prevent gender minorities from accessing rights and hamper their dignity. Natural language processing-based approaches can help detect these biases on a larger scale. Still, the development and use of such tools require researchers and practitioners to be mindful of legal and ethical aspects concerning data sharing and use, reproducibility, domain expertise, and value-charged choices. In this work, we (a) present an experimental framework developed to automatically detect gender biases in court decisions issued in Brazilian Portuguese and (b) describe and elaborate on features we identify to be critical in such a technology, given its proposed use as a support tool for research and assessment of court~activity.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 線形構造因果モデルの因果的抽象化の学習

Learning Causal Abstractions of Linear Structural Causal Models ( http://arxiv.org/abs/2406.00394v1 )

ライセンス: Link先を確認
Riccardo Massidda, Sara Magliacane, Davide Bacciu, (参考訳) 様々なレベルの粒度で因果的知識をモデル化する必要性は、いくつかの設定で生じる。 因果抽象化(Causal Abstraction)は、2つの構造因果モデルを異なるレベルの詳細で関連付けることにより、この問題を形式化するフレームワークを提供する。 因果的抽象化の適用への関心が高まっているにもかかわらず、例えば、大規模機械学習モデルの解釈可能性において、因果的モデルを他の因果的モデルを抽象化できるグラフィカルおよびパラメトリック的条件は知られていない。 さらに、データから因果的抽象化を学ぶことは、依然としてオープンな問題である。 本研究では、線形抽象関数を持つ線形因果モデルについて、両方の問題に取り組む。 まず、低レベルの係数と抽象関数が高レベルの係数を決定する方法と、高レベルのモデルが低レベルの変数の因果順序をいかに制約するかを特徴付ける。 そこで我々は,観測データから高次・低次因果モデルとその抽象関数を学習するために理論的結果を適用した。 特に,非ガウス雑音項を前提として,学習された高次モデルと抽象関数によって引き起こされる制約を利用して,より大規模な低次モデルの回復を高速化するAbs-LiNGAMを導入する。 シミュレーション環境では、データから因果的抽象化を学習することの有効性と、因果的発見のスケーラビリティを向上させる方法の可能性を示す。

The need for modelling causal knowledge at different levels of granularity arises in several settings. Causal Abstraction provides a framework for formalizing this problem by relating two Structural Causal Models at different levels of detail. Despite increasing interest in applying causal abstraction, e.g. in the interpretability of large machine learning models, the graphical and parametrical conditions under which a causal model can abstract another are not known. Furthermore, learning causal abstractions from data is still an open problem. In this work, we tackle both issues for linear causal models with linear abstraction functions. First, we characterize how the low-level coefficients and the abstraction function determine the high-level coefficients and how the high-level model constrains the causal ordering of low-level variables. Then, we apply our theoretical results to learn high-level and low-level causal models and their abstraction function from observational data. In particular, we introduce Abs-LiNGAM, a method that leverages the constraints induced by the learned high-level model and the abstraction function to speedup the recovery of the larger low-level model, under the assumption of non-Gaussian noise terms. In simulated settings, we show the effectiveness of learning causal abstractions from data and the potential of our method in improving scalability of causal discovery.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 雑音ラベルを持つニューラルネットワークにおけるオーバーフィッティングを克服する確率的再スタート

Stochastic Restarting to Overcome Overfitting in Neural Networks with Noisy Labels ( http://arxiv.org/abs/2406.00396v1 )

ライセンス: Link先を確認
Youngkyoung Bae, Yeongwoo Song, Hawoong Jeong, (参考訳) その頻度にもかかわらず、ターゲットの探索やディープニューラルネットワーク(DNN)のトレーニングなど、多くの状況では、諦めてやり直すことは無駄のように思える。 しかし,本研究では,チェックポイントから再起動することで,雑音ラベル付きDNNのトレーニング時の一般化性能が大幅に向上することを示した。 ノイズラベルが存在する場合、DNNはまずデータの一般的なパターンを学ぶが、徐々にノイズラベルに適合する。 このオーバーフィッティング現象に対処するため,確率的再起動に基づく手法を開発した。 ランゲヴィン力学への確率勾配降下のダイナミクスを近似することにより、再起動はバッチサイズと破損したデータの比率が増加するにつれて大きな改善をもたらすことを理論的に示す。 そして、我々は、我々の理論を実証的に検証し、再起動によって達成された重要な改善を確認した。 提案手法の重要な側面は,実装の容易さと他のメソッドとの互換性であり,性能が著しく向上している点である。 ノイズの多いラベルを扱う既存のメソッドを補完する貴重なツールとして、私たちはこれを想定しています。

Despite its prevalence, giving up and starting over may seem wasteful in many situations such as searching for a target or training deep neural networks (DNNs). Our study, though, demonstrates that restarting from a checkpoint can significantly improve generalization performance when training DNNs with noisy labels. In the presence of noisy labels, DNNs initially learn the general patterns of the data but then gradually overfit to the noisy labels. To combat this overfitting phenomenon, we developed a method based on stochastic restarting, which has been actively explored in the statistical physics field for finding targets efficiently. By approximating the dynamics of stochastic gradient descent into Langevin dynamics, we theoretically show that restarting can provide great improvements as the batch size and the proportion of corrupted data increase. We then empirically validate our theory, confirming the significant improvements achieved by restarting. An important aspect of our method is its ease of implementation and compatibility with other methods, while still yielding notably improved performance. We envision it as a valuable tool that can complement existing methods for handling noisy labels.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# グラフ変換器におけるデュアルパースペクティブなクロスコントラスト学習

Dual-perspective Cross Contrastive Learning in Graph Transformers ( http://arxiv.org/abs/2406.00403v1 )

ライセンス: Link先を確認
Zelin Yao, Chuang Liu, Xueqi Ma, Mukun Chen, Jia Wu, Xiantao Cai, Bo Du, Wenbin Hu, (参考訳) グラフコントラスト学習(GCL)は、拡張ビューにおける特徴の一貫性を最大化することで、グラフ表現を傾ける一般的な方法である。 従来のGCL法では、データ、すなわちモデルパースペクティブ(モデルパースペクティブ)の増大を利用して正のサンプルを生成し、正のサンプルの多様性を抑える。 さらに、これらの正のサンプルは、意味情報を変更する可能性のある制御不能な拡張戦略のために信頼できないかもしれない。 これらの課題に対処するため,本研究では,正のサンプルの多様性と信頼性を高めるために設計された3つの修正を組み込んだ,二重パースペクティブ・クロスグラフコントラクティブ・ラーニング(DC-GCL)という,革新的なフレームワークを提案する。 1) より多様なトレーニングデータをモデルに提供し, 異なる視点における機能一貫性を効果的に学習することのできる, 二重パースペクティブ拡張戦略を提案する。 2)データの観点からは、制御可能なデータ拡張を用いて元のグラフをわずかに摂動させ、意味情報を効果的に保存する。 3)モデルの観点からは,グラフニューラルネットワークの代わりに,より強力なグラフトランスフォーマーを利用することでエンコーダを強化する。 モデルのアーキテクチャに基づいて,エンコーダをわずかに摂動させる3つのプルーニングベースの戦略を提案し,より信頼性の高い正のサンプルを提供する。 これらの変更はDC-GCLの基礎を形成し、より多様性があり信頼性の高いトレーニングインプットを提供し、従来のGCLメソッドよりも大幅に改善された。 様々なベンチマーク実験により、DC-GCLは様々なデータセットやタスクのベースラインを一貫して上回っていることが示された。

Graph contrastive learning (GCL) is a popular method for leaning graph representations by maximizing the consistency of features across augmented views. Traditional GCL methods utilize single-perspective i.e. data or model-perspective) augmentation to generate positive samples, restraining the diversity of positive samples. In addition, these positive samples may be unreliable due to uncontrollable augmentation strategies that potentially alter the semantic information. To address these challenges, this paper proposed a innovative framework termed dual-perspective cross graph contrastive learning (DC-GCL), which incorporates three modifications designed to enhance positive sample diversity and reliability: 1) We propose dual-perspective augmentation strategy that provide the model with more diverse training data, enabling the model effective learning of feature consistency across different views. 2) From the data perspective, we slightly perturb the original graphs using controllable data augmentation, effectively preserving their semantic information. 3) From the model perspective, we enhance the encoder by utilizing more powerful graph transformers instead of graph neural networks. Based on the model's architecture, we propose three pruning-based strategies to slightly perturb the encoder, providing more reliable positive samples. These modifications collectively form the DC-GCL's foundation and provide more diverse and reliable training inputs, offering significant improvements over traditional GCL methods. Extensive experiments on various benchmarks demonstrate that DC-GCL consistently outperforms different baselines on various datasets and tasks.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# スパイクニューラルネットワークの時空間予測学習を実現する自動シナプス回路

Autaptic Synaptic Circuit Enhances Spatio-temporal Predictive Learning of Spiking Neural Networks ( http://arxiv.org/abs/2406.00405v1 )

ライセンス: Link先を確認
Lihao Wang, Zhaofei Yu, (参考訳) Spiking Neural Networks (SNN) は、生物学的ニューロンで見られる統合ファイアリーク機構をエミュレートし、生物学的リアリズムとエネルギー効率の強力な組み合わせを提供する。 近年、研究が盛んに行われている。 しかし、既存のSNNは主にLeaky Integrate-and-Fire(LIF)モデルに依存しており、主に単純で静的なタスクに適している。 長期の時間的依存を効果的にモデル化し、空間情報の相互作用を促進する能力は欠如している。 これらの課題に対処するために,本論文は生物学における自己シナプスの概念からインスピレーションを得て,新しい時空間回路(STC)モデルを提案する。 STCモデルは2つの学習可能な適応経路を統合し、スパイキングニューロンの時間記憶と空間調整を強化する。 本研究では,STCモデルにおける動的パラメータの理論的解析を行い,長期記憶の確立と勾配解消の課題の緩和に寄与することを明らかにする。 複数の時空間予測データセットに関する広範な実験を通じて、我々のモデルが他の適応モデルよりも優れていることを示す。 さらに、我々のモデルは既存のスパイクニューロンモデルと互換性があり、それによってそれらの動的表現を増大させる。 本質的に、我々の研究はSNNの特異性とトポロジカルな複雑さを豊かにしている。

Spiking Neural Networks (SNNs) emulate the integrated-fire-leak mechanism found in biological neurons, offering a compelling combination of biological realism and energy efficiency. In recent years, they have gained considerable research interest. However, existing SNNs predominantly rely on the Leaky Integrate-and-Fire (LIF) model and are primarily suited for simple, static tasks. They lack the ability to effectively model long-term temporal dependencies and facilitate spatial information interaction, which is crucial for tackling complex, dynamic spatio-temporal prediction tasks. To tackle these challenges, this paper draws inspiration from the concept of autaptic synapses in biology and proposes a novel Spatio-Temporal Circuit (STC) model. The STC model integrates two learnable adaptive pathways, enhancing the spiking neurons' temporal memory and spatial coordination. We conduct a theoretical analysis of the dynamic parameters in the STC model, highlighting their contribution in establishing long-term memory and mitigating the issue of gradient vanishing. Through extensive experiments on multiple spatio-temporal prediction datasets, we demonstrate that our model outperforms other adaptive models. Furthermore, our model is compatible with existing spiking neuron models, thereby augmenting their dynamic representations. In essence, our work enriches the specificity and topological complexity of SNNs.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 人物生体認証のためのアラビア手書きテキスト:深層学習アプローチ

Arabic Handwritten Text for Person Biometric Identification: A Deep Learning Approach ( http://arxiv.org/abs/2406.00409v1 )

ライセンス: Link先を確認
Mazen Balat, Youssef Mohamed, Ahmed Heakl, Ahmed Zaky, (参考訳) 本研究は,人物の生体認証のためのアラビア手書きテキストを,ディープラーニングモデルがどの程度認識できるかを徹底的に検討する。 広く認識されている3つのデータセット(AHAWP、Khatt、LAMIS-MSHD)を使用して、ResNet50、MobileNetV2、EfficientNetB7の3つの高度なアーキテクチャを比較している。 その結果、EfficientNetB7は、それぞれAHAWP、Khatt、LAMIS-MSHDデータセットで98.57\%、99.15\%、99.79\%の精度で、他よりも優れていた。 EfficientNetB7の例外的な性能は、複合スケーリング、深度的に分離可能な畳み込み、シャープ・アンド・エキサイクリングブロックなど、その革新的な技術によって評価されている。 これらの特徴により、手書きのテキスト画像からより抽象的で独特な特徴を抽出することができる。 この研究の結果は、アイデンティティ認証と認証システムの強化に重要な意味を持ち、人物の生体認証のためのアラビア文字によるテキスト認識におけるディープラーニングの可能性を強調している。

This study thoroughly investigates how well deep learning models can recognize Arabic handwritten text for person biometric identification. It compares three advanced architectures -- ResNet50, MobileNetV2, and EfficientNetB7 -- using three widely recognized datasets: AHAWP, Khatt, and LAMIS-MSHD. Results show that EfficientNetB7 outperforms the others, achieving test accuracies of 98.57\%, 99.15\%, and 99.79\% on AHAWP, Khatt, and LAMIS-MSHD datasets, respectively. EfficientNetB7's exceptional performance is credited to its innovative techniques, including compound scaling, depth-wise separable convolutions, and squeeze-and-excitation blocks. These features allow the model to extract more abstract and distinctive features from handwritten text images. The study's findings hold significant implications for enhancing identity verification and authentication systems, highlighting the potential of deep learning in Arabic handwritten text recognition for person biometric identification.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# ノード分類のための後方ラベル平滑化

Posterior Label Smoothing for Node Classification ( http://arxiv.org/abs/2406.00410v1 )

ライセンス: Link先を確認
Jaeseung Heo, Moonjeong Park, Dongwoo Kim, (参考訳) ソフトラベルは、画像分類などの多くの領域において、ニューラルネットワーク分類器の一般化を改善することができる。 その成功にもかかわらず、現在の文献はグラフ構造データを用いたノード分類におけるラベルの平滑化の効率性を見落としている。 本研究では,トランスダクティブノード分類タスクに対して,単純だが効果的なラベル平滑化を提案する。 本研究では, ソフトラベルを設計し, 周辺ラベル分布を通じて対象ノードの局所的コンテキストをカプセル化する。 7つのベースラインモデルに対してスムース化法を適用し,その有効性を示す。 ラベル平滑化手法は10ノード分類データセットの分類精度を向上させる。 以下の分析結果から,大域的なラベル統計を後続計算に組み込むことが,ラベル平滑化の成功の鍵であることが判明した。 さらなる調査により、ソフトラベルはトレーニング中の過度適合を緩和し、一般化性能が向上することが明らかとなった。

Soft labels can improve the generalization of a neural network classifier in many domains, such as image classification. Despite its success, the current literature has overlooked the efficiency of label smoothing in node classification with graph-structured data. In this work, we propose a simple yet effective label smoothing for the transductive node classification task. We design the soft label to encapsulate the local context of the target node through the neighborhood label distribution. We apply the smoothing method for seven baseline models to show its effectiveness. The label smoothing methods improve the classification accuracy in 10 node classification datasets in most cases. In the following analysis, we find that incorporating global label statistics in posterior computation is the key to the success of label smoothing. Further investigation reveals that the soft labels mitigate overfitting during training, leading to better generalization performance.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 非平衡環境における量子コヒーレンスからの作業抽出

Work extraction from quantum coherence in non-equilibrium environment ( http://arxiv.org/abs/2406.00411v1 )

ライセンス: Link先を確認
Maryam Hadipour, Soroush Haseli, (参考訳) エルゴトロピーは、量子力学と情報処理の関連性から、量子系から取り出すための尺度として大きな注目を集めている。 この研究において、エルゴトロピーの力学はマルコフ系と非マルコフ系の両方の非平衡環境で研究される。 本研究では,エルゴトロピーのコヒーレント部分と非コヒーレント部分について考察する。 非平衡環境の場合、作業の抽出は環境が平衡状態にある場合よりも効率的であることが示される。

Ergotropy, as a measure for extractable work from a quantum system, has garnered significant attention due to its relevance in quantum thermodynamics and information processing. In this work, the dynamics of ergotropy will be investigated in a nonequilibrium environment for both Markovian and non-Markovian regime. In this study, both the coherent and incoherent parts of the ergotropy will be considered. It will be shown that for a non-equilibrium environment, the extraction of work is more efficient compared to when the environment is in equilibrium.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 車両経路問題の解法のためのニューラルコンビナート最適化アルゴリズム:視点を用いた総合的なサーベイ

Neural Combinatorial Optimization Algorithms for Solving Vehicle Routing Problems: A Comprehensive Survey with Perspectives ( http://arxiv.org/abs/2406.00415v1 )

ライセンス: Link先を確認
Xuan Wu, Di Wang, Lijie Wen, Yubin Xiao, Chunguo Wu, Yuesong Wu, Chaoyu Yu, Douglas L. Maskell, You Zhou, (参考訳) 車両ルーティング問題(VRP)を解決するために特別に設計されたニューラルコンビネーション最適化(NCO)ソルバについて、いくつかの調査がなされている。 これらの既存の調査は、最近現れたSOTA(State-of-the-art) NCOソルバをカバーしていない。 より重要なことは、NCOソルバの包括的分類を最新の範囲で提供するために、関連する出版物やプレプリントの徹底的なレビューに基づいて、NCOソルバを4つの異なるカテゴリ、すなわち、学習から構築へ、学習から改善へ、学習から予測へ、学習から予測へ、そして予測から多元性へ、に分けたことである。 続いて、SOTAソルバの欠点として、一般化の不足、大規模VRPの解決能力の低下、ほとんどのVRP変種に同時に対処できないこと、NCOソルバを従来のオペレーツ・リサーチ・アルゴリズムと比較することの難しさを挙げる。 同時に、これらの不適切な状況を克服するための有望かつ実行可能な方向性を提案する。 さらに,小型VRPと大規模VRPの両分野において,強化,監視,教師なし学習の代表的なNCOソルバの性能を比較した。 最後に,提案した分類法に従って,NCOソルバのライブレポジトリとして付随するWebページを提供する。 この調査とライブレポジトリを通じて、VRPのためのNCOソルバの研究コミュニティをより繁栄させたいと思っています。

Although several surveys on Neural Combinatorial Optimization (NCO) solvers specifically designed to solve Vehicle Routing Problems (VRPs) have been conducted. These existing surveys did not cover the state-of-the-art (SOTA) NCO solvers emerged recently. More importantly, to provide a comprehensive taxonomy of NCO solvers with up-to-date coverage, based on our thorough review of relevant publications and preprints, we divide all NCO solvers into four distinct categories, namely Learning to Construct, Learning to Improve, Learning to Predict-Once, and Learning to Predict-Multiplicity solvers. Subsequently, we present the inadequacies of the SOTA solvers, including poor generalization, incapability to solve large-scale VRPs, inability to address most types of VRP variants simultaneously, and difficulty in comparing these NCO solvers with the conventional Operations Research algorithms. Simultaneously, we propose promising and viable directions to overcome these inadequacies. In addition, we compare the performance of representative NCO solvers from the Reinforcement, Supervised, and Unsupervised Learning paradigms across both small- and large-scale VRPs. Finally, following the proposed taxonomy, we provide an accompanying web page as a live repository for NCO solvers. Through this survey and the live repository, we hope to make the research community of NCO solvers for VRPs more thriving.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 隠れマルコフ過程の混合表現と解離

Representation and De-interleaving of Mixtures of Hidden Markov Processes ( http://arxiv.org/abs/2406.00416v1 )

ライセンス: Link先を確認
Jiadi Bao, Mengtao Zhu, Yunjie Li, Shafei Wang, (参考訳) 隠れマルコフ過程(HMP)の混合物の分離は、一般的にその表現モデルに依存する。 既存の表現モデルはマルコフ連鎖の混合を隠れマルコフではなく考慮し、観測ノイズや観測の欠如のような非理想的状況に対する堅牢性の欠如をもたらす。 さらに,非インターリーブ手法は,時間を要する検索ベースの戦略を利用する。 これらの問題に対処するために,HMPの混合体に対する新しい表現モデルとそれに対応する解法を提案する。 はじめにHMPの混合を表現するための生成モデルが設計されている。 その後、退院プロセスは、生成モデルの後部推論として定式化される。 第二に、完全データの可能性を最大化するために正確な推論法を開発し、2つの近似推論法を開発し、トラクタブル構造を作成することにより、下限のエビデンスを最大化する。 次に、確率比テストを用いて理論誤差確率の下限を導出し、アルゴリズムが境界に合理的に近づくことを示す。 最後に, シミュレーションの結果から, 提案手法は非理想的状況において極めて効果的で堅牢であり, シミュレーションおよび実生活データ上でのベースライン法よりも優れていることが示された。

De-interleaving of the mixtures of Hidden Markov Processes (HMPs) generally depends on its representation model. Existing representation models consider Markov chain mixtures rather than hidden Markov, resulting in the lack of robustness to non-ideal situations such as observation noise or missing observations. Besides, de-interleaving methods utilize a search-based strategy, which is time-consuming. To address these issues, this paper proposes a novel representation model and corresponding de-interleaving methods for the mixtures of HMPs. At first, a generative model for representing the mixtures of HMPs is designed. Subsequently, the de-interleaving process is formulated as a posterior inference for the generative model. Secondly, an exact inference method is developed to maximize the likelihood of the complete data, and two approximate inference methods are developed to maximize the evidence lower bound by creating tractable structures. Then, a theoretical error probability lower bound is derived using the likelihood ratio test, and the algorithms are shown to get reasonably close to the bound. Finally, simulation results demonstrate that the proposed methods are highly effective and robust for non-ideal situations, outperforming baseline methods on simulated and real-life data.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# GATE: 隣人の侵入を抑える方法

GATE: How to Keep Out Intrusive Neighbors ( http://arxiv.org/abs/2406.00418v1 )

ライセンス: Link先を確認
Nimrah Mustafa, Rebekka Burkholz, (参考訳) グラフ注意ネットワーク(GAT)は、その重要性に応じて隣人に重みを割り当てるフレキシブルな近隣アグリゲーションを提供するように設計されている。 しかし, 実例では, GATは, 実験的, 解析的に, タスク非関連近傍集約をオフにできないことが多い。 この課題に対処するために、GATEという3つの大きな利点を持つGAT拡張を提案する。 一 不要地区集積の根本原因に対処することにより過密を緩和すること。 二 パーセプトロンと同様に、(ほぼ)切替された近傍集合の場合、(非)線形特徴変換のために追加の層を利用することができるので、より深い深さの恩恵を受けることができる。 三 関係のない隣人との低重み付けにより、実世界の異種性データセットにおいて、GATを上回ります。 この主張をさらに検証するため、我々は、モデルが独立した関心を持つ可能性のある適切な量の近傍集約を利用する能力を分析するために、合成テストベッドを構築した。

Graph Attention Networks (GATs) are designed to provide flexible neighborhood aggregation that assigns weights to neighbors according to their importance. In practice, however, GATs are often unable to switch off task-irrelevant neighborhood aggregation, as we show experimentally and analytically. To address this challenge, we propose GATE, a GAT extension that holds three major advantages: i) It alleviates over-smoothing by addressing its root cause of unnecessary neighborhood aggregation. ii) Similarly to perceptrons, it benefits from higher depth as it can still utilize additional layers for (non-)linear feature transformations in case of (nearly) switched-off neighborhood aggregation. iii) By down-weighting connections to unrelated neighbors, it often outperforms GATs on real-world heterophilic datasets. To further validate our claims, we construct a synthetic test bed to analyze a model's ability to utilize the appropriate amount of neighborhood aggregation, which could be of independent interest.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 文化財のマルチモーダルメタデータアサインメント

Multimodal Metadata Assignment for Cultural Heritage Artifacts ( http://arxiv.org/abs/2406.00423v1 )

ライセンス: Link先を確認
Luis Rei, Dunja Mladenić, Mareike Dorozynski, Franz Rottensteiner, Thomas Schleider, Raphaël Troncy, Jorge Sebastián Lozano, Mar Gaitán Salvatella, (参考訳) 我々は,後期融合アプローチを用いた文化遺産領域のマルチモーダル分類器を開発し,新しいデータセットを導入する。 3つのモダリティは、画像、テキスト、タブラリデータである。 画像分類器はResNet畳み込みニューラルネットワークアーキテクチャとテキスト分類器を多言語変換器アーキテクチャ(XML-Roberta)に基づいて構築した。 どちらもマルチタスク分類器として訓練され、クラス不均衡を扱うために焦点損失を使用する。 タブラルデータとレイトフュージョンはGradient Tree Boostingによって処理される。 また、特定のデータモデルと分類を知識グラフに活用してデータセットを作成し、分類結果を格納する方法も示しています。 個々の分類器は、デジタル化された絹のアーティファクトの欠落特性を正確に予測し、マルチモーダルなアプローチが最良の結果をもたらす。

We develop a multimodal classifier for the cultural heritage domain using a late fusion approach and introduce a novel dataset. The three modalities are Image, Text, and Tabular data. We based the image classifier on a ResNet convolutional neural network architecture and the text classifier on a multilingual transformer architecture (XML-Roberta). Both are trained as multitask classifiers and use the focal loss to handle class imbalance. Tabular data and late fusion are handled by Gradient Tree Boosting. We also show how we leveraged specific data models and taxonomy in a Knowledge Graph to create the dataset and to store classification results. All individual classifiers accurately predict missing properties in the digitized silk artifacts, with the multimodal approach providing the best results.
翻訳日:2024-06-06 07:15:00 公開日:2024-06-01
# 性能劣化のないバッチ逐次Halvingアルゴリズム

A Batch Sequential Halving Algorithm without Performance Degradation ( http://arxiv.org/abs/2406.00424v1 )

ライセンス: Link先を確認
Sotetsu Koyamada, Soichiro Nishimori, Shin Ishii, (参考訳) 本稿では,固定サイズのバッチでアームを引っ張るシナリオに着目し,マルチアームバンディットの文脈における純粋探索の問題について検討する。 バッチは計算効率を向上させることが示されているが、遅延したフィードバックと適応性の低下により、元のシーケンシャルアルゴリズムの性能よりも劣化する可能性がある。 本稿では,Sequential Halving (SH) アルゴリズムの簡単なバッチ版 (Karnin et al , 2013) を導入し,バッチ処理が実際の条件下でのアルゴリズムの性能を劣化させないという理論的証拠を提供する。 さらに, 実験により, SHアルゴリズムのロバストな特性を定サイズバッチ設定で実証し, 実験により検証した。

In this paper, we investigate the problem of pure exploration in the context of multi-armed bandits, with a specific focus on scenarios where arms are pulled in fixed-size batches. Batching has been shown to enhance computational efficiency, but it can potentially lead to a degradation compared to the original sequential algorithm's performance due to delayed feedback and reduced adaptability. We introduce a simple batch version of the Sequential Halving (SH) algorithm (Karnin et al., 2013) and provide theoretical evidence that batching does not degrade the performance of the original algorithm under practical conditions. Furthermore, we empirically validate our claim through experiments, demonstrating the robust nature of the SH algorithm in fixed-size batch settings.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# InterpreTabNet:有意な特徴解釈による語彙データからの予測信号の蒸留

InterpreTabNet: Distilling Predictive Signals from Tabular Data by Salient Feature Interpretation ( http://arxiv.org/abs/2406.00426v1 )

ライセンス: Link先を確認
Jacob Si, Wendy Yusi Cheng, Michael Cooper, Rahul G. Krishnan, (参考訳) タブラルデータは、産業の様々な分野において一様である。 TabNetのような表データのためのニューラルネットワークは、解釈可能性の注意機構を活用しながら予測を行うために提案されている。 しかし、推定されたアテンションマスクはしばしば密集しており、予測信号について合理的に考えることは困難である。 そこで本研究では,注意機構をGumbel-Softmax分布からサンプリングした潜在変数としてモデル化したInterpreTabNetを提案する。 これにより、KLディバージェンス正規化器を用いて、注意マスクの異なる概念を学習できるようにモデルを正規化することができる。 モデルの有効性を最大化し、結果を予測する際に重要な特徴を決定するための解釈性を向上させることで、重複する特徴の選択を防止する。 モデルから特徴相互依存性の解釈を支援するため,大規模言語モデル(GPT-4)を用い,学習した特徴マスクから学習した信号を記述する自然言語テキストにプロンプトエンジニアリングを用いてマッピングする。 実世界のデータセットに関する総合的な実験を通じて、InterpreTabNetは、競合精度を確保しつつ、表形式のデータを解釈する従来の手法よりも優れていることを示す。

Tabular data are omnipresent in various sectors of industries. Neural networks for tabular data such as TabNet have been proposed to make predictions while leveraging the attention mechanism for interpretability. However, the inferred attention masks are often dense, making it challenging to come up with rationales about the predictive signal. To remedy this, we propose InterpreTabNet, a variant of the TabNet model that models the attention mechanism as a latent variable sampled from a Gumbel-Softmax distribution. This enables us to regularize the model to learn distinct concepts in the attention masks via a KL Divergence regularizer. It prevents overlapping feature selection by promoting sparsity which maximizes the model's efficacy and improves interpretability to determine the important features when predicting the outcome. To assist in the interpretation of feature interdependencies from our model, we employ a large language model (GPT-4) and use prompt engineering to map from the learned feature mask onto natural language text describing the learned signal. Through comprehensive experiments on real-world datasets, we demonstrate that InterpreTabNet outperforms previous methods for interpreting tabular data while attaining competitive accuracy.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# 視覚変換器の各段階での注意力の欠如

You Only Need Less Attention at Each Stage in Vision Transformers ( http://arxiv.org/abs/2406.00427v1 )

ライセンス: Link先を確認
Shuoxi Zhang, Hanpeng Liu, Stephen Lin, Kun He, (参考訳) ビジョントランスフォーマー(ViT)の出現は、コンピュータビジョンの領域における大きなパラダイムシフトである。 ViTは自己アテンションモジュールを通じて画像のグローバルな情報をキャプチャし、パッチされた画像トークン間でドット製品計算を実行する。 自己アテンションモジュールはViTに長距離依存関係をキャプチャする権限を与えるが、その計算複雑性はトークンの数によって2次的に増大する。 さらに、深部 ViT の自己保持機構も、注意飽和問題の影響を受けやすい。 そこで我々は, 各層における注意点の計算の必要性を論じ, 各段階における注意点数のみを計算し, 予め計算した注意点を利用した注意変換により, その他の層における特徴量アライメントを計算するLose-Attention Vision Transformer (LaViT)を提案する。 この新たなアプローチは、計算負荷と注意飽和という、従来の自己注意モジュールを悩ませる2つの主要な問題を緩和することができる。 提案アーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算を必要とするだけで,優れた効率性と実装容易性を提供する。 さらに,本アーキテクチャは,分類,検出,セグメンテーションなど,様々な視覚課題にまたがる例外的な性能を示す。

The advent of Vision Transformers (ViTs) marks a substantial paradigm shift in the realm of computer vision. ViTs capture the global information of images through self-attention modules, which perform dot product computations among patchified image tokens. While self-attention modules empower ViTs to capture long-range dependencies, the computational complexity grows quadratically with the number of tokens, which is a major hindrance to the practical application of ViTs. Moreover, the self-attention mechanism in deep ViTs is also susceptible to the attention saturation issue. Accordingly, we argue against the necessity of computing the attention scores in every layer, and we propose the Less-Attention Vision Transformer (LaViT), which computes only a few attention operations at each stage and calculates the subsequent feature alignments in other layers via attention transformations that leverage the previously calculated attention scores. This novel approach can mitigate two primary issues plaguing traditional self-attention modules: the heavy computational burden and attention saturation. Our proposed architecture offers superior efficiency and ease of implementation, merely requiring matrix multiplications that are highly optimized in contemporary deep learning frameworks. Moreover, our architecture demonstrates exceptional performance across various vision tasks including classification, detection and segmentation.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# 一般化可能な多対象追跡を目指して

Towards Generalizable Multi-Object Tracking ( http://arxiv.org/abs/2406.00429v1 )

ライセンス: Link先を確認
Zheng Qin, Le Wang, Sanping Zhou, Panpan Fu, Gang Hua, Wei Tang, (参考訳) マルチオブジェクト追跡MOTは様々なトラッキングシナリオを含み、それぞれに固有の特徴がある。 効果的なトラッカーは、様々なシナリオにまたがる高度な一般化可能性を示すべきである。 しかし、既存のトラッカーは、特定のシナリオの関連情報の動きや外観をカスタマイズするために、あらゆる側面に適応したり、仮説や実験を必要とする。 本稿では,異なるシナリオに対するトラッカーの一般化に影響を与える要因について検討し,より一般化可能なトラッカーの設計を導くために,それらを一連のトラッキングシナリオ属性にまとめる。 さらに,動きや外観のバランスを取る必要をなくし,多様なシナリオをまたいだ一般化が可能なMOTのポイントワイズ・インスタンスワイズ・リレーション・フレームワークであるGeneralTrackを提案する。 提案するGeneralTrackは,より優れた一般化性により,複数のベンチマークで最先端の性能を実現し,ドメインの一般化の可能性を示す。 https://github.com/qinzheng2000/GeneralTrack.git

Multi-Object Tracking MOT encompasses various tracking scenarios, each characterized by unique traits. Effective trackers should demonstrate a high degree of generalizability across diverse scenarios. However, existing trackers struggle to accommodate all aspects or necessitate hypothesis and experimentation to customize the association information motion and or appearance for a given scenario, leading to narrowly tailored solutions with limited generalizability. In this paper, we investigate the factors that influence trackers generalization to different scenarios and concretize them into a set of tracking scenario attributes to guide the design of more generalizable trackers. Furthermore, we propose a point-wise to instance-wise relation framework for MOT, i.e., GeneralTrack, which can generalize across diverse scenarios while eliminating the need to balance motion and appearance. Thanks to its superior generalizability, our proposed GeneralTrack achieves state-of-the-art performance on multiple benchmarks and demonstrates the potential for domain generalization. https://github.com/qinzheng2000/GeneralTrack.git
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# 閉ループLCMプランナの不確かさに基づく故障検出の評価

Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners ( http://arxiv.org/abs/2406.00430v1 )

ライセンス: Link先を確認
Zhi Zheng, Qian Feng, Hang Li, Alois Knoll, Jianxiang Feng, (参考訳) 近年、Large Language Models (LLMs) は、ロボット操作タスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。 しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。 一方、クローズドループ計画における故障検出アプローチは、タスク固有のヒューリスティックや、予測が常に信頼できるという非現実的な仮定によって制限されることが多い。 LLM(Multimodal Large Language Models, MLLM)は, 汎用推論マシンである。 しかし、前述の仮定の適切性は、悪名高い船体化の問題により低下する。 本研究では,MLLM や LLM に非依存な不確実性に基づく MLLM 故障検出装置を基盤として,NnowLoop と呼ばれる閉ループ LLM 計画のためのフレームワークを導入することにより,これらの問題を緩和しようとする。 具体的には,MLLMの不確実性,すなわちトークン確率,エントロピー,自己説明的信頼度を,慎重に設計された3つの代表的戦略に基づく主指標として評価する。 各種操作タスクとLLMに基づくロボットシステムを含む自己コンパイル型データセットを用いて,トークン確率とエントロピーが自己説明型自信よりも反射性が高いことを示す。 不確実な予測をフィルタリングし、人間を積極的に支援する適切なしきい値を設定することにより、故障検出の精度を大幅に向上させることができる。 この改善により、クローズドループ計画の有効性とタスクの全体的な成功率が向上する。

Recently, Large Language Models (LLMs) have witnessed remarkable performance as zero-shot task planners for robotic manipulation tasks. However, the open-loop nature of previous works makes LLM-based planning error-prone and fragile. On the other hand, failure detection approaches for closed-loop planning are often limited by task-specific heuristics or following an unrealistic assumption that the prediction is trustworthy all the time. As a general-purpose reasoning machine, LLMs or Multimodal Large Language Models (MLLMs) are promising for detecting failures. However, However, the appropriateness of the aforementioned assumption diminishes due to the notorious hullucination problem. In this work, we attempt to mitigate these issues by introducing a framework for closed-loop LLM-based planning called KnowLoop, backed by an uncertainty-based MLLMs failure detector, which is agnostic to any used MLLMs or LLMs. Specifically, we evaluate three different ways for quantifying the uncertainty of MLLMs, namely token probability, entropy, and self-explained confidence as primary metrics based on three carefully designed representative prompting strategies. With a self-collected dataset including various manipulation tasks and an LLM-based robot system, our experiments demonstrate that token probability and entropy are more reflective compared to self-explained confidence. By setting an appropriate threshold to filter out uncertain predictions and seek human help actively, the accuracy of failure detection can be significantly enhanced. This improvement boosts the effectiveness of closed-loop planning and the overall success rate of tasks.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# SpaFL:スパースモデルと低計算オーバーヘッドによるコミュニケーション効率のよいフェデレーションラーニング

SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead ( http://arxiv.org/abs/2406.00431v1 )

ライセンス: Link先を確認
Minsu Kim, Walid Saad, Merouane Debbah, Choong Seon Hong, (参考訳) FL(Federated Learning)の大規模な通信と計算のオーバーヘッドは、リソース制約のあるクライアントやシステムに対する実践的なデプロイに直面する大きな課題の1つです。 本研究では,計算オーバーヘッドの少ないスパースモデル構造を最適化するために,通信効率のよいFLフレームワークであるSpaFLを提案する。 SpaFLでは、各フィルタ/ニューロンに対してトレーニング可能なしきい値が定義され、すべての接続されたパラメータをプーンし、その結果、構造化されたスパーシリティをもたらす。 プルーニングプロセス自体を最適化するためには、パラメータの代わりにサーバとクライアントの間でしきい値だけが通信される。 さらに、グローバルしきい値を用いて、集約されたパラメータの重要度を抽出することで、モデルパラメータを更新する。 SpaFLの一般化境界も導出され、空間性と性能の関係に関する重要な知見が証明される。 実験結果から,スパースベースラインに比べて通信資源や計算資源の削減を図り,精度の向上を図っている。

The large communication and computation overhead of federated learning (FL) is one of the main challenges facing its practical deployment over resource-constrained clients and systems. In this work, SpaFL: a communication-efficient FL framework is proposed to optimize sparse model structures with low computational overhead. In SpaFL, a trainable threshold is defined for each filter/neuron to prune its all connected parameters, thereby leading to structured sparsity. To optimize the pruning process itself, only thresholds are communicated between a server and clients instead of parameters, thereby learning how to prune. Further, global thresholds are used to update model parameters by extracting aggregated parameter importance. The generalization bound of SpaFL is also derived, thereby proving key insights on the relation between sparsity and performance. Experimental results show that SpaFL improves accuracy while requiring much less communication and computing resources compared to sparse baselines.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# ローカライズ・アンダービュート・コラボレート:インテンション・リゾナーによるセマンティック・アウェア・ドラッグング

Localize, Understand, Collaborate: Semantic-Aware Dragging via Intention Reasoner ( http://arxiv.org/abs/2406.00432v1 )

ライセンス: Link先を確認
Xing Cui, Peipei Li, Zekun Li, Xuannan Liu, Yueying Zou, Zhaofeng He, (参考訳) 柔軟で正確なドラッグベースの編集は、最近大きな注目を集めた課題である。 現在のメソッドは、通常、この問題をポイントドラッグを通して ' ` How to drag'' を自動学習し、しばしば1つの決定論的推定を生成するようにモデル化します。 1) 図1に示すように、複数の結果が所定の入力に対応することができる、ドラッグベースの編集の本質的に不適切な性質を見越す。 2) 画質の制約を無視することは, 予期せぬ歪みを引き起こす可能性がある。 これを軽減するために、我々は『How to drag』から『What-then-how』のパラダイムに焦点を移す『LucidDrag』を提案する。 LucidDragは意図的推論器と協調的なガイダンスサンプリング機構を備える。 前者は、どのコンテンツとどのセマンティックな方向を編集するかを特定するために、いくつかの最適な編集戦略を推測する。 前者に基づいて、後者は、既存の編集指導と、新たに提案されたセマンティックガイダンスと品質ガイダンスを協調的に統合することで、"ドラッグする方法"に対処する。 具体的には、意味的指導は、合理的な意図に基づいて意味的な編集方向を確立することによって導き出され、品質指導は画像の忠実度判別器を用いて分類者誘導によって達成される。 定性的比較と定量的比較は、従来の方法よりもLucidDragの方が優れていることを示す。 コードはリリースされます。

Flexible and accurate drag-based editing is a challenging task that has recently garnered significant attention. Current methods typically model this problem as automatically learning ``how to drag'' through point dragging and often produce one deterministic estimation, which presents two key limitations: 1) Overlooking the inherently ill-posed nature of drag-based editing, where multiple results may correspond to a given input, as illustrated in Fig.1; 2) Ignoring the constraint of image quality, which may lead to unexpected distortion. To alleviate this, we propose LucidDrag, which shifts the focus from ``how to drag'' to a paradigm of ``what-then-how''. LucidDrag comprises an intention reasoner and a collaborative guidance sampling mechanism. The former infers several optimal editing strategies, identifying what content and what semantic direction to be edited. Based on the former, the latter addresses "how to drag" by collaboratively integrating existing editing guidance with the newly proposed semantic guidance and quality guidance. Specifically, semantic guidance is derived by establishing a semantic editing direction based on reasoned intentions, while quality guidance is achieved through classifier guidance using an image fidelity discriminator. Both qualitative and quantitative comparisons demonstrate the superiority of LucidDrag over previous methods. The code will be released.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# MoDGS:Caular-Captured Monocular Videoの動的ガウススプレイティング

MoDGS: Dynamic Gaussian Splatting from Causually-captured Monocular Videos ( http://arxiv.org/abs/2406.00434v1 )

ライセンス: Link先を確認
Qingming Liu, Yuan Liu, Jiepeng Wang, Xianqiang Lv, Peng Wang, Wenping Wang, Junhui Hou, (参考訳) 本稿では,カジュアルにキャプチャされたモノクロビデオのみを用いて,動的シーンで新しいビュー画像を描画するための新しいパイプラインであるMoDGSを提案する。 従来のモノクラーダイナミックNeRFやガウススプレート法は、マルチビュー整合性を構築するために入力カメラの迅速な動きに強く依存していたが、カメラが静止またはゆっくり動くカジュアルにキャプチャされた入力ビデオの動的シーンの再構築には失敗した。 この課題に対処するため、MoDGSは最近のシングルビュー深度推定手法を採用し、ダイナミックシーンの学習をガイドしている。 そこで, 動的シーン形状の学習を支援するために, 合理的な変形場を学習するための新しい3D認識初期化法を提案し, 新たなロバストな深さ損失を提案している。 総合的な実験により、MoDGSは、カジュアルにキャプチャされたモノクロビデオから、ダイナミックなシーンの高品質な新しいビューイメージをレンダリングできることが実証された。

In this paper, we propose MoDGS, a new pipeline to render novel-view images in dynamic scenes using only casually captured monocular videos. Previous monocular dynamic NeRF or Gaussian Splatting methods strongly rely on the rapid movement of input cameras to construct multiview consistency but fail to reconstruct dynamic scenes on casually captured input videos whose cameras are static or move slowly. To address this challenging task, MoDGS adopts recent single-view depth estimation methods to guide the learning of the dynamic scene. Then, a novel 3D-aware initialization method is proposed to learn a reasonable deformation field and a new robust depth loss is proposed to guide the learning of dynamic scene geometry. Comprehensive experiments demonstrate that MoDGS is able to render high-quality novel view images of dynamic scenes from just a casually captured monocular video, which outperforms baseline methods by a significant margin.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# インタラクション予測による学習操作

Learning Manipulation by Predicting Interaction ( http://arxiv.org/abs/2406.00439v1 )

ライセンス: Link先を確認
Jia Zeng, Qingwen Bu, Bangjun Wang, Wenke Xia, Li Chen, Hao Dong, Haoming Song, Dong Wang, Di Hu, Ping Luo, Heming Cui, Bin Zhao, Xuelong Li, Yu Qiao, Hongyang Li, (参考訳) 近年,ロボット操作のための表現学習アプローチが盛んである。 ドメイン内のロボットデータが不足しているため、大規模な人間のビデオデータセットを活用して、ビジュモータポリシー学習のための一般化可能な特徴を抽出する傾向にある。 進歩にもかかわらず、事前の取り組みは、操作プロセス中の動作パターンと物理的相互作用をキャプチャするインタラクティブなダイナミクスを無視し、オブジェクトと環境の関係を不十分に理解する結果となった。 そこで本研究では,対話(MPI)を予測して操作を学習し,視覚的表現を向上させる汎用事前学習パイプラインを提案する。 これら2つの学習目的は「相互作用の方法」と「相互作用の場所」に対する優れた理解を達成する。 実験の結果,MPIは従来のロボットプラットフォームやシミュレーション環境と比較して10%から64%向上していることがわかった。 コードとチェックポイントはhttps://github.com/OpenDriveLab/MPI.comで公開されています。

Representation learning approaches for robotic manipulation have boomed in recent years. Due to the scarcity of in-domain robot data, prevailing methodologies tend to leverage large-scale human video datasets to extract generalizable features for visuomotor policy learning. Despite the progress achieved, prior endeavors disregard the interactive dynamics that capture behavior patterns and physical interaction during the manipulation process, resulting in an inadequate understanding of the relationship between objects and the environment. To this end, we propose a general pre-training pipeline that learns Manipulation by Predicting the Interaction (MPI) and enhances the visual representation.Given a pair of keyframes representing the initial and final states, along with language instructions, our algorithm predicts the transition frame and detects the interaction object, respectively. These two learning objectives achieve superior comprehension towards "how-to-interact" and "where-to-interact". We conduct a comprehensive evaluation of several challenging robotic tasks.The experimental results demonstrate that MPI exhibits remarkable improvement by 10% to 64% compared with previous state-of-the-art in real-world robot platforms as well as simulation environments. Code and checkpoints are publicly shared at https://github.com/OpenDriveLab/MPI.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# Topo4D:高忠実4Dヘッドキャプチャのためのトポロジー保存型ガウススプラッティング

Topo4D: Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture ( http://arxiv.org/abs/2406.00440v1 )

ライセンス: Link先を確認
X. Li, Y. Cheng, X. Ren, H. Jia, D. Xu, W. Zhu, Y. Yan, (参考訳) 4Dヘッドキャプチャーは、動画から動的トポロジカルメッシュとそれに対応するテクスチャマップを生成することを目的としており、映画やゲームで広く利用されている。 業界はしばしば多視点ステレオと非剛性アライメントを含む手法を採用する。 しかし、このアプローチはエラーを起こしやすく、アーティストによる時間を要する手作業の処理に大きく依存する。 このプロセスを簡略化するために,キャリブレーションされたマルチビュー時系列画像から直接,密集した4Dヘッドと8Kテクスチャマップを最適化する,自動幾何およびテクスチャ生成のための新しいフレームワークであるTopo4Dを提案する。 具体的には、まず時系列面を、ガウス中心がメッシュ頂点に結合する固定位相を持つ動的3次元ガウス面の集合として表現する。 その後、時間的トポロジー安定性を維持しつつ、高品質な幾何学とテクスチャ学習のための代替幾何学とテクスチャ最適化フレームをフレーム単位で実行した。 最後に、学習したガウシアンから、規則的な配線配列と高忠実度テクスチャの動的顔メッシュを細孔レベルの詳細で抽出することができる。 本手法はメッシュの質とテクスチャの両面で,現在のSOTA顔再構成法よりも優れた結果が得られることを示す。 プロジェクトページ: https://xuanchenli.github.io/Topo4D/。

4D head capture aims to generate dynamic topological meshes and corresponding texture maps from videos, which is widely utilized in movies and games for its ability to simulate facial muscle movements and recover dynamic textures in pore-squeezing. The industry often adopts the method involving multi-view stereo and non-rigid alignment. However, this approach is prone to errors and heavily reliant on time-consuming manual processing by artists. To simplify this process, we propose Topo4D, a novel framework for automatic geometry and texture generation, which optimizes densely aligned 4D heads and 8K texture maps directly from calibrated multi-view time-series images. Specifically, we first represent the time-series faces as a set of dynamic 3D Gaussians with fixed topology in which the Gaussian centers are bound to the mesh vertices. Afterward, we perform alternative geometry and texture optimization frame-by-frame for high-quality geometry and texture learning while maintaining temporal topology stability. Finally, we can extract dynamic facial meshes in regular wiring arrangement and high-fidelity textures with pore-level details from the learned Gaussians. Extensive experiments show that our method achieves superior results than the current SOTA face reconstruction methods both in the quality of meshes and textures. Project page: https://xuanchenli.github.io/Topo4D/.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# ニューラル偏極:等変ネットワークの拡張による分子の電子密度に向けて

Neural Polarization: Toward Electron Density for Molecules by Extending Equivariant Networks ( http://arxiv.org/abs/2406.00441v1 )

ライセンス: Link先を確認
Bumju Kwak, Jeonghee Jo, (参考訳) 最近のSO(3)-同変モデルでは、分子を3次元空間に固定された単一の原子の集合として埋め込んだ。 この視点は、原子配置の簡潔なビューを提供するが、周囲の電子密度は表現できず、その分極効果は過小評価される可能性がある。 この制限を克服するために、各原子を固定点と移動点のペアとして埋め込むことにより、同変ネットワークを拡張する新しい方法である \textit{Neural Polarization} を提案する。 密度汎関数理論によって動機付けられたニューラルポーラライゼーションは、電子密度を含む空間充填ビューとして分子を表現し、ボール・アンド・スティックビューとは対照的である。 ニューラルポーラライゼーションは、既存の同変モデルのほとんどのタイプに柔軟に適用することができる。 ニューラルポーラライゼーションは,既存モデルの予測性能を広範囲に向上させることができることを示した。 最後に,本手法が数学的側面の表現性や同値性を向上させることを検証した。

Recent SO(3)-equivariant models embedded a molecule as a set of single atoms fixed in the three-dimensional space, which is analogous to a ball-and-stick view. This perspective provides a concise view of atom arrangements, however, the surrounding electron density cannot be represented and its polarization effects may be underestimated. To overcome this limitation, we propose \textit{Neural Polarization}, a novel method extending equivariant network by embedding each atom as a pair of fixed and moving points. Motivated by density functional theory, Neural Polarization represents molecules as a space-filling view which includes an electron density, in contrast with a ball-and-stick view. Neural Polarization can flexibly be applied to most type of existing equivariant models. We showed that Neural Polarization can improve prediction performances of existing models over a wide range of targets. Finally, we verified that our method can improve the expressiveness and equivariance in terms of mathematical aspects.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# 2次元セルオートマタによる3次元地形の生成

Generating 3D Terrain with 2D Cellular Automata ( http://arxiv.org/abs/2406.00443v1 )

ライセンス: Link先を確認
Nuno Fachada, António R. Rodrigues, Diogo de Andrade, Phil Lopes, (参考訳) 本稿では,2次元セルラーオートマトン (CA) を用いた簡易かつ効果的な付加的アプローチによる3次元地形の創出について検討する。 複数のCA遷移規則を実験することにより、この予備的な調査は、ゲームにおけるリアルタイムな地形生成にこの技術が適用可能であることを示唆し、美的な景観を生み出した。

This paper presents an initial exploration on the use of 2D cellular automata (CA) for generating 3D terrains through a simple yet effective additive approach. By experimenting with multiple CA transition rules, this preliminary investigation yielded aesthetically interesting landscapes, hinting at the technique's potential applicability for real-time terrain generation in games.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# GLCAN: ローカル学習のためのグローバルローカル協調補助ネットワーク

GLCAN: Global-Local Collaborative Auxiliary Network for Local Learning ( http://arxiv.org/abs/2406.00446v1 )

ライセンス: Link先を確認
Feiyu Zhu, Yuming Zhang, Changpeng Cai, Guinan Guo, Jiao Li, Xiuyuan Guo, Quanwei Zhang, Peizhe Wang, Chenghao He, Junhao Su, (参考訳) 従来のディープニューラルネットワークは、一般的にエンドツーエンドのバックプロパゲーションを使用する。 もうひとつの有望なトレーニング方法はローカル学習であり、ネットワークをブロックに分割し、補助的なネットワークの助けを借りてそれらを並行して訓練する。 局所学習は画像分類タスクに広く研究され、その性能はエンドツーエンドの手法に匹敵する。 しかし、異なる画像タスクは、しばしば異なる特徴表現に依存するため、典型的な補助ネットワークでは適応が困難である。 そこで本研究では,グローバルローカル協調補助ネットワーク(GLCAN)の構築手法を提案する。 これは、局所学習手法がオブジェクト検出や超解像といった他のタスクにうまく適用できる最初の実演である。 GLCANは多くのGPUメモリを節約するだけでなく、複数のタスクのためのデータセットに対するエンドツーエンドのアプローチと同等のパフォーマンスを持つ。

Traditional deep neural networks typically use end-to-end backpropagation, which often places a big burden on GPU memory. Another promising training method is local learning, which involves splitting the network into blocks and training them in parallel with the help of an auxiliary network. Local learning has been widely studied and applied to image classification tasks, and its performance is comparable to that of end-to-end method. However, different image tasks often rely on different feature representations, which is difficult for typical auxiliary networks to adapt to. To solve this problem, we propose the construction method of Global-Local Collaborative Auxiliary Network (GLCAN), which provides a macroscopic design approach for auxiliary networks. This is the first demonstration that local learning methods can be successfully applied to other tasks such as object detection and super-resolution. GLCAN not only saves a lot of GPU memory, but also has comparable performance to an end-to-end approach on data sets for multiple different tasks.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# DroneVis:Versatile Computer Vision Library for Drones

DroneVis: Versatile Computer Vision Library for Drones ( http://arxiv.org/abs/2406.00447v1 )

ライセンス: Link先を確認
Ahmed Heakl, Fatma Youssef, Victor Parque, Walid Gomaa, (参考訳) 本稿では,Parrotドローンのコンピュータビジョンアルゴリズムを自動化する新しいライブラリであるDroneVisを紹介する。 DroneVisは多様な機能を提供し、さまざまなコンピュータビジョンタスクと、選択すべきさまざまなモデルを提供する。 Pythonで実装されたこのライブラリは、高品質なコード標準に準拠しており、ユーザの要求に応じてカスタマイズと機能拡張を容易にする。 さらに、使用ガイドラインや説明的なユースケースを含む包括的なドキュメントも提供されている。 私たちのドキュメント、コード、例はhttps://github.com/ahmedheakl/drone-vis.comで公開されています。

This paper introduces DroneVis, a novel library designed to automate computer vision algorithms on Parrot drones. DroneVis offers a versatile set of features and provides a diverse range of computer vision tasks along with a variety of models to choose from. Implemented in Python, the library adheres to high-quality code standards, facilitating effortless customization and feature expansion according to user requirements. In addition, comprehensive documentation is provided, encompassing usage guidelines and illustrative use cases. Our documentation, code, and examples are available in https://github.com/ahmedheakl/drone-vis.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-01
# バイラテラル誘導放射場処理

Bilateral Guided Radiance Field Processing ( http://arxiv.org/abs/2406.00448v1 )

ライセンス: Link先を確認
Yuehao Wang, Chaoyi Wang, Bingchen Gong, Tianfan Xue, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,複数視点の整合性を利用した新規ビュー合成において,前例のない性能を達成する。 複数の入力をキャプチャすると、現代のカメラにおける画像信号処理(ISP)は、露光調整、色補正、局所トーンマッピングなど、独立してそれを強化する。 これらの処理は画像品質を大幅に改善するが、多視点整合性の仮定を破り、再構成された放射場における「浮動小数点」につながることが多い。 視覚美学を損なうことなくこの問題に対処するため,まずNeRFトレーニング段階においてISPによる拡張を解消し,最終段階において再構成された放射場に対するユーザ希望の強化を再度適用することを目的としている。 さらに、新しいビュー間で再適用された拡張を一貫性を持たせるためには、3D空間(すなわち「3D ISP」)で画像信号処理を行う必要がある。 この目的のために、ISP処理の一般化表現として、ローカルアフィンモデルである双方向グリッドを採用する。 具体的には、各入力ビューに対するカメラパイプラインの効果を近似するために、放射場を用いたビューごとの3次元グリッドを最適化する。 ユーザが調整可能な3Dフィニッシュを実現するために,1つのビューの編集から低ランクの4Dグリッドを学習し,画像の強化を3Dシーン全体に引き上げることを提案する。 提案手法は,フロータを効果的に除去し,ユーザリタッチによる拡張を行うことにより,新規ビュー合成の視覚的品質を向上させることができることを示す。 ソースコードとデータについては、https://bilarfpro.github.io.com/pc/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s

Neural Radiance Fields (NeRF) achieves unprecedented performance in synthesizing novel view synthesis, utilizing multi-view consistency. When capturing multiple inputs, image signal processing (ISP) in modern cameras will independently enhance them, including exposure adjustment, color correction, local tone mapping, etc. While these processings greatly improve image quality, they often break the multi-view consistency assumption, leading to "floaters" in the reconstructed radiance fields. To address this concern without compromising visual aesthetics, we aim to first disentangle the enhancement by ISP at the NeRF training stage and re-apply user-desired enhancements to the reconstructed radiance fields at the finishing stage. Furthermore, to make the re-applied enhancements consistent between novel views, we need to perform imaging signal processing in 3D space (i.e. "3D ISP"). For this goal, we adopt the bilateral grid, a locally-affine model, as a generalized representation of ISP processing. Specifically, we optimize per-view 3D bilateral grids with radiance fields to approximate the effects of camera pipelines for each input view. To achieve user-adjustable 3D finishing, we propose to learn a low-rank 4D bilateral grid from a given single view edit, lifting photo enhancements to the whole 3D scene. We demonstrate our approach can boost the visual quality of novel view synthesis by effectively removing floaters and performing enhancements from user retouching. The source code and our data are available at: https://bilarfpro.github.io.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# Dual Hyperspectral Mamba を用いた高能率分光圧縮イメージング

Dual Hyperspectral Mamba for Efficient Spectral Compressive Imaging ( http://arxiv.org/abs/2406.00449v1 )

ライセンス: Link先を確認
Jiahua Dong, Hui Yin, Hongliu Li, Wenbo Li, Yulun Zhang, Salman Khan, Fahad Shahbaz Khan, (参考訳) 深部展開法は、スペクトル圧縮画像における畳み込みニューラルネットワークやトランスフォーマーによる2次元計測から3次元ハイパースペクトル画像(HSI)の復元において顕著な進歩を遂げている。 しかし、グローバルな受容場を用いて長距離依存を効率的に捉えることはできないため、HSI再構成の性能は著しく制限される。 さらに,これらの手法は,Mambaを直接利用してグローバルな長距離依存関係をモデル化するための2次元特徴写像を1次元シーケンスとして展開する場合,局所的文脈無視に悩まされる可能性がある。 これらの課題に対処するために,グローバルな長距離依存関係とローカルコンテキストの両方を探索し,効率的なHSI再構成を実現するために,DHM(Dual Hyperspectral Mamba)を提案する。 CASSIシステムの劣化パターンを推定するために情報的パラメータを学習した後、線形射影を拡大し、雑音レベル(DHM)を提供する。 具体的には、DHMは複数の双対超スペクトルS4ブロック(DHSB)から構成され、元のHSIを復元する。 特に、各DHSBは、大域的受容場を用いて高分解能HSI全体にわたる長距離依存関係をモデル化するグローバルハイパースペクトルS4ブロック(GHSB)と、ローカルウィンドウ内に構造化状態空間シーケンス(S4)モデルを確立することで、局所的コンテキスト無視に対処するローカルハイパースペクトルS4ブロック(LHSB)を含む。 HSI再建におけるDHMの有用性を検証する実験を行った。 ソースコードとモデルはhttps://github.com/JiahuaDong/DHM.comで入手できる。

Deep unfolding methods have made impressive progress in restoring 3D hyperspectral images (HSIs) from 2D measurements through convolution neural networks or Transformers in spectral compressive imaging. However, they cannot efficiently capture long-range dependencies using global receptive fields, which significantly limits their performance in HSI reconstruction. Moreover, these methods may suffer from local context neglect if we directly utilize Mamba to unfold a 2D feature map as a 1D sequence for modeling global long-range dependencies. To address these challenges, we propose a novel Dual Hyperspectral Mamba (DHM) to explore both global long-range dependencies and local contexts for efficient HSI reconstruction. After learning informative parameters to estimate degradation patterns of the CASSI system, we use them to scale the linear projection and offer noise level for the denoiser (i.e., our proposed DHM). Specifically, our DHM consists of multiple dual hyperspectral S4 blocks (DHSBs) to restore original HSIs. Particularly, each DHSB contains a global hyperspectral S4 block (GHSB) to model long-range dependencies across the entire high-resolution HSIs using global receptive fields, and a local hyperspectral S4 block (LHSB) to address local context neglect by establishing structured state-space sequence (S4) models within local windows. Experiments verify the benefits of our DHM for HSI reconstruction. The source codes and models will be available at https://github.com/JiahuaDong/DHM.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# クラスタリングに基づく異常検出の統一化に向けて

Towards a Unified Framework of Clustering-based Anomaly Detection ( http://arxiv.org/abs/2406.00452v1 )

ライセンス: Link先を確認
Zeyu Fang, Ming Gu, Sheng Zhou, Jiawei Chen, Qiaoyu Tan, Haishuai Wang, Jiajun Bu, (参考訳) 非教師付き異常検出(UAD)は、ラベル付き例なしでデータ内の異常パターンを識別する上で重要な役割を担い、様々な領域で重要な実践的意味を持つ。 表現学習とクラスタリングの異常検出への個々の貢献はよく確立されているが、それらの相互依存は、統一された理論的枠組みが欠如しているために、未発見のままである。 その結果, 異常検出性能が向上する可能性がほとんどない。 本稿では, このギャップを埋めるために, 表現学習, クラスタリング, 異常検出の理論的関係を確立するために, 異常検出のための新しい確率混合モデルを提案する。 新たな異常認識データの可能性の最大化によって、表現学習とクラスタリングは、異常データの悪影響を効果的に低減し、異常検出に協力的に恩恵を与えることができる。 一方、理論的に裏付けられた異常スコアは、この枠組みから自然に導かれる。 最後に、物理学における重力解析からインスピレーションを得て、表現学習とクラスタリングの併用力を効果的に活用する改良された異常スコアを考案した。 30の多様なデータセットにわたる17のベースラインメソッドを含む大規模な実験は、提案手法の有効性と一般化能力を検証し、最先端の手法を超越した。

Unsupervised Anomaly Detection (UAD) plays a crucial role in identifying abnormal patterns within data without labeled examples, holding significant practical implications across various domains. Although the individual contributions of representation learning and clustering to anomaly detection are well-established, their interdependencies remain under-explored due to the absence of a unified theoretical framework. Consequently, their collective potential to enhance anomaly detection performance remains largely untapped. To bridge this gap, in this paper, we propose a novel probabilistic mixture model for anomaly detection to establish a theoretical connection among representation learning, clustering, and anomaly detection. By maximizing a novel anomaly-aware data likelihood, representation learning and clustering can effectively reduce the adverse impact of anomalous data and collaboratively benefit anomaly detection. Meanwhile, a theoretically substantiated anomaly score is naturally derived from this framework. Lastly, drawing inspiration from gravitational analysis in physics, we have devised an improved anomaly score that more effectively harnesses the combined power of representation learning and clustering. Extensive experiments, involving 17 baseline methods across 30 diverse datasets, validate the effectiveness and generalization capability of the proposed method, surpassing state-of-the-art methods.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# 置換されたカーネル問題のランダムなインスタンスに対する解の数について

On the number of solutions to a random instance of the permuted kernel problem ( http://arxiv.org/abs/2406.00453v1 )

ライセンス: Link先を確認
Carlo Sanna, (参考訳) 置換カーネル問題(Permuted Kernel Problem、PKP)は、1989年にシャミールによって初めて導入された線型代数の問題である。 大まかに言えば、$\ell \times m$ matrix $\mathbf{A}$と$m \times 1$ vector $\mathbf{b}$が$q$の元の有限体上のとき、PKP は$m \times m$ permutation matrix $\mathbf{\pi}$ を求める。 近年,PKPのランダムなインスタンスを解くことの難しさに対して,セキュリティを確実に低減できるポスト量子デジタルシグネチャスキームが提案されている。 この点に関して、パラメータ $q,\ell,m$ の観点から、PKP のランダムなインスタンスに対する解の期待数を知ることが重要である。 これまでの研究では、予想されるソリューションの数は$m! q^\ell$。 PKPのランダムなインスタンスと関連する不均一な置換カーネル問題(IPKP)に対して、ランダムなインスタンスを生成する2つの自然な方法を考えることにより、期待される解数の正確な式を、PKPとそれに関連する不均一なパーミューテッドカーネル問題(IPKP)に対して提供し、厳密に証明する。

The Permuted Kernel Problem (PKP) is a problem in linear algebra that was first introduced by Shamir in 1989. Roughly speaking, given an $\ell \times m$ matrix $\mathbf{A}$ and an $m \times 1$ vector $\mathbf{b}$ over a finite field of $q$ elements $\mathbb{F}_q$, the PKP asks to find an $m \times m$ permutation matrix $\mathbf{\pi}$ such that $\mathbf{\pi} \mathbf{b}$ belongs to the kernel of $\mathbf{A}$. In recent years, several post-quantum digital signature schemes whose security can be provably reduced to the hardness of solving random instances of the PKP have been proposed. In this regard, it is important to know the expected number of solutions to a random instance of the PKP in terms of the parameters $q,\ell,m$. Previous works have heuristically estimated the expected number of solutions to be $m! / q^\ell$. We provide, and rigorously prove, exact formulas for the expected number of solutions to a random instance of the PKP and the related Inhomogeneous Permuted Kernel Problem (IPKP), considering two natural ways of generating random instances.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# Mix-of-Granularity:Retrieval-Augmented Generationのためのチャンキング粒度最適化

Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.00456v1 )

ライセンス: Link先を確認
Zijie Zhong, Hanwen Liu, Xiaoya Cui, Xiaofan Zhang, Zengchang Qin, (参考訳) 異なる参照データソースからの情報を統合することは、各知識ソースが独自のデータ構造を採用し、異なる規則に従うため、検索-拡張生成(RAG)システムにとって大きな課題である。 複数の知識ソースから1つの固定された戦略で取得することは、通常、情報の過小評価につながる。 この欠点を軽減するために、ルータを用いた入力クエリに基づいて知識データベースの最適粒度を動的に決定するMix-of-Granularity(MoG)を導入する。 ルータはソフトラベルを用いた新たな損失関数によって効率よく訓練される。 さらに、MoGをMix-of-Granularity-Graph (MoGG)に拡張し、参照文書をグラフに前処理し、遠隔のチャンクから関連情報を検索できるようにする。 大規模な実験により,MoGとMoGGの両者が最適粒度レベルを効果的に予測し,下流タスクにおけるRAGシステムの性能を著しく向上することが示された。 MoGとMoGGの両方のコードは公開されます。

Integrating information from different reference data sources is a major challenge for Retrieval-Augmented Generation (RAG) systems because each knowledge source adopts a unique data structure and follows different conventions. Retrieving from multiple knowledge sources with one fixed strategy usually leads to under-exploitation of information. To mitigate this drawback, inspired by Mix-of-Expert, we introduce Mix-of-Granularity (MoG), a method that dynamically determines the optimal granularity of a knowledge database based on input queries using a router. The router is efficiently trained with a newly proposed loss function employing soft labels. We further extend MoG to Mix-of-Granularity-Graph (MoGG), where reference documents are pre-processed into graphs, enabling the retrieval of relevant information from distantly situated chunks. Extensive experiments demonstrate that both MoG and MoGG effectively predict optimal granularity levels, significantly enhancing the performance of the RAG system in downstream tasks. The code of both MoG and MoGG will be made public.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# 終末トークンの異常例:CLIPを用いたゼロショットアンタングル画像編集

The Curious Case of End Token: A Zero-Shot Disentangled Image Editing using CLIP ( http://arxiv.org/abs/2406.00457v1 )

ライセンス: Link先を確認
Hidir Yesiltepe, Yusuf Dalva, Pinar Yanardag, (参考訳) 拡散モデルは高品質な画像を作成する際に顕著になっている。 しかし、不整合な方法で画像を編集できるGANモデルとは異なり、拡散ベースのテキスト・ツー・イメージモデルは、画像のコヒーレンスを損なうことなく、同じレベルの正確な属性操作を実現するのに苦労する。 本稿では,Stable Diffusionなどの一般的なテキスト・画像拡散モデルでよく使用されるCLIPを用いて,ゼロショット方式でアンタングル編集を行う。 最先端の編集手法と定性的・定量的な比較を行った結果,本手法が競合する結果をもたらすことがわかった。 この知見は、画像編集やビデオ編集など様々なタスクにこの手法を適用する機会を開き、アンタングル編集の軽量で効率的なアプローチを提供する。

Diffusion models have become prominent in creating high-quality images. However, unlike GAN models celebrated for their ability to edit images in a disentangled manner, diffusion-based text-to-image models struggle to achieve the same level of precise attribute manipulation without compromising image coherence. In this paper, CLIP which is often used in popular text-to-image diffusion models such as Stable Diffusion is capable of performing disentangled editing in a zero-shot manner. Through both qualitative and quantitative comparisons with state-of-the-art editing methods, we show that our approach yields competitive results. This insight may open opportunities for applying this method to various tasks, including image and video editing, providing a lightweight and efficient approach for disentangled editing.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# 量子最適制御による表面符号欠陥の生成と操作

Creation and manipulation of surface code defects with quantum optimal control ( http://arxiv.org/abs/2406.00460v1 )

ライセンス: Link先を確認
Omar Raii, Anirban Dey, Florian Mintert, Daniel Burgarth, (参考訳) 表面符号はスピン-1/2格子系であり、欠陥が格子に句読されたときに非自明な位相順序を示すことができ、安定化符号として使用できる。 システム内の欠陥を生み出すために開発されたプロトコルは、以前は断熱力学に依存していた。 この研究では、量子最適制御の手法を用いて、断熱性の要求を克服し、より高速な時間スケールで量子計算に必要な他の重要な演算の欠陥生成と実装を実現する。

The surface code is a spin-1/2 lattice system that can exhibit non-trivial topological order when defects are punctured in the lattice and thus can be used as a stabiliser code. The protocols developed to create defects in the system have previously relied on adiabatic dynamics. In this work we use techniques of quantum optimal control to overcome the requirement for adiabaticity and achieve defect creation and implemention of other important operations required for quantum computation at much faster timescales.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# マニフォールド最適化と進化的メタヒューリスティックスによる多分解能行列因子分解の学習

Learning to Solve Multiresolution Matrix Factorization by Manifold Optimization and Evolutionary Metaheuristics ( http://arxiv.org/abs/2406.00469v1 )

ライセンス: Link先を確認
Truong Son Hy, Thieu Khang, Risi Kondor, (参考訳) 多分解能行列因数分解(MMF)は、低ランクの仮定をしない高速行列因数分解アルゴリズムの中でも珍しい。 これにより、MMFは複雑なマルチスケールまたは階層的なストラクタを持つある種のグラフをモデル化するのに特に適している。 MMFは有用なウェーブレット基底を生成することを約束するが、分解そのものを見つけることは困難であり、既存のグリーディ法は脆い傾向にある。 本稿では,メタヒューリスティックス(メタヒューリスティックス,特に進化的アルゴリズムと有向進化)を用いた因子分解を,バックプロパゲートエラーによるスティーフェル多様体の最適化とともに巧みに最適化するMMFの'learnable'バージョンを提案する。 得られたウェーブレット基底は、従来のMMFアルゴリズムよりも優れており、グラフ上の標準学習タスクに匹敵する性能を示す。 さらに、スペクトル領域上のウェーブレットニューラルネットワーク(WNN)学習グラフを、MMF学習アルゴリズムによって生成されたウェーブレットベースで構築する。 我々のウェーブレットネットワークは、分子グラフの分類と引用グラフのノード分類において、他の最先端の手法と競合する。 実装はhttps://github.com/HySonLab/LearnMMFで公開しています。

Multiresolution Matrix Factorization (MMF) is unusual amongst fast matrix factorization algorithms in that it does not make a low rank assumption. This makes MMF especially well suited to modeling certain types of graphs with complex multiscale or hierarchical strucutre. While MMF promises to yields a useful wavelet basis, finding the factorization itself is hard, and existing greedy methods tend to be brittle. In this paper, we propose a ``learnable'' version of MMF that carfully optimizes the factorization using metaheuristics, specifically evolutionary algorithms and directed evolution, along with Stiefel manifold optimization through backpropagating errors. We show that the resulting wavelet basis far outperforms prior MMF algorithms and gives comparable performance on standard learning tasks on graphs. Furthermore, we construct the wavelet neural networks (WNNs) learning graphs on the spectral domain with the wavelet basis produced by our MMF learning algorithm. Our wavelet networks are competitive against other state-of-the-art methods in molecular graphs classification and node classification on citation graphs. We release our implementation at https://github.com/HySonLab/LearnMMF
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# スパイクニューラルネットワークとダイナミックビジョンセンサを用いた逆気象条件における歩行者の意図予測

Pedestrian intention prediction in Adverse Weather Conditions with Spiking Neural Networks and Dynamic Vision Sensors ( http://arxiv.org/abs/2406.00473v1 )

ライセンス: Link先を確認
Mustafa Sakhai, Szymon Mazurek, Jakub Caputa, Jan K. Argasiński, Maciej Wielgosz, (参考訳) 本研究では,ダイナミック・ビジョン・センサ(DVS)と組み合わせたスパイキングニューラルネットワーク(SNN)の有効性を検討した。 動的・低照度・高コントラスト環境に優れたDVSの高時間分解能と低レイテンシを利用して、従来の畳み込みニューラルネットワーク(CNN)と比較してSNNの効率を評価する。 我々の実験では、CARLAシミュレーターのカスタムデータセットを使用して、さまざまな気象シナリオをまたいだテストを行い、現実世界の変動を反映した。 SNNモデルは、雨や霧のような複雑な条件下で、より優れた精度と計算効率を示すために、最先端のCNNに対して訓練され、ベンチマークされた。 その結果、DVSと統合されたSNNは、計算オーバーヘッドを大幅に削減し、CNNと比較して困難条件における検出精度を向上させることが示唆された。 このことは、DVSとバイオインスパイアされたSNN処理を組み合わせることで、自動運転車の認識と意思決定システムを強化し、さまざまな運用環境でインテリジェントな輸送システムの安全性を向上する可能性を強調している。 さらに,SNNは,単純な歩行者検出よりも,長い知覚窓や予測タスクを効率的に処理できることを示す。

This study examines the effectiveness of Spiking Neural Networks (SNNs) paired with Dynamic Vision Sensors (DVS) to improve pedestrian detection in adverse weather, a significant challenge for autonomous vehicles. Utilizing the high temporal resolution and low latency of DVS, which excels in dynamic, low-light, and high-contrast environments, we assess the efficiency of SNNs compared to traditional Convolutional Neural Networks (CNNs). Our experiments involved testing across diverse weather scenarios using a custom dataset from the CARLA simulator, mirroring real-world variability. SNN models, enhanced with Temporally Effective Batch Normalization, were trained and benchmarked against state-of-the-art CNNs to demonstrate superior accuracy and computational efficiency in complex conditions such as rain and fog. The results indicate that SNNs, integrated with DVS, significantly reduce computational overhead and improve detection accuracy in challenging conditions compared to CNNs. This highlights the potential of DVS combined with bio-inspired SNN processing to enhance autonomous vehicle perception and decision-making systems, advancing intelligent transportation systems' safety features in varying operational environments. Additionally, our research indicates that SNNs perform more efficiently in handling long perception windows and prediction tasks, rather than simple pedestrian detection.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# 地中微動を伴わない地域への微視的クロスビュー定位の適用

Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth ( http://arxiv.org/abs/2406.00474v1 )

ライセンス: Link先を確認
Zimin Xia, Yujiao Shi, Hongdong Li, Julian F. P. Kooij, (参考訳) 地上レベルのクエリ画像と、クエリのローカル環境をカバーするジオリファレンスな空中画像が与えられた場合、微粒なクロスビューローカライゼーションは、空中画像内の地上カメラの位置を推定することを目的としている。 最近の研究は、地上画像の正確な地上真実(GT)位置を訓練した先進的なネットワークの開発に重点を置いている。 しかし、トレーニング対象と異なる新たなターゲット領域の画像に適用した場合、トレーニング対象モデルは常にパフォーマンス低下に悩まされる。 ほとんどのデプロイメントシナリオでは、ターゲット領域のイメージを再トレーニングするための正確なGTロケーションを取得すれば、コストがかかり、時には実現不可能になる。 対照的に、数万メートルの誤差でノイズの多いGT画像の収集は容易であることが多い。 そこで本研究では,GTの微粒化を伴わないターゲット領域の画像のみを活用することにより,新たなターゲット領域におけるトレーニングモデルの性能向上に焦点をあてる。 本稿では,知識の自己蒸留に基づく弱教師付き学習手法を提案する。 このアプローチでは、事前訓練されたモデルからの予測を擬似GTとして使用して、自分自身のコピーを監督する。 提案手法は,擬似GTの不確実性を低減するためのモードベース擬似GT生成と,信頼できない擬似GTを除去するための外乱フィルタリング手法を含む。 提案手法は,最近の2つのベンチマークモデルを用いて検証した。 その結果, 目標領域における局所化精度は, 連続的に, 著しく向上することがわかった。

Given a ground-level query image and a geo-referenced aerial image that covers the query's local surroundings, fine-grained cross-view localization aims to estimate the location of the ground camera inside the aerial image. Recent works have focused on developing advanced networks trained with accurate ground truth (GT) locations of ground images. However, the trained models always suffer a performance drop when applied to images in a new target area that differs from training. In most deployment scenarios, acquiring fine GT, i.e. accurate GT locations, for target-area images to re-train the network can be expensive and sometimes infeasible. In contrast, collecting images with noisy GT with errors of tens of meters is often easy. Motivated by this, our paper focuses on improving the performance of a trained model in a new target area by leveraging only the target-area images without fine GT. We propose a weakly supervised learning approach based on knowledge self-distillation. This approach uses predictions from a pre-trained model as pseudo GT to supervise a copy of itself. Our approach includes a mode-based pseudo GT generation for reducing uncertainty in pseudo GT and an outlier filtering method to remove unreliable pseudo GT. Our approach is validated using two recent state-of-the-art models on two benchmarks. The results demonstrate that it consistently and considerably boosts the localization accuracy in the target area.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# ケミカルインダストリアルクラスタに基づくグリーンサプライチェーン管理最適化

Green Supply Chain Management Optimization Based on Chemical Industrial Clusters ( http://arxiv.org/abs/2406.00478v1 )

ライセンス: Link先を確認
Lei Jihu, (参考訳) パンデミック後、化学セクターは国家の進歩に不可欠な新しい課題に直面し、急速な変革とアップグレードの必要性が高まっている。 パンデミックの影響と持続可能性への需要の増加は、グリーンサプライチェーン管理の重要性を強調している。 本研究では,SPSS と AMOS を用いて調査を行い,規制コンプライアンス,グリーン調達,製造,物流,販売,競合,環境保護,コストコントロールなどの要因が化学企業におけるグリーンサプライチェーン管理意識と実装に与える影響について分析した。 その結果,これらの要因はグリーンサプライチェーン管理を著しく向上させ,経済的・環境的利益に寄与することが示唆された。 本稿では,ケミカルクラスタにおけるグリーンサプライチェーンの効率向上と,持続可能な産業成長を促進するための理論的枠組みを提供する。

Post-pandemic, the chemical sector faces new challenges crucial to national progress, with a pressing need for rapid transformation and upgrading. The pandemic's impact and increasing demand for sustainability have highlighted the importance of green supply chain management. This study used a questionnaire survey and analyzed the data with SPSS and AMOS to investigate the influence of factors like regulatory compliance, green procurement, manufacturing, logistics, sales, competitors, internal environmental protection, and cost control on green supply chain management awareness and implementation in chemical enterprises. The results show that these factors significantly enhance green supply chain management, contributing to economic and environmental benefits. This paper provides a theoretical framework to improve green supply chain efficiency in chemical clusters, promoting sustainable industry growth.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# Dual-Energy Computed Tomography 材料分解のためのエンド・ツー・エンドモデルに基づく深層学習

End-to-End Model-based Deep Learning for Dual-Energy Computed Tomography Material Decomposition ( http://arxiv.org/abs/2406.00479v1 )

ライセンス: Link先を確認
Jiandong Wang, Alessandro Perelli, (参考訳) Dual Energy X-ray Computed Tomography (DECT) は、X線線形減衰のエネルギー依存性を利用して、手動セグメンテーションなしで臨床画像中の物質を自動的に分解することができる。 本研究では,CTプロジェクションデータを直接材料画像に変換する定量的な材料分解のための,End-to-End Material Decomposition (E2E-DEcomp) と呼ばれる深層学習手法を提案する。 このアルゴリズムは、スペクトルモデルDECTシステムの知識を深層学習訓練損失に取り入れ、物質画像領域に先行するデータ学習を組み合わせたものである。 さらに、トレーニングはデータセット内のエネルギーベースのイメージを必要としない。 我々は,AAPMスペクトルCTデータセット(Sidky and Pan, 2023)における直接E2E-DEcomp法の有効性を,最先端の教師付きディープラーニングネットワークと比較した。

Dual energy X-ray Computed Tomography (DECT) enables to automatically decompose materials in clinical images without the manual segmentation using the dependency of the X-ray linear attenuation with energy. In this work we propose a deep learning procedure called End-to-End Material Decomposition (E2E-DEcomp) for quantitative material decomposition which directly convert the CT projection data into material images. The algorithm is based on incorporating the knowledge of the spectral model DECT system into the deep learning training loss and combining a data-learned prior in the material image domain. Furthermore, the training does not require any energy-based images in the dataset but rather only sinogram and material images. We show the effectiveness of the proposed direct E2E-DEcomp method on the AAPM spectral CT dataset (Sidky and Pan, 2023) compared with state of the art supervised deep learning networks.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# AlignSAM: 強化学習によるセグメンテーションモデルからオープンコンテキストへ

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning ( http://arxiv.org/abs/2406.00480v1 )

ライセンス: Link先を確認
Duojun Huang, Xinyu Xiong, Jie Ma, Jichang Li, Zequn Jie, Lin Ma, Guanbin Li, (参考訳) 大規模な訓練データを活用したSAM(Segment Anything Model)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化能力を実証した。 しかしながら、vanilla SAMはクラス非依存であり、興味のあるオブジェクトをセグメントするユーザーが提供するプロンプトに大きく依存している。 この手法を多様なタスクに適応させることは、正確な目標同定と、最適部分分割結果の回避に不可欠である。 本稿では,新しいフレームワークAlignSAMを提案する。このフレームワークは,強化学習を通じてSAMをオープンなコンテキストに整合させるための自動プロンプトを設計したものである。 エージェントによって書かれたAlignSAMは、パラメータを凍結させながら、さまざまな下流タスクにわたるSAMモデルの一般化を可能にする。 具体的には、AlignSAMは、基礎モデルと相互作用することで分割予測を反復的に洗練させるプロンプトエージェントを開始する。 強化学習政策ネットワークを統合し、基礎モデルに情報を提供する。 さらに、セマンティックリカレーションモジュールを導入して、プロンプトのきめ細かいラベルを提供し、明示的で暗黙的なセマンティクスを含むタスクを扱うモデルの習熟度を高める。 既存の基礎モデル間の様々な挑戦的セグメンテーションタスクで実施された実験は、最先端のアプローチよりも提案されたAlignSAMの優位性を実証している。 プロジェクトページ: \url{https://github.com/Duojun-Huang/AlignSAM-CVPR2024}。

Powered by massive curated training data, Segment Anything Model (SAM) has demonstrated its impressive generalization capabilities in open-world scenarios with the guidance of prompts. However, the vanilla SAM is class agnostic and heavily relies on user-provided prompts to segment objects of interest. Adapting this method to diverse tasks is crucial for accurate target identification and to avoid suboptimal segmentation results. In this paper, we propose a novel framework, termed AlignSAM, designed for automatic prompting for aligning SAM to an open context through reinforcement learning. Anchored by an agent, AlignSAM enables the generality of the SAM model across diverse downstream tasks while keeping its parameters frozen. Specifically, AlignSAM initiates a prompting agent to iteratively refine segmentation predictions by interacting with the foundational model. It integrates a reinforcement learning policy network to provide informative prompts to the foundational models. Additionally, a semantic recalibration module is introduced to provide fine-grained labels of prompts, enhancing the model's proficiency in handling tasks encompassing explicit and implicit semantics. Experiments conducted on various challenging segmentation tasks among existing foundation models demonstrate the superiority of the proposed AlignSAM over state-of-the-art approaches. Project page: \url{https://github.com/Duojun-Huang/AlignSAM-CVPR2024}.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# オープンワールド単一画像テスト時間適応のためのビジョン言語モデルの有効性

Effectiveness of Vision Language Models for Open-world Single Image Test Time Adaptation ( http://arxiv.org/abs/2406.00481v1 )

ライセンス: Link先を確認
Manogna Sreenivas, Soma Biswas, (参考訳) オープンでダイナミックな環境での単一画像テスト時間適応の現実的な課題に対処する新しい枠組みを提案する。 私たちは、CLIPのような大規模ビジョン言語モデルを利用して、ソースデータや地上の真実ラベルにアクセスすることなく、画像ごとのリアルタイム適応を可能にします。 デプロイされたモデルは、オープンな世界でも目に見えないクラスに遭遇する可能性があるので、まず、弱いOODサンプルと強いOODサンプルを区別するために、シンプルで効果的なout of Distribution(OOD)検出モジュールを使用します。 そこで本研究では,小規模で動的に更新された特徴バンクを用いて,弱いOODサンプルと強いOODサンプルの識別性を高めることを目的とした,新しいコントラスト学習手法を提案する。 最後に、信頼性のある弱いOODサンプルを用いてモデルを適用するための分類目的も採用する。 提案するフレームワークROSITAはこれらのコンポーネントを組み合わせて,ビジョン言語モデルの連続的なオンライン適応を可能にする。 多様なドメイン適応ベンチマークに関する大規模な実験は、提案フレームワークの有効性を検証する。 私たちのコードはプロジェクトのサイトhttps://manogna-s.github.io/rosita/にある。

We propose a novel framework to address the real-world challenging task of Single Image Test Time Adaptation in an open and dynamic environment. We leverage large scale Vision Language Models like CLIP to enable real time adaptation on a per-image basis without access to source data or ground truth labels. Since the deployed model can also encounter unseen classes in an open world, we first employ a simple and effective Out of Distribution (OOD) detection module to distinguish between weak and strong OOD samples. We propose a novel contrastive learning based objective to enhance the discriminability between weak and strong OOD samples by utilizing small, dynamically updated feature banks. Finally, we also employ a classification objective for adapting the model using the reliable weak OOD samples. The proposed framework ROSITA combines these components, enabling continuous online adaptation of Vision Language Models on a single image basis. Extensive experimentation on diverse domain adaptation benchmarks validates the effectiveness of the proposed framework. Our code can be found at the project site https://manogna-s.github.io/rosita/
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# 強化学習における階層的世界モデルの限界を探る

Exploring the limits of Hierarchical World Models in Reinforcement Learning ( http://arxiv.org/abs/2406.00483v1 )

ライセンス: Link先を確認
Robin Schiewer, Anand Subramoney, Laurenz Wiskott, (参考訳) 階層型モデルベース強化学習(HMBRL)は,モデルベース強化学習(MBRL)のより優れたサンプル効率の利点と,階層型強化学習(HRL)の抽象化能力を組み合わせて,複雑なタスクを効率的に解くことを目的としている。 HMBRLには大きな可能性があるが、まだ広く採用されていない。 本稿では,新しいHMBRLフレームワークについて述べるとともに,それを徹底的に評価する。 HRLの多層的決定イディオム特性を補完するため,様々な時間的抽象レベルで環境力学をシミュレートする階層的世界モデルを構築した。 これらのモデルは、下位エージェントに目標を提案することによって、トップダウンで通信するエージェントのスタックを訓練するために使用される。 この研究の重要な焦点は、階層全体にわたってモデルとエージェントの同時訓練を可能にする静的および環境非依存の時間的抽象化の探索である。 ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。 我々のHMBRLアプローチは最終回リターンの点で従来の手法を上回りませんでしたが、コンパクトで低次元の抽象的行動を用いて2段階の抽象的行動の意思決定を成功させました。 包括的実験によって明らかになったように,我々の手法の性能向上における中心的な課題は,我々の世界モデルスタックの抽象レベルにおけるモデルエクスプロイトである。 我々は,この問題について深く検討し,その分野への影響を論じ,今後の研究が課題を克服するための方向性を示唆する。 これらの知見を共有することにより、HMBRL方法論の洗練に関する幅広い議論に貢献し、複雑な意思決定環境のためのより効果的な自律学習システムの開発を支援することを目指している。

Hierarchical model-based reinforcement learning (HMBRL) aims to combine the benefits of better sample efficiency of model based reinforcement learning (MBRL) with the abstraction capability of hierarchical reinforcement learning (HRL) to solve complex tasks efficiently. While HMBRL has great potential, it still lacks wide adoption. In this work we describe a novel HMBRL framework and evaluate it thoroughly. To complement the multi-layered decision making idiom characteristic for HRL, we construct hierarchical world models that simulate environment dynamics at various levels of temporal abstraction. These models are used to train a stack of agents that communicate in a top-down manner by proposing goals to their subordinate agents. A significant focus of this study is the exploration of a static and environment agnostic temporal abstraction, which allows concurrent training of models and agents throughout the hierarchy. Unlike most goal-conditioned H(MB)RL approaches, it also leads to comparatively low dimensional abstract actions. Although our HMBRL approach did not outperform traditional methods in terms of final episode returns, it successfully facilitated decision making across two levels of abstraction using compact, low dimensional abstract actions. A central challenge in enhancing our method's performance, as uncovered through comprehensive experimentation, is model exploitation on the abstract level of our world model stack. We provide an in depth examination of this issue, discussing its implications for the field and suggesting directions for future research to overcome this challenge. By sharing these findings, we aim to contribute to the broader discourse on refining HMBRL methodologies and to assist in the development of more effective autonomous learning systems for complex decision-making environments.
翻訳日:2024-06-06 06:55:04 公開日:2024-06-01
# オプションポートフォリオ分析のための量子コンピューティング

Quantum Computing for Option Portfolio Analysis ( http://arxiv.org/abs/2406.00486v1 )

ライセンス: Link先を確認
Yusen Wu, Jingbo B. Wang, Yuying Li, (参考訳) 本稿では,VaR(Value-at-Risk)とCVar(Value-at-Risk)の計算に適した,効率的なエンドツーエンド量子アルゴリズムを提案する。 我々の焦点は、VaRとCVaRの推定において高次元性によって生じる課題を克服するために量子計算を活用することである。 我々の革新的な量子アルゴリズムは、主にヨーロッパのオプションに対するポートフォリオVaRとCVaRを推定するために設計されているが、同様の量子アプローチをアメリカのオプションの価格に応用する可能性についても検討する。 我々の分析では、現在のアルゴリズムにおける量子'no-go'定理を明らかにし、アメリカのオプションの価格設定の制限を強調している。 本研究は、今後の研究において、アメリカの選択肢の価格設定における相補的課題を解決するための代替戦略を検討する必要性を示唆するものである。

In this paper, we introduce an efficient and end-to-end quantum algorithm tailored for computing the Value-at-Risk (VaR) and conditional Value-at-Risk (CVar) for a portfolio of European options. Our focus is on leveraging quantum computation to overcome the challenges posed by high dimensionality in VaR and CVaR estimation. While our innovative quantum algorithm is designed primarily for estimating portfolio VaR and CVaR for European options, we also investigate the feasibility of applying a similar quantum approach to price American options. Our analysis reveals a quantum 'no-go' theorem within the current algorithm, highlighting its limitation in pricing American options. Our results indicate the necessity of investigating alternative strategies to resolve the complementarity challenge in pricing American options in future research.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# ラベル分布から学ぶための最適率

Optimistic Rates for Learning from Label Proportions ( http://arxiv.org/abs/2406.00487v1 )

ライセンス: Link先を確認
Gene Li, Lin Chen, Adel Javanmard, Vahab Mirrokni, (参考訳) 本稿では,Learning from Label Proportions (LLP) と呼ばれる弱い教師付き学習問題を考察し,サンプルを ``bags' にグループ化し,各バッグ内の平均ラベルのみを学習者に開示する。 分類損失に対するPAC学習保証を実現するLLPの学習ルールについて検討した。 古典的経験的比例的リスク最小化(EPRM)学習規則(Yu et al , 2014)は、実現可能性の低い速さで達成されるが、EPRMと類似の比率の学習規則は、不可知的に失敗する可能性がある。 また,(1)非偏差比例2乗損失,(2)最近提案されたEasyLLP学習規則(Busa-Fekete et al , 2023)が'最適化率'(Panchenko, 2002)を達成すること,また,実現可能かつ不可知的な設定においても,サンプルの複雑さは$\epsilon, \delta$, VC次元の点で最適であることを示す。

We consider a weakly supervised learning problem called Learning from Label Proportions (LLP), where examples are grouped into ``bags'' and only the average label within each bag is revealed to the learner. We study various learning rules for LLP that achieve PAC learning guarantees for classification loss. We establish that the classical Empirical Proportional Risk Minimization (EPRM) learning rule (Yu et al., 2014) achieves fast rates under realizability, but EPRM and similar proportion matching learning rules can fail in the agnostic setting. We also show that (1) a debiased proportional square loss, as well as (2) a recently proposed EasyLLP learning rule (Busa-Fekete et al., 2023) both achieve ``optimistic rates'' (Panchenko, 2002); in both the realizable and agnostic settings, their sample complexity is optimal (up to log factors) in terms of $\epsilon, \delta$, and VC dimension.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# Federated Model Heterogeneous Matryoshka Representation Learning

Federated Model Heterogeneous Matryoshka Representation Learning ( http://arxiv.org/abs/2406.00488v1 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Chao Ren, Gang Wang, Xiaoguang Liu, Xiaoxiao Li, (参考訳) モデルヘテロジニアスフェデレーション学習(MHeteroFL)により、FLクライアントは異種構造を持つモデルを分散的に訓練することができる。 しかし、既存のMHeteroFLメソッドは、クライアントモデルとサーバモデルの間で知識を伝達するために、トレーニング損失に依存するため、知識交換は限られている。 この制限に対処するため、教師付き学習タスクのためのフェデレーションモデルであるMateryoshka Representation Learning (FedMRL)を提案する。 これは、クライアントが異種局所モデルで共有する補助的な小さな同質モデルを追加する。 1)2つのモデルの特徴抽出器によって抽出された一般化されたパーソナライズされた表現は、パーソナライズされた軽量表現プロジェクタによって融合される。 このステップにより、表現融合は局所的なデータ分布に適応できる。 2) 融合表現は, グローバル同種モデルヘッダと局所異種モデルヘッダで学習した多次元および多次元の組込み表現を用いて, マトリリシカ表現を構築するために用いられる。 このステップはマルチパースペクティブな表現学習を促進し、モデル学習能力を向上させる。 理論的解析により、FedMRLは非凸収束率$O(1/T)を達成している。 ベンチマークデータセットの大規模な実験は、7つの最先端ベースラインと比較して、通信コストと計算コストの低いモデル精度が優れていることを示した。 最大8.48%、24.94%の精度向上を実現している。

Model heterogeneous federated learning (MHeteroFL) enables FL clients to collaboratively train models with heterogeneous structures in a distributed fashion. However, existing MHeteroFL methods rely on training loss to transfer knowledge between the client model and the server model, resulting in limited knowledge exchange. To address this limitation, we propose the Federated model heterogeneous Matryoshka Representation Learning (FedMRL) approach for supervised learning tasks. It adds an auxiliary small homogeneous model shared by clients with heterogeneous local models. (1) The generalized and personalized representations extracted by the two models' feature extractors are fused by a personalized lightweight representation projector. This step enables representation fusion to adapt to local data distribution. (2) The fused representation is then used to construct Matryoshka representations with multi-dimensional and multi-granular embedded representations learned by the global homogeneous model header and the local heterogeneous model header. This step facilitates multi-perspective representation learning and improves model learning capability. Theoretical analysis shows that FedMRL achieves a $O(1/T)$ non-convex convergence rate. Extensive experiments on benchmark datasets demonstrate its superior model accuracy with low communication and computational costs compared to seven state-of-the-art baselines. It achieves up to 8.48% and 24.94% accuracy improvement compared with the state-of-the-art and the best same-category baseline, respectively.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# 効率的な符号ベース最適化:可変化による収束の高速化

Efficient Sign-Based Optimization: Accelerating Convergence via Variance Reduction ( http://arxiv.org/abs/2406.00489v1 )

ライセンス: Link先を確認
Wei Jiang, Sifan Yang, Wenhao Yang, Lijun Zhang, (参考訳) 符号確率勾配降下 (signSGD) は、パラメータ更新のための確率勾配の符号のみを送信する通信効率のよい方法である。 既存の文献では、符号SGDは$\mathcal{O}(d^{1/2}T^{-1/4})$の収束率を達成でき、$d$は次元を表し、$T$は反復数である。 本稿では、この収束率を$\mathcal{O}(d^{1/2}T^{-1/3})$に改善し、SSVR(Sign-based Stochastic Variance Reduction)法を導入する。 有限サム問題に対しては、m$は成分関数の数を表す$\mathcal{O}(m^{1/4}d^{1/2}T^{-1/2})$の収束率を達成するためにさらに拡張することができる。 さらに、分散環境での不均一な多数決を調査し、$\mathcal{O}(d^{1/2}T^{-1/2} + dn^{-1/2})$と$\mathcal{O}(d^{1/4}T^{-1/4})$の収束率を改善する2つの新しいアルゴリズムを導入し、$\mathcal{O}(dT^{-1/4} + dn^{-1/2})$と$\mathcal{O}(d^{3/8}T^{-1/8})$の前の結果をそれぞれ上回り、$n$はノード数を表す。 提案手法の有効性を検証した数値実験を行った。

Sign stochastic gradient descent (signSGD) is a communication-efficient method that transmits only the sign of stochastic gradients for parameter updating. Existing literature has demonstrated that signSGD can achieve a convergence rate of $\mathcal{O}(d^{1/2}T^{-1/4})$, where $d$ represents the dimension and $T$ is the iteration number. In this paper, we improve this convergence rate to $\mathcal{O}(d^{1/2}T^{-1/3})$ by introducing the Sign-based Stochastic Variance Reduction (SSVR) method, which employs variance reduction estimators to track gradients and leverages their signs to update. For finite-sum problems, our method can be further enhanced to achieve a convergence rate of $\mathcal{O}(m^{1/4}d^{1/2}T^{-1/2})$, where $m$ denotes the number of component functions. Furthermore, we investigate the heterogeneous majority vote in distributed settings and introduce two novel algorithms that attain improved convergence rates of $\mathcal{O}(d^{1/2}T^{-1/2} + dn^{-1/2})$ and $\mathcal{O}(d^{1/4}T^{-1/4})$ respectively, outperforming the previous results of $\mathcal{O}(dT^{-1/4} + dn^{-1/2})$ and $\mathcal{O}(d^{3/8}T^{-1/8})$, where $n$ represents the number of nodes. Numerical experiments across different tasks validate the effectiveness of our proposed methods.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# SAM-VMNet:冠動脈血管セグメンテーションのためのディープニューラルネットワーク

SAM-VMNet: Deep Neural Networks For Coronary Angiography Vessel Segmentation ( http://arxiv.org/abs/2406.00492v1 )

ライセンス: Link先を確認
Xueying Zeng, Baixiang Huang, Yu Luo, Guangyu Wei, Songyan He, Yushuang Shao, (参考訳) 冠動脈疾患 (CAD) は心臓血管領域でもっとも多い疾患の1つである。 CTA画像は冠動脈疾患の診断の基準として信頼性が高く,CTA画像の血管分画および狭窄検出を行うことで,より正確に冠動脈疾患を診断することができる。 ベースモデルとドメイン固有モデルの両方の利点を組み合わせ,高精度かつ完全自動セグメンテーションと検出を限られたトレーニングサンプルで実現するために,VM-UNetの視覚的状態空間モデルの線形複雑さを活かしたMedSAMの強力な特徴抽出機能を組み合わせた新しいアーキテクチャSAM-VMNetを提案し,高速な推論速度とより強力なデータ処理能力を備えた視覚変換器よりも高速な推論を実現し,CTA画像のセグメンテーション精度と安定性を実現する。 実験の結果、SAM-VMNetアーキテクチャは、CTAイメージセグメンテーションタスクにおいて、98.32%のセグメンテーション精度と99.33%の感度で優れた性能を示し、これは既存のモデルよりも大幅に優れ、ドメイン適応性が強い。 CTA画像セグメンテーションタスクの総合的な評価は,SAM-VMNetが血管幹と毛細血管を正確に抽出し,血管セグメンテーションタスクに対する大きな可能性と幅広い応用シナリオを示し,さらに狭窄検出のための確かな基盤を築き上げたことを示している。

Coronary artery disease (CAD) is one of the most prevalent diseases in the cardiovascular field and one of the major contributors to death worldwide. Computed Tomography Angiography (CTA) images are regarded as the authoritative standard for the diagnosis of coronary artery disease, and by performing vessel segmentation and stenosis detection on CTA images, physicians are able to diagnose coronary artery disease more accurately. In order to combine the advantages of both the base model and the domain-specific model, and to achieve high-precision and fully-automatic segmentation and detection with a limited number of training samples, we propose a novel architecture, SAM-VMNet, which combines the powerful feature extraction capability of MedSAM with the advantage of the linear complexity of the visual state-space model of VM-UNet, giving it faster inferences than Vision Transformer with faster inference speed and stronger data processing capability, achieving higher segmentation accuracy and stability for CTA images. Experimental results show that the SAM-VMNet architecture performs excellently in the CTA image segmentation task, with a segmentation accuracy of up to 98.32% and a sensitivity of up to 99.33%, which is significantly better than other existing models and has stronger domain adaptability. Comprehensive evaluation of the CTA image segmentation task shows that SAM-VMNet accurately extracts the vascular trunks and capillaries, demonstrating its great potential and wide range of application scenarios for the vascular segmentation task, and also laying a solid foundation for further stenosis detection.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# ReLUネットワークの入力最適化のためのアクティベーションDescent正則化

Activation-Descent Regularization for Input Optimization of ReLU Networks ( http://arxiv.org/abs/2406.00494v1 )

ライセンス: Link先を確認
Hongzhan Yu, Sicun Gao, (参考訳) 本稿では、アクティベーションパターンの変化の影響を明示的に考慮し、ReLUネットワークの入力最適化のための新しいアプローチを提案する。 入力空間とアクティベーションパターンの双方における局所最適化ステップを分析し,より優れた局所降下特性を持つ手法を提案する。 そこで我々は,アクティベーションパターンの離散空間を微分可能な表現に変換するとともに,各降下ステップを改善する正規化項を提案する。 本実験は, 対人学習, 生成モデル, 強化学習など, 様々な分野における最先端技術向上のための入力最適化手法の有効性を実証するものである。

We present a new approach for input optimization of ReLU networks that explicitly takes into account the effect of changes in activation patterns. We analyze local optimization steps in both the input space and the space of activation patterns to propose methods with superior local descent properties. To accomplish this, we convert the discrete space of activation patterns into differentiable representations and propose regularization terms that improve each descent step. Our experiments demonstrate the effectiveness of the proposed input-optimization methods for improving the state-of-the-art in various areas, such as adversarial learning, generative modeling, and reinforcement learning.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# 空間音再生のためのビデオにおける音声-視覚的話者位置推定

Audio-Visual Talker Localization in Video for Spatial Sound Reproduction ( http://arxiv.org/abs/2406.00495v1 )

ライセンス: Link先を確認
Davide Berghi, Philip J. B. Jackson, (参考訳) オブジェクトベースのオーディオ生成では、サウンドシーンの前景にある重要な要素を含む、各ポイントソースオブジェクトに対して位置メタデータを定義する必要がある。 多くのメディアプロダクションのユースケースでは、カメラとマイクの両方が録音に使われており、人間の声が重要な要素であることが多い。 本研究では,ビデオ中のアクティブな話者を検出し,カメラの基準フレームに対する話者の位置メタデータの自動抽出を容易にする。 本研究は、視覚的モダリティの統合により、音声に基づくアクティブな話者検出と局所化に焦点をあてた以前の研究に展開する。 本研究では,マイクロホンアレイからのマルチチャンネル録音を利用した従来手法と,視覚とマルチチャンネル音声を融合した新しいオーディオ・ビジュアル・アプローチを比較した。 互いに補完する2つのモダリティの役割を見出した。 マルチチャネルオーディオは、単一チャンネルオーディオのオーディオ視覚法に比べて、検出誤差が2桁減少する。 マルチチャネルオーディオと視覚の組み合わせにより、空間的精度がさらに向上し、Tragic Talkersデータセット上でF1スコアの4パーセントが増加する。 今後の調査では、ノイズの多い高残響環境におけるモデルの堅牢性を評価するとともに、オフスクリーンスピーカーの問題に取り組む予定である。

Object-based audio production requires the positional metadata to be defined for each point-source object, including the key elements in the foreground of the sound scene. In many media production use cases, both cameras and microphones are employed to make recordings, and the human voice is often a key element. In this research, we detect and locate the active speaker in the video, facilitating the automatic extraction of the positional metadata of the talker relative to the camera's reference frame. With the integration of the visual modality, this study expands upon our previous investigation focused solely on audio-based active speaker detection and localization. Our experiments compare conventional audio-visual approaches for active speaker detection that leverage monaural audio, our previous audio-only method that leverages multichannel recordings from a microphone array, and a novel audio-visual approach integrating vision and multichannel audio. We found the role of the two modalities to complement each other. Multichannel audio, overcoming the problem of visual occlusions, provides a double-digit reduction in detection error compared to audio-visual methods with single-channel audio. The combination of multichannel audio and vision further enhances spatial accuracy, leading to a four-percentage point increase in F1 score on the Tragic Talkers dataset. Future investigations will assess the robustness of the model in noisy and highly reverberant environments, as well as tackle the problem of off-screen speakers.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# サイバー戦争戦略と戦術--サイバーゴール,戦略,戦術,技術の分析

Cyberwar Strategy and Tactics: An Analysis of Cyber Goals, Strategies, Tactics, and Techniques ( http://arxiv.org/abs/2406.00496v1 )

ライセンス: Link先を確認
Laura S. Tinnel, O. Sami Saydjari, Dave Farrell, (参考訳) 今日のサイバー戦争戦略と戦術は原始的でアドホックであり、結果として非効率でリアクティブなサイバー戦闘力をもたらす。 サイバー戦争プレイブック(Cyberwar Playbook)は、様々なサイバー戦争状況を効果的に扱うための知識の符号化である。 それはトラブルシューティングのアプローチを取り、サイバーベースの攻撃に対抗または回避するために使用されるサイバー戦術、テクニック、手順を定義する。 カオスの時にフォーカスと明確さを提供し、明確な応答経路を選択することができる。

Cyberwar strategy and tactics today are primitive and ad-hoc, resulting in an ineffective and reactive cyber fighting force. A Cyberwar Playbook is an encoding of knowledge on how to effectively handle a variety of cyberwar situations. It takes a troubleshooting approach and defines the cyber tactics, techniques and procedures one may employ to counter or avert cyber-based attacks. It provides focus and clarity in time of chaos allowing a clear path of response to be chosen.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# エンドツーエンド同時音声翻訳の最近の進歩

Recent Advances in End-to-End Simultaneous Speech Translation ( http://arxiv.org/abs/2406.00497v1 )

ライセンス: Link先を確認
Xiaoqian Liu, Guoqiang Hu, Yangfan Du, Erfeng He, YingFeng Luo, Chen Xu, Tong Xiao, Jingbo Zhu, (参考訳) 同時音声翻訳(SimulST)は、音声入力を継続的に処理しながら、リアルタイムに翻訳を生成するタスクである。 本稿では,SimulST研究の最近の展開を概観し,4つの課題に焦点をあてる。 第一に、長大で連続的な音声ストリームを処理する複雑さは、大きなハードルとなる。 第二に、リアルタイム要求を満たすことは、即時翻訳出力を必要とするため固有の困難を生じさせる。 第三に、翻訳品質とレイテンシの制約のバランスを崩すことは、依然として重要な課題です。 最後に、アノテーション付きデータの不足は、タスクに別の複雑なレイヤを追加します。 これらの課題と提案した解決策の探索を通じて、SimulST研究の現在の展望について貴重な知見を提供し、今後の探索に向けた有望な方向性を提案することを目的としている。

Simultaneous speech translation (SimulST) is a demanding task that involves generating translations in real-time while continuously processing speech input. This paper offers a comprehensive overview of the recent developments in SimulST research, focusing on four major challenges. Firstly, the complexities associated with processing lengthy and continuous speech streams pose significant hurdles. Secondly, satisfying real-time requirements presents inherent difficulties due to the need for immediate translation output. Thirdly, striking a balance between translation quality and latency constraints remains a critical challenge. Finally, the scarcity of annotated data adds another layer of complexity to the task. Through our exploration of these challenges and the proposed solutions, we aim to provide valuable insights into the current landscape of SimulST research and suggest promising directions for future exploration.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# カーネルのコンフォーマル変換:テキスト分類における幾何学的視点

Conformal Transformation of Kernels: A Geometric Perspective on Text Classification ( http://arxiv.org/abs/2406.00499v1 )

ライセンス: Link先を確認
Ioana Rădulescu, Alexandra Băicoianu, Adela Mihai, (参考訳) 本稿では,Support Vector Machine で使用されるカーネル関数に対する共形変換の影響について検討する。 我々の焦点はテキスト文書分類のタスクであり、各文書を特定のカテゴリに割り当てることである。 2つの共形変換と共に新しいガウスコサイン核を導入する。 合成および低次元データセットにおけるクラス分離性向上における共形変換の有効性を実証する以前の研究に基づいて、本分析を高次元テキストデータ領域に拡張する。 本研究では,Linear,Gaussian,Gaussianの2種類のバイナリ分類タスクに関するReutersデータセットを用いて実験を行った。 この結果から, コンフォメーション変換はカーネル性能を著しく向上させる可能性が示唆された。 具体的には、リニアカーネルのテストシナリオの60%、ガウスカーネルの84%、ガウスコサインカーネルの80%で改善が見られた。 これらの知見を踏まえると、コンフォメーション変換がカーネルのパフォーマンス向上に重要な役割を担い、大きなメリットをもたらすことが明らかになっている。

In this article we investigate the effects of conformal transformations on kernel functions used in Support Vector Machines. Our focus lies in the task of text document categorization, which involves assigning each document to a particular category. We introduce a new Gaussian Cosine kernel alongside two conformal transformations. Building upon previous studies that demonstrated the efficacy of conformal transformations in increasing class separability on synthetic and low-dimensional datasets, we extend this analysis to the high-dimensional domain of text data. Our experiments, conducted on the Reuters dataset on two types of binary classification tasks, compare the performance of Linear, Gaussian, and Gaussian Cosine kernels against their conformally transformed counterparts. The findings indicate that conformal transformations can significantly improve kernel performance, particularly for sub-optimal kernels. Specifically, improvements were observed in 60% of the tested scenarios for the Linear kernel, 84% for the Gaussian kernel, and 80% for the Gaussian Cosine kernel. In light of these findings, it becomes clear that conformal transformations play a pivotal role in enhancing kernel performance, offering substantial benefits.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# 第2回PVUWチャレンジ2024:ビデオパノプティカルセグメンテーション

2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation ( http://arxiv.org/abs/2406.00500v1 )

ライセンス: Link先を確認
Biao Wu, Diankai Zhang, Si Gao, Chengjian Zheng, Shaoli Liu, Ning Wang, (参考訳) ビデオパノプティクスセグメンテーション(VPS)は、画像パノプティクスセグメンテーションから拡張される難しいタスクである。VPSは、ビデオ内のすべてのオブジェクトを同時に分類し、追跡し、セグメンテーションすることを目的としており、これには物と物の両方が含まれる。 ビデオ理解、ビデオ編集、自律運転など、多くの下流タスクに広く応用されているためである。 野生におけるビデオパノプティクスセグメンテーションの課題に対処するために,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。 DVIS++フレームワークをベースラインとして使い、初期マスクを生成します。 そこで,本手法では,開発段階およびテスト段階において,VPQスコア56.36と57.12と,CVPR2024におけるPVUWチャレンジのVPSトラックの2位にランクインした。

Video Panoptic Segmentation (VPS) is a challenging task that is extends from image panoptic segmentation.VPS aims to simultaneously classify, track, segment all objects in a video, including both things and stuff. Due to its wide application in many downstream tasks such as video understanding, video editing, and autonomous driving. In order to deal with the task of video panoptic segmentation in the wild, we propose a robust integrated video panoptic segmentation solution. We use DVIS++ framework as our baseline to generate the initial masks. Then,we add an additional image semantic segmentation model to further improve the performance of semantic classes.Finally, our method achieves state-of-the-art performance with a VPQ score of 56.36 and 57.12 in the development and test phases, respectively, and ultimately ranked 2nd in the VPS track of the PVUW Challenge at CVPR2024.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# 拡散に基づく表面欠陥検出における分布内データ増大のための画像生成

Diffusion-based Image Generation for In-distribution Data Augmentation in Surface Defect Detection ( http://arxiv.org/abs/2406.00501v1 )

ライセンス: Link先を確認
Luigi Capogrosso, Federico Girella, Francesco Taioli, Michele Dalla Chiara, Muhammad Aqeel, Franco Fummi, Francesco Setti, Marco Cristani, (参考訳) 本研究では, 産業シナリオにおける拡散モデルを用いて, 表面欠陥検出の文脈におけるデータ増大過程を改善することを提案する。 一般に、欠陥検出分類器は、通常のサンプル(負のデータ)と欠陥のあるサンプル(正データ)によって形成される地中構造データに基づいて訓練される。 これらの理由により、最先端のデータ拡張手順は、通常のサンプルにアーティファクトを重ね合わせることで合成欠陥データを追加する。 これにより、分類システムは通常のサンプルではないものを学習するが、欠陥が実際に何であるかを知らないように、アウト・オブ・ディストリビューション(out-of-distriion)な拡張データをもたらす。 拡散モデルがこの状況を克服し、より現実的な分布内欠陥を提供することで、モデルが欠陥の真の外観を学習できることを示します。 本稿では,In/Out と呼ぶ,配当外と配当内サンプルを混合したデータ拡張手法を提案する。 このアプローチは2つのデータ拡張設定を扱うことができる。 一 欠陥がない場合(ゼロショットデータ拡張) 二 欠陥があるときは、少ない数(二発)又は大きいもの(全発)にあつてはならない。 我々は、最先端のSurface-Defect Dataset 2における最も難しいベンチマーク、すなわち、.782の弱い監督の下で新しい最先端の分類APスコアを定義することに集中する。 コードはhttps://github.com/intelligolabs/in_and_out.comで公開されている。

In this study, we show that diffusion models can be used in industrial scenarios to improve the data augmentation procedure in the context of surface defect detection. In general, defect detection classifiers are trained on ground-truth data formed by normal samples (negative data) and samples with defects (positive data), where the latter are consistently fewer than normal samples. For these reasons, state-of-the-art data augmentation procedures add synthetic defect data by superimposing artifacts to normal samples. This leads to out-of-distribution augmented data so that the classification system learns what is not a normal sample but does not know what a defect really is. We show that diffusion models overcome this situation, providing more realistic in-distribution defects so that the model can learn the defect's genuine appearance. We propose a novel approach for data augmentation that mixes out-of-distribution with in-distribution samples, which we call In&Out. The approach can deal with two data augmentation setups: i) when no defects are available (zero-shot data augmentation) and ii) when defects are available, which can be in a small number (few-shot) or a large one (full-shot). We focus the experimental part on the most challenging benchmark in the state-of-the-art, i.e., the Kolektor Surface-Defect Dataset 2, defining the new state-of-the-art classification AP score under weak supervision of .782. The code is available at https://github.com/intelligolabs/in_and_out.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# ワッサーシュタイン空間における非幾何学的凸最適化

Non-geodesically-convex optimization in the Wasserstein space ( http://arxiv.org/abs/2406.00502v1 )

ライセンス: Link先を確認
Hoang Phuc Hau Luu, Hanlin Yu, Bernardo Williams, Petrus Mikkola, Marcelo Hartmann, Kai Puolamäki, Arto Klami, (参考訳) 一般化された測地線に沿って目的関数が \emph{nonconvex} であるワッサーシュタイン空間(確率測度空間)における最適化問題のクラスを研究する。 正規化項が負のエントロピーであるとき、最適化問題は、確率測度(最適化変数)と対数確率密度が非凸関数であるターゲット確率測度との間のクルバック・リーバーのばらつきを最小化するサンプリング問題となる。 我々は、いくつかの非凸な(そしておそらくは非滑らかな)体制の下で、新しい半フォワード・バックワード・オイラースキームに対する多重収束洞察を導出する。 特に、半フォワード・バックワード・オイラーは、我々の知識に収束するフォワード・バックワード・オイラーのほんの少しの修正にすぎない。

We study a class of optimization problems in the Wasserstein space (the space of probability measures) where the objective function is \emph{nonconvex} along generalized geodesics. When the regularization term is the negative entropy, the optimization problem becomes a sampling problem where it minimizes the Kullback-Leibler divergence between a probability measure (optimization variable) and a target probability measure whose logarithmic probability density is a nonconvex function. We derive multiple convergence insights for a novel {\em semi Forward-Backward Euler scheme} under several nonconvex (and possibly nonsmooth) regimes. Notably, the semi Forward-Backward Euler is just a slight modification of the Forward-Backward Euler whose convergence is -- to our knowledge -- still unknown in our very general non-geodesically-convex setting.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# シュレーディンガー橋の高架化工法と高架化工法-高架化工法と高架化工法

Schrödinger Bridge with Quadratic State Cost is Exactly Solvable ( http://arxiv.org/abs/2406.00503v1 )

ライセンス: Link先を確認
Alexis M. H. Teter, Wenqing Wang, Abhishek Halder, (参考訳) Schr\"odinger Bridge"は、所定の時間内に所定の分布を他人に操り、それを行う労力を最小限に抑える拡散過程である。 最適物質輸送の確率的力学バージョンと見なすことができ、生成拡散モデルや確率的最適制御にも応用が拡大している。 本研究では,2次状態のコスト・ツー・ゴーを用いたSchr\"odinger Bridgeの正規化変種を提案する。 従来のシュリンガー橋とは異なり、正規化は確率質量の殺しと生成の状態依存率を誘導し、その解は反応拡散偏微分方程式のマルコフ核を決定する必要がある。 このマルコフ核を閉形式で導出する。 我々の溶液は、消滅する正則化(すなわち、反応のない拡散)の限界の中で熱核を回収し、その結果、従来のシュリンガー橋の解を回収する。 この結果から,シュリンガー橋の動的シンクホーン再帰を2次状態のコスト・ツー・ゴーで計算することが可能となり,この設定では利用が困難となる。 我々は、新しいカーネルの性質を推論し、量子力学において、特定の解可能なモデルとの接続を説明する。

Schr\"odinger bridge is a diffusion process that steers a given distribution to another in a prescribed time while minimizing the effort to do so. It can be seen as the stochastic dynamical version of the optimal mass transport, and has growing applications in generative diffusion models and stochastic optimal control. In this work, we propose a regularized variant of the Schr\"odinger bridge with a quadratic state cost-to-go that incentivizes the optimal sample paths to stay close to a nominal level. Unlike the conventional Schr\"odinger bridge, the regularization induces a state-dependent rate of killing and creation of probability mass, and its solution requires determining the Markov kernel of a reaction-diffusion partial differential equation. We derive this Markov kernel in closed form. Our solution recovers the heat kernel in the vanishing regularization (i.e., diffusion without reaction) limit, thereby recovering the solution of the conventional Schr\"odinger bridge. Our results enable the use of dynamic Sinkhorn recursion for computing the Schr\"odinger bridge with a quadratic state cost-to-go, which would otherwise be challenging to use in this setting. We deduce properties of the new kernel and explain its connections with certain exactly solvable models in quantum mechanics.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-01
# 改良されたUAV検索・救助システムに関する研究

Research on an Autonomous UAV Search and Rescue System Based on the Improved ( http://arxiv.org/abs/2406.00504v1 )

ライセンス: Link先を確認
Haobin Chen, Junyu Tao, Bize Zhou, Xiaoyan Liu, (参考訳) この要求は、無人航空機(無人航空機)が自律的に動作し、複雑な未知の環境で探索や救助などの実用的な機能を実装するという問題を解決することである。 本稿では,EGO-Plannerアルゴリズムに基づく自律型検索・救助UAVシステムを提案する。これは,革新的なUAVボディー応用により改良され,UAVの全体的な飛行効率の向上とマシン全体の小型化を目的として,逆モータバックステッピング方式を採用している。 同時に、双方向A*アルゴリズムとオブジェクト検出アルゴリズムによって最適化されたEGO-Planner計画ツールも導入した。 インテリジェントな障害物回避と探索と救助の問題を解決する。 シミュレーションとフィールド検証の作業を通じて、従来のアルゴリズムと比較すると、タスクの効率性と信頼性が向上する。 さらに,既存のアルゴリズムの堅牢性の向上により,この応用は良好な見通しを示す。

The demand is to solve the issue of UAV (unmanned aerial vehicle) operating autonomously and implementing practical functions such as search and rescue in complex unknown environments. This paper proposes an autonomous search and rescue UAV system based on an EGO-Planner algorithm, which is improved by innovative UAV body application and takes the methods of inverse motor backstepping to enhance the overall flight efficiency of the UAV and miniaturization of the whole machine. At the same time, the system introduced the EGO-Planner planning tool, which is optimized by a bidirectional A* algorithm along with an object detection algorithm. It solves the issue of intelligent obstacle avoidance and search and rescue. Through the simulation and field verification work, and compared with traditional algorithms, this method shows more efficiency and reliability in the task. In addition, due to the existing algorithm's improved robustness, this application shows good prospection.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# 合成キャプションによる画像のテキスト生成の改善

Improving Text Generation on Images with Synthetic Captions ( http://arxiv.org/abs/2406.00505v1 )

ライセンス: Link先を確認
Jun Young Koh, Sang Hyun Park, Joy Song, (参考訳) 近年のSDXLやSD 1.5のような潜伏拡散モデルの出現は、高精細でリアルな画像を生成する上で重要な能力を示している。 画像を生成する素晴らしい能力にもかかわらず、画像内の正確なテキストを生成することは依然として難しい課題だ。 本稿では,画像中の可視テキスト生成における微調整手法の有効性について検討する。 本稿では,SDXLを大規模データセット上でのトレーニングに要しない,低コストなアプローチを提案する。 提案手法は,データ改質レベルと合成キャプションの効果を調べる微調整技術を用いている。 さらに,本研究の小型微調整手法は,追加のマルチモーダルエンコーダを必要とせずに,異なるシナリオにおけるテキスト生成の精度を向上できることを示す。 実験により, 生のデータセットにランダムな文字を追加することにより, モデルの性能が向上し, 良好な視覚テキストを生成することができた。

The recent emergence of latent diffusion models such as SDXL and SD 1.5 has shown significant capability in generating highly detailed and realistic images. Despite their remarkable ability to produce images, generating accurate text within images still remains a challenging task. In this paper, we examine the validity of fine-tuning approaches in generating legible text within the image. We propose a low-cost approach by leveraging SDXL without any time-consuming training on large-scale datasets. The proposed strategy employs a fine-tuning technique that examines the effects of data refinement levels and synthetic captions. Moreover, our results demonstrate how our small scale fine-tuning approach can improve the accuracy of text generation in different scenarios without the need of additional multimodal encoders. Our experiments show that with the addition of random letters to our raw dataset, our model's performance improves in producing well-formed visual text.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# Prompt Chaining あるいは Stepwise Prompt? テキスト要約における微細化

Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization ( http://arxiv.org/abs/2406.00507v1 )

ライセンス: Link先を確認
Shichao Sun, Ruifeng Yuan, Ziqiang Cao, Wenjie Li, Pengfei Liu, (参考訳) 大規模言語モデル(LLM)は、初期ドラフトから始まる批判と洗練の人間的な反復過程を反映することにより、要約品質を改善する能力を示した。 この反復的なプロセスを実行するために、Prompt ChainingとStepwise Promptの2つの戦略が設計されている。 プロンプトチェインは3つの個別のプロンプトを通じて段階を編成し、ステップワイズプロンプトは1つのプロンプトにこれらの段階を統合する。 しかし、この2つの手法の相対的な効果は広く研究されていない。 本稿では,この2つの手法をテキスト要約の文脈で検証し,どの手法が最も有効かを確認することを目的とする。 実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。 これは、ステップワイズプロンプトが、様々な実験に従ってシミュレーションされた精錬プロセスを生成する可能性があるためかもしれない。 改良は多様なタスクに適応するので、我々の結論は、他のアプリケーションに外挿される可能性があり、LLMのより広範な発展に寄与する可能性のある洞察を提供する。

Large language models (LLMs) have demonstrated the capacity to improve summary quality by mirroring a human-like iterative process of critique and refinement starting from the initial draft. Two strategies are designed to perform this iterative process: Prompt Chaining and Stepwise Prompt. Prompt chaining orchestrates the drafting, critiquing, and refining phases through a series of three discrete prompts, while Stepwise prompt integrates these phases within a single prompt. However, the relative effectiveness of the two methods has not been extensively studied. This paper is dedicated to examining and comparing these two methods in the context of text summarization to ascertain which method stands out as the most effective. Experimental results show that the prompt chaining method can produce a more favorable outcome. This might be because stepwise prompt might produce a simulated refinement process according to our various experiments. Since refinement is adaptable to diverse tasks, our conclusions have the potential to be extrapolated to other applications, thereby offering insights that may contribute to the broader development of LLMs.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# FlowIE: 整流流による効率的な画像強調

FlowIE: Efficient Image Enhancement via Rectified Flow ( http://arxiv.org/abs/2406.00508v1 )

ライセンス: Link先を確認
Yixuan Zhu, Wenliang Zhao, Ao Li, Yansong Tang, Jie Zhou, Jiwen Lu, (参考訳) イメージエンハンスメントは、複雑な環境と撮像デバイスの制限により、現実世界のシナリオで広範囲に応用される。 従来の手法は、しばしば調整されたモデルによって制約されるため、困難な劣化条件に直面すると頑丈性が低下する。 そこで本研究では,フローベース画像拡張フレームワークであるFlowIEを提案する。 長期の推論に苦しむ従来の拡散に基づく手法とは異なり、FlowIEは条件付き整流による線形多対一輸送マッピングを構築している。 この補正は確率伝達の軌跡を直線化し、推測を桁違いに加速させる。 この設計により、FlowIEはトレーニング済みの拡散モデルにおける豊富な知識を十分に活用することができ、様々な現実世界のアプリケーションに適しています。 さらに,Lagrange の Mean Value Theorem にインスパイアされた高速な推論アルゴリズムを考案し,経路推定を最適化するために中点接点方向を利用することにより,最終的に視覚的に優れた結果が得られることを示した。 これらの設計のおかげで、FlowIEは5ステップ未満の簡潔なシーケンス内で様々な拡張タスクを順応的に管理します。 私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて厳格に検証され、提案したFlowIEの有効性と効率を明らかにする。 コードはhttps://github.com/EternalEvan/FlowIE.comで入手できる。

Image enhancement holds extensive applications in real-world scenarios due to complex environments and limitations of imaging devices. Conventional methods are often constrained by their tailored models, resulting in diminished robustness when confronted with challenging degradation conditions. In response, we propose FlowIE, a simple yet highly effective flow-based image enhancement framework that estimates straight-line paths from an elementary distribution to high-quality images. Unlike previous diffusion-based methods that suffer from long-time inference, FlowIE constructs a linear many-to-one transport mapping via conditioned rectified flow. The rectification straightens the trajectories of probability transfer, accelerating inference by an order of magnitude. This design enables our FlowIE to fully exploit rich knowledge in the pre-trained diffusion model, rendering it well-suited for various real-world applications. Moreover, we devise a faster inference algorithm, inspired by Lagrange's Mean Value Theorem, harnessing midpoint tangent direction to optimize path estimation, ultimately yielding visually superior results. Thanks to these designs, our FlowIE adeptly manages a diverse range of enhancement tasks within a concise sequence of fewer than 5 steps. Our contributions are rigorously validated through comprehensive experiments on synthetic and real-world datasets, unveiling the compelling efficacy and efficiency of our proposed FlowIE. Code is available at https://github.com/EternalEvan/FlowIE.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# 微調整の論理を理解するための経験的影響関数

Empirical influence functions to understand the logic of fine-tuning ( http://arxiv.org/abs/2406.00509v1 )

ライセンス: Link先を確認
Jordan K. Matelsky, Lyle Ungar, Konrad P. Kording, (参考訳) ニューラルネットワークで学習するプロセスを理解することは、パフォーマンスを改善し、振る舞いを解釈するために不可欠である。 これは、モデルのアウトプットが、新しいトレーニングサンプルを微調整するときにどのように影響するかを尋ねることで、概ね理解できます。 意味的距離、スパース性、ノイズ不変性、推移的因果性、論理的一貫性による影響の減少など、このような影響に対するデシラタが存在する。 ここでは、微調整を用いて測定された経験的影響を用いて、個々のトレーニングサンプルが出力に与える影響を実証する。 これらのデシダラタは、単純な畳み込みネットワークと現代のLLMの両方に違反していることを示す。 また、この障害を部分的に解決する方法も説明します。 本稿では、ニューラルネットワークが微調整刺激からいかに学習するかを定量化する、効率的で実用的な方法を提案する。 この結果から,一般的なモデルでは論理を一般化・実行できないことが示唆された。

Understanding the process of learning in neural networks is crucial for improving their performance and interpreting their behavior. This can be approximately understood by asking how a model's output is influenced when we fine-tune on a new training sample. There are desiderata for such influences, such as decreasing influence with semantic distance, sparseness, noise invariance, transitive causality, and logical consistency. Here we use the empirical influence measured using fine-tuning to demonstrate how individual training samples affect outputs. We show that these desiderata are violated for both for simple convolutional networks and for a modern LLM. We also illustrate how prompting can partially rescue this failure. Our paper presents an efficient and practical way of quantifying how well neural networks learn from fine-tuning stimuli. Our results suggest that popular models cannot generalize or perform logic in the way they appear to.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# オープンな語彙オブジェクト検出のための暗黙の知識発見のためのバックグラウンドプロンプト

Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection ( http://arxiv.org/abs/2406.00510v1 )

ライセンス: Link先を確認
Jiaming Li, Jiacheng Zhang, Jichang Li, Ge Li, Si Liu, Liang Lin, Guanbin Li, (参考訳) Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。 近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達し、より未知のオブジェクトカテゴリを特定するための検出器の強力な能力を著しく一般化している。 しかし、これらの手法は背景解釈やモデルオーバーフィッティングにおいて重大な課題に直面しており、しばしば重要な背景知識が失われ、検出器の準最適推論性能がもたらされる。 これらの問題を緩和するために,LBP と呼ばれる新しい OVD フレームワークを提案する。 具体的には、バックグラウンドカテゴリ固有のPrompt、バックグラウンドオブジェクト発見、推論確率再現という3つのモジュールを考案し、バックグラウンド提案から探索された暗黙的なオブジェクト知識を発見し、表現し、活用する。 OV-COCOとOV-LVISという2つのベンチマークデータセットの評価は,OVDタスク処理における既存の最先端手法よりも提案手法の方が優れていることを示す。

Open vocabulary object detection (OVD) aims at seeking an optimal object detector capable of recognizing objects from both base and novel categories. Recent advances leverage knowledge distillation to transfer insightful knowledge from pre-trained large-scale vision-language models to the task of object detection, significantly generalizing the powerful capabilities of the detector to identify more unknown object categories. However, these methods face significant challenges in background interpretation and model overfitting and thus often result in the loss of crucial background knowledge, giving rise to sub-optimal inference performance of the detector. To mitigate these issues, we present a novel OVD framework termed LBP to propose learning background prompts to harness explored implicit background knowledge, thus enhancing the detection performance w.r.t. base and novel categories. Specifically, we devise three modules: Background Category-specific Prompt, Background Object Discovery, and Inference Probability Rectification, to empower the detector to discover, represent, and leverage implicit object knowledge explored from background proposals. Evaluation on two benchmark datasets, OV-COCO and OV-LVIS, demonstrates the superiority of our proposed method over existing state-of-the-art approaches in handling the OVD tasks.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# バイオメトリックオンライン署名認識における第1および第2微分近似の利用について

On the use of first and second derivative approximations for biometric online signature recognition ( http://arxiv.org/abs/2406.00512v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Moises Diaz, (参考訳) 本稿では,パターン認識アプリケーションにおける特徴抽出における様々な近似手法の影響について検討する。 MCYT330オンライン署名データベースを用いて、11点近似は1点近似より優れ、識別率1.4%、ランダムフォージェリー36.8%、熟練フォージェリー2.4%が向上することを示した。

This paper investigates the impact of different approximation methods in feature extraction for pattern recognition applications, specifically focused on delta and delta-delta parameters. Using MCYT330 online signature data-base, our experiments show that 11-point approximation outperforms 1-point approximation, resulting in a 1.4% improvement in identification rate, 36.8% reduction in random forgeries and 2.4% reduction in skilled forgeries
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# コード生成のための大規模言語モデルに関する調査

A Survey on Large Language Models for Code Generation ( http://arxiv.org/abs/2406.00515v1 )

ライセンス: Link先を確認
Juyong Jiang, Fan Wang, Jiasi Shen, Sungju Kim, Sunghun Kim, (参考訳) 大規模言語モデル(LLM)は、コードLLMとして知られる様々なコード関連タスク、特に自然言語記述からLLMでソースコードを生成するコード生成において、顕著な進歩を遂げている。 この急成長分野は、GitHub Copilotなど、ソフトウェア開発における実践的な重要性から、学術研究者と業界専門家の両方から大きな関心を集めている。 自然言語処理(NLP)やソフトウェア工学(SE)の観点から、様々なコードタスクに対するLLMの活発な探索にもかかわらず、コード生成のためにLLM専用の総合的かつ最新の文献レビューが欠落している。 本調査では,LLMのコード生成における最先端の進展を研究者が調査する上で有用な,体系的な文献レビューを提供することにより,このギャップを埋めることを目的としている。 データキュレーション、最新の進歩、性能評価、実世界の応用といった側面を網羅し、コード生成のためのLCMの最近の展開を分類し、議論するための分類法を導入する。 さらに、コード生成のためのLLMの進化の歴史的概要を述べるとともに、広く認知されているHumanEvalとMBPPベンチマークを用いて、コード生成のためのLLM機能の進歩的な拡張を強調した経験的比較を行う。 我々は,アカデミックと実践的発展のギャップについて,重要な課題と有望な機会を特定した。 さらに、我々は、この分野の最新の進歩を継続的に文書化し、広めるための専用リソースウェブサイト(https://codellm.github.io)を設立しました。

Large Language Models (LLMs) have garnered remarkable advancements across diverse code-related tasks, known as Code LLMs, particularly in code generation that generates source code with LLM from natural language descriptions. This burgeoning field has captured significant interest from both academic researchers and industry professionals due to its practical significance in software development, e.g., GitHub Copilot. Despite the active exploration of LLMs for a variety of code tasks, either from the perspective of natural language processing (NLP) or software engineering (SE) or both, there is a noticeable absence of a comprehensive and up-to-date literature review dedicated to LLM for code generation. In this survey, we aim to bridge this gap by providing a systematic literature review that serves as a valuable reference for researchers investigating the cutting-edge progress in LLMs for code generation. We introduce a taxonomy to categorize and discuss the recent developments in LLMs for code generation, covering aspects such as data curation, latest advances, performance evaluation, and real-world applications. In addition, we present a historical overview of the evolution of LLMs for code generation and offer an empirical comparison using the widely recognized HumanEval and MBPP benchmarks to highlight the progressive enhancements in LLM capabilities for code generation. We identify critical challenges and promising opportunities regarding the gap between academia and practical development. Furthermore, we have established a dedicated resource website (https://codellm.github.io) to continuously document and disseminate the most recent advances in the field.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# モデルに基づく深層強化学習によるエアホッケーの学習

Learning to Play Air Hockey with Model-Based Deep Reinforcement Learning ( http://arxiv.org/abs/2406.00518v1 )

ライセンス: Link先を確認
Andrej Orsula, (参考訳) ロボット・エアホッケー・チャレンジ2023(ロボット・エアホッケー・チャレンジ2023)において,モデルに基づく深層強化学習の適用性を検討した。 我々のエージェントは、時間とともに反復的に行動を改善するために自己プレイを取り入れながら、まばらな報酬からのみ学習する。 ロボットマニピュレータは、確率遷移を伴う環境の部分的観察性を持ちながら、カルテ面における位置ベース制御のための連続的な高レベル動作を用いてインタフェースされている。 エージェントは、単一のプレイスタイルに対してのみ訓練された場合、過度に適合する傾向にあり、目に見えない相手の新たな戦略を一般化するための自己プレイの重要性を強調している。 さらに、エアーホッケーの高度にダイナミックなゲームの競争環境において、イマジネーションの地平線の影響を探求し、より長い地平線により、より安定した学習と全体的なパフォーマンスが向上する。

In the context of addressing the Robot Air Hockey Challenge 2023, we investigate the applicability of model-based deep reinforcement learning to acquire a policy capable of autonomously playing air hockey. Our agents learn solely from sparse rewards while incorporating self-play to iteratively refine their behaviour over time. The robotic manipulator is interfaced using continuous high-level actions for position-based control in the Cartesian plane while having partial observability of the environment with stochastic transitions. We demonstrate that agents are prone to overfitting when trained solely against a single playstyle, highlighting the importance of self-play for generalization to novel strategies of unseen opponents. Furthermore, the impact of the imagination horizon is explored in the competitive setting of the highly dynamic game of air hockey, with longer horizons resulting in more stable learning and better overall performance.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# 潜在階層モデルにおける離散概念の学習

Learning Discrete Concepts in Latent Hierarchical Models ( http://arxiv.org/abs/2406.00519v1 )

ライセンス: Link先を確認
Lingjing Kong, Guangyi Chen, Biwei Huang, Eric P. Xing, Yuejie Chi, Kun Zhang, (参考訳) 自然の高次元データ(例:画像)からの学習概念は、人間の整合性と解釈可能な機械学習モデルを構築する可能性を持っている。 その有望さにもかかわらず、この重要な課題に関する形式化と理論的洞察はいまだに不足している。 本研究では,高次元データに埋め込まれた概念の抽象レベルをエンコードする階層因果モデルを通じて関連付けられた離散因果変数として概念を定式化する。 本研究では,教師なしデータからそのような概念を学習することで,因果関係の同定を容易にする条件を定式化する。 我々の条件は、先行研究において、潜在木や多層有向非巡回グラフを超えた複雑な因果階層構造を許容し、画像のような非構造データモダリティに適した高次元連続観測変数を処理できる。 我々は、理論的な主張を合成データ実験で裏付ける。 さらに,潜在拡散モデルの基礎的メカニズムを理解する上での我々の理論の意味を考察し,我々の理論的洞察に対応する実証的証拠を提供する。

Learning concepts from natural high-dimensional data (e.g., images) holds potential in building human-aligned and interpretable machine learning models. Despite its encouraging prospect, formalization and theoretical insights into this crucial task are still lacking. In this work, we formalize concepts as discrete latent causal variables that are related via a hierarchical causal model that encodes different abstraction levels of concepts embedded in high-dimensional data (e.g., a dog breed and its eye shapes in natural images). We formulate conditions to facilitate the identification of the proposed causal model, which reveals when learning such concepts from unsupervised data is possible. Our conditions permit complex causal hierarchical structures beyond latent trees and multi-level directed acyclic graphs in prior work and can handle high-dimensional, continuous observed variables, which is well-suited for unstructured data modalities such as images. We substantiate our theoretical claims with synthetic data experiments. Further, we discuss our theory's implications for understanding the underlying mechanisms of latent diffusion models and provide corresponding empirical evidence for our theoretical insights.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# 配位対称性の破れによるカオス制御と障害駆動相転移

Chaos controlled and disorder driven phase transitions by breaking permutation symmetry ( http://arxiv.org/abs/2406.00521v1 )

ライセンス: Link先を確認
Manju C, Arul Lakshminarayan, Uma Divakaran, (参考訳) システムにおける障害の導入は一般的に対称性を破り、ローカライゼーションのような特性に劇的な変化をもたらす。 同時に、クリーンなシステムは、そのカオス性によって異なる多体特性を持つことができる。 この研究は、制御可能で決定論的規則性からカオス遷移を持つシステムにおいて、障害による置換対称性の破れの影響について研究する。 その結果、障害の強度が増大するにつれて、カオスの有無にかかわらず、領域法則から体積法則の絡み合った位相への連続的な位相遷移が示される。 有限規模のスケーリングによって得られる臨界障害強度は、クリーンシステムが正常であるかカオスであるかに強く依存していることを示している。 このプロセスでは、この相転移に関連する臨界指数も取得する。 さらに、比較的小さな障害がカオスシステムを非局在化するのに十分であることがわかった。

Introducing disorder in a system typically breaks symmetries and can introduce dramatic changes in its properties such as localization. At the same time, the clean system can have distinct many-body features depending on how chaotic it is. In this work the effect of permutation symmetry breaking by disorder is studied in a system which has a controllable and deterministic regular to chaotic transition. Results indicate a continuous phase transition from an area-law to a volume-law entangled phase irrespective of whether there is chaos or not, as the strength of the disorder is increased. The critical disorder strength obtained by finite size scaling, indicate a strong dependence on whether the clean system is regular or chaotic to begin with. In the process, we also obtain the critical exponents associated with this phase transition. Additionally, we find that a relatively small disorder is seen to be sufficient to delocalize a chaotic system.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# Stealing Trust: Web3認証におけるBlindメッセージアタックの発見

Stealing Trust: Unraveling Blind Message Attacks in Web3 Authentication ( http://arxiv.org/abs/2406.00523v1 )

ライセンス: Link先を確認
Kailun Yan, Xiaokuan Zhang, Wenrui Diao, (参考訳) Web3の分野が急速に拡大していくにつれ、様々なWeb3アプリケーションへのゲートウェイであるWeb3認証のセキュリティがますます重要になっている。 多くのWeb3アプリケーションでログイン方法として広く使われているが、Web3認証のセキュリティリスクはあまり注目されていない。 本稿では,Web3認証プロセスの脆弱性を調査し,ブラインドメッセージ攻撃と呼ばれる新たなタイプの攻撃を提案する。 ブラインドメッセージ攻撃では、攻撃者はユーザーがメッセージのソースを検証できないことを悪用し、ターゲットアプリケーションへの不正アクセスを達成することで、ターゲットアプリケーションからのメッセージに盲目的に署名するようユーザを騙す。 我々は,Web3認証関連APIと対話して脆弱性を特定する動的検出ツールであるWeb3AuthCheckerを開発した。 実世界のWeb3アプリケーションに対する我々の評価は、75.8%(22/29)のWeb3認証デプロイメントが盲目のメッセージアタックのリスクにさらされていることを示している。 この警告に応えて、私たちはオープンソースのウォレットMetaMaskにWeb3AuthGuardを実装し、攻撃の可能性をユーザに警告しました。 評価の結果,Web3AuthGuardはテスト済みのWeb3認証の80%で警告を発生させることができた。 我々は、我々の発見を脆弱なウェブサイトに責任を持って報告し、2つのCVE IDを割り当てた。

As the field of Web3 continues its rapid expansion, the security of Web3 authentication, often the gateway to various Web3 applications, becomes increasingly crucial. Despite its widespread use as a login method by numerous Web3 applications, the security risks of Web3 authentication have not received much attention. This paper investigates the vulnerabilities in the Web3 authentication process and proposes a new type of attacks, dubbed blind message attacks. In blind message attacks, attackers trick users into blindly signing messages from target applications by exploiting users' inability to verify the source of messages, thereby achieving unauthorized access to the target application. We have developed Web3AuthChecker, a dynamic detection tool that interacts with Web3 authentication-related APIs to identify vulnerabilities. Our evaluation of real-world Web3 applications shows that a staggering 75.8% (22/29) of Web3 authentication deployments are at risk of blind message attacks. In response to this alarming situation, we implemented Web3AuthGuard on the open-source wallet MetaMask to alert users of potential attacks. Our evaluation results show that Web3AuthGuard can successfully raise alerts in 80% of the tested Web3 authentications. We have responsibly reported our findings to vulnerable websites and have been assigned two CVE IDs.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# 動的重み調整による適応的ブースティング

Adaptive boosting with dynamic weight adjustment ( http://arxiv.org/abs/2406.00524v1 )

ライセンス: Link先を確認
Vamsi Sai Ranga Sri Harsha Mangina, (参考訳) Adaptive Boosting with Dynamic Weight Adjustmentは、強力なアンサンブル学習技術であるAdaBoostとして知られる従来のAdaptive boostingの拡張である。 Adaptive Boosting with Dynamic Weight Adjustment Techniqueは、従来のAdaboostのように重みを均一に更新するのではなく、エラーに比例して重みを更新する予測誤差に基づいて、インスタンスの重みを動的に更新することで、効率と精度を向上させる。 Adaptive Boosting with Dynamic Weight Adjustmentは、より複雑なデータ関係を処理できるため、Adaptive Boostingよりもパフォーマンスが優れています。 提案したモデルは、特に挑戦的な分類タスクにおいて、より柔軟で効果的なアプローチを提供する。

Adaptive Boosting with Dynamic Weight Adjustment is an enhancement of the traditional Adaptive boosting commonly known as AdaBoost, a powerful ensemble learning technique. Adaptive Boosting with Dynamic Weight Adjustment technique improves the efficiency and accuracy by dynamically updating the weights of the instances based on prediction error where the weights are updated in proportion to the error rather than updating weights uniformly as we do in traditional Adaboost. Adaptive Boosting with Dynamic Weight Adjustment performs better than Adaptive Boosting as it can handle more complex data relations, allowing our model to handle imbalances and noise better, leading to more accurate and balanced predictions. The proposed model provides a more flexible and effective approach for boosting, particularly in challenging classification tasks.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# ファイアファイターアルゴリズム:最適化問題に対するハイブリッドメタヒューリスティック

The Firefighter Algorithm: A Hybrid Metaheuristic for Optimization Problems ( http://arxiv.org/abs/2406.00528v1 )

ライセンス: Link先を確認
M. Z. Naser, A. Z. Naser, (参考訳) 本稿では,最適化問題に対する新しいハイブリッドメタヒューリスティックとしてファイアファイアファイアウォール最適化(FFO)アルゴリズムを提案する。 このアルゴリズムは、消防士が消防活動にしばしば配置する協力戦略から着想を得ている。 FFOの性能を評価するために、FFOは、ACO(Ant Colony Optimization)、BA(Bat Algorithm)、BBO(Biogeography-Based Optimization)、FPA(Flower Pollination Algorithm)、GA(Genematic Algorithm)、Grey Wolf Optimizer(GWO)、Harmony Search(HS)、PSO(Particle Swarm Optimization)、Simulated Annealing(SA)、Tabu Search(TS)、Whale Optimization Algorithm(WOA)の13種類の一般的な最適化アルゴリズムと、様々な次元と複雑度のベンチマーク関数を比較検討した。 その結果、FFOは比較性能を達成し、いくつかのシナリオでは、得られた適合性、正確性に要する時間、時間単位でカバーされる研究空間の点で、一般的に採用されている最適化アルゴリズムよりも優れていることが示された。

This paper presents the Firefighter Optimization (FFO) algorithm as a new hybrid metaheuristic for optimization problems. This algorithm stems inspiration from the collaborative strategies often deployed by firefighters in firefighting activities. To evaluate the performance of FFO, extensive experiments were conducted, wherein the FFO was examined against 13 commonly used optimization algorithms, namely, the Ant Colony Optimization (ACO), Bat Algorithm (BA), Biogeography-Based Optimization (BBO), Flower Pollination Algorithm (FPA), Genetic Algorithm (GA), Grey Wolf Optimizer (GWO), Harmony Search (HS), Particle Swarm Optimization (PSO), Simulated Annealing (SA), Tabu Search (TS), and Whale Optimization Algorithm (WOA), and across 24 benchmark functions of various dimensions and complexities. The results demonstrate that FFO achieves comparative performance and, in some scenarios, outperforms commonly adopted optimization algorithms in terms of the obtained fitness, time taken for exaction, and research space covered per unit of time.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# 訓練視覚モデルにおけるアンコリングの利用について

On the Use of Anchoring for Training Vision Models ( http://arxiv.org/abs/2406.00529v1 )

ライセンス: Link先を確認
Vivek Narayanaswamy, Kowshik Thopalli, Rushil Anirudh, Yamen Mubarka, Wesam Sakla, Jayaraman J. Thiagarajan, (参考訳) アンコリングは、不確実性推定、キャリブレーション、外挿能力を大幅に改善することが示されているディープニューラルネットワークをトレーニングするための、最近のアーキテクチャに依存しない原則である。 本稿では,視覚モデルをトレーニングするための一般的なプロトコルとしてアンカーを体系的に検討し,そのトレーニングと推論プロセスとその一般化と安全性に関する基本的な知見を提供する。 その約束にもかかわらず、我々は、望ましくないショートカットを学習するリスクが増大し、一般化能力が制限される、アンカードトレーニングにおける重要な問題を特定する。 そこで本研究では,この問題を緩和し,一般化を著しく向上させるため,シンプルな正規化器を用いた新しいアンカー付きトレーニングプロトコルを提案する。 提案手法を様々なスケールや複雑さのデータセットやアーキテクチャにまたがって実証的に評価し,標準のトレーニングプロトコルと比較して,一般化と安全性の指標が大幅に向上したことを示す。

Anchoring is a recent, architecture-agnostic principle for training deep neural networks that has been shown to significantly improve uncertainty estimation, calibration, and extrapolation capabilities. In this paper, we systematically explore anchoring as a general protocol for training vision models, providing fundamental insights into its training and inference processes and their implications for generalization and safety. Despite its promise, we identify a critical problem in anchored training that can lead to an increased risk of learning undesirable shortcuts, thereby limiting its generalization capabilities. To address this, we introduce a new anchored training protocol that employs a simple regularizer to mitigate this issue and significantly enhances generalization. We empirically evaluate our proposed approach across datasets and architectures of varying scales and complexities, demonstrating substantial performance gains in generalization and safety metrics compared to the standard training protocol.
翻訳日:2024-06-06 06:35:32 公開日:2024-06-01
# 周波数変換モードで動作する近接量子制限サブGHzTiN速度インダクタンスパラメトリック増幅器

A Near Quantum Limited Sub-GHz TiN Kinetic Inductance Traveling Wave Parametric Amplifier Operating in a Frequency Translating Mode ( http://arxiv.org/abs/2406.00530v1 )

ライセンス: Link先を確認
Farzad Faramarzi, Sasha Sypkens, Ryan Stephenson, Byeong H. Eom, Henry Leduc, Saptarshi Chaudhuri, Peter Day, (参考訳) サブGHz周波数に対する動インダクタンス進行波パラメトリック増幅器(KI-TWPA)の設計と実験特性について述べる。 KI-TWPAは超伝導伝送線路の非線形動的インダクタンスによって支持される非線形混合プロセスを通じて信号を増幅する。 ここで説明する装置は、小型化されたTiNマイクロストリップ伝送線を使用して、サブGHz信号の増幅に必要な長さを実現する。 増幅信号のトーンが増幅器の出力で終了する周波数変換モードで動作し、約2.5〜GHzのアイドラトーンをクライオスタットから取り出す。 ポンプ周波数の変化により、約450から850〜MHzの範囲で最大22dBの利得が得られた。 非線形素子としてTiNを使用することで、従来のKI-TWPA実装で使用されていたNbTiNと比較して、必要なポンプ電力を約1桁削減することができる。 この増幅器は、量子コンピューティング、天体物理学、暗黒物質検出などの幅広い応用において、高感度で高速な測定を可能にする可能性がある。

We present the design and experimental characterization of a kinetic-inductance traveling-wave parametric amplifier (KI-TWPA) for sub-GHz frequencies. KI-TWPAs amplify signals through nonlinear mixing processes supported by the nonlinear kinetic inductance of a superconducting transmission line. The device described here utilizes a compactly meandered TiN microstrip transmission line to achieve the length needed to amplify sub-GHz signals. It is operated in a frequency translating mode where the amplified signal tone is terminated at the output of the amplifier, and the idler tone at approximately 2.5~GHz is brought out of the cryostat. By varying the pump frequency, a gain of up to 22 dB was achieved in a tunable range from about 450 to 850~MHz. Use of TiN as the nonlinear element allows for a reduction of the required pump power by roughly an order of magnitude relative to NbTiN, which has been used for previous KI-TWPA implementations. This amplifier has the potential to enable high-sensitivity and high-speed measurements in a wide range of applications, such as quantum computing, astrophysics, and dark matter detection.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 乳がん診断 : 説明可能な人工知能(XAI)の総合的探索

Breast Cancer Diagnosis: A Comprehensive Exploration of Explainable Artificial Intelligence (XAI) Techniques ( http://arxiv.org/abs/2406.00532v1 )

ライセンス: Link先を確認
Samita Bai, Sidra Nasir, Rizwan Ahmed Khan, Sheeraz Arif, Alexandre Meyer, Hubert Konik, (参考訳) 乳癌(BC)は、世界中の女性に影響を及ぼす最も一般的な悪性腫瘍の1つであり、より良い臨床結果を得るために診断方法の進歩が必要である。 本稿では,乳がんの診断・診断における説明可能な人工知能(XAI)技術の適用を包括的に調査する。 人工知能(AI)技術が医療分野、特に腫瘍学に浸透し続けている中、透明で解釈可能なモデルの必要性は、臨床的意思決定と患者のケアを強化するために不可欠になっている。 本総説では, SHAP, LIME, Grad-CAMなどのXAIアプローチと, 乳癌の検出・分類に活用される機械学習およびディープラーニングモデルの統合について論じる。 マンモグラフィー、超音波、AIによる処理などの乳がんデータセットのモダリティを調べることで、XAIがより正確な診断とパーソナライズされた治療計画にどのように貢献するかを明らかにする。 また, 臨床現場におけるXAIの有効性を評価するために, 標準化された指標を開発することの重要性についても検討した。 本稿では、詳細な分析と議論を通じて、複雑なAIモデルと医療応用のギャップを埋めることにおけるXAIの可能性を強調し、医療専門家の信頼と理解を高め、患者の成果を改善することを目的とする。

Breast cancer (BC) stands as one of the most common malignancies affecting women worldwide, necessitating advancements in diagnostic methodologies for better clinical outcomes. This article provides a comprehensive exploration of the application of Explainable Artificial Intelligence (XAI) techniques in the detection and diagnosis of breast cancer. As Artificial Intelligence (AI) technologies continue to permeate the healthcare sector, particularly in oncology, the need for transparent and interpretable models becomes imperative to enhance clinical decision-making and patient care. This review discusses the integration of various XAI approaches, such as SHAP, LIME, Grad-CAM, and others, with machine learning and deep learning models utilized in breast cancer detection and classification. By investigating the modalities of breast cancer datasets, including mammograms, ultrasounds and their processing with AI, the paper highlights how XAI can lead to more accurate diagnoses and personalized treatment plans. It also examines the challenges in implementing these techniques and the importance of developing standardized metrics for evaluating XAI's effectiveness in clinical settings. Through detailed analysis and discussion, this article aims to highlight the potential of XAI in bridging the gap between complex AI models and practical healthcare applications, thereby fostering trust and understanding among medical professionals and improving patient outcomes.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# フェルミオン系を用いた三部晶の絡み合った状態の生成

Generation of tripartite entangled states with fermionic systems ( http://arxiv.org/abs/2406.00533v1 )

ライセンス: Link先を確認
M D Jiménez, A Valdés-Hernández, A P Majtey, (参考訳) 本稿では,3つの不明瞭なフェルミオンを3重井戸電位で生成するシステムにおいて,三分体絡みの発生を目的としたトンネル法と粒子検出法に基づくプロトコルを提案する。 特に、区別可能な量子ビットの合成で定義される通常のghz-およびw型状態と類似したフェルミオン型ghz-およびw型状態の生成に注意が払われる。 このプロトコルはフェルミオンw型状態の生成に成功し、続く状態は3つの局所化パーティ間で共有される3つの区別可能な量子w型状態と効果的に等価となる。 しかし、このプロトコルはghz型状態を生成することができないため、これらの2つの状態間の基本的な不等式を強調し、同一パーティのシステムにおける特定の種類のマルチパーティ・エンタングルメントの出現を保証するプロセスの特徴に光を当てる。 本研究は, 量子情報処理の有用な資源として, 多粒子複合材料における多粒子の絡み合いの探索, 生成, 利用の新たな経路を示唆するものである。

We propose a protocol based on a tunneling plus particle-detection process aimed at generating tripartite entanglement in a system of 3 indistinguishable fermions in a triple-well potential, initially prepared in a state exhibiting only exchange correlations. Particular attention is paid to the generation of fermionic ghz- and w-type states, which are analogous to the usual ghz- and w-type states defined in composites of distinguishable qubits. The protocol succeeds in generating fermionic w-type states, and the ensuing state becomes effectively equivalent to a 3-distinguishable-qubit w-type state shared among three localized parties. The protocol, however, is unable to generate ghz-type states, a result that highlights the fundamental inequivalence between these two types of states, and throws light into the characterization of processes that guarantee the emergence of specific kinds of multipartite entanglement in systems of identical parties. Our findings suggest new paths for the exploration, generation and exploitation of multipartite entanglement in composites of indistinguishable particles, as a useful resource for quantum information processing.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 時間経過に伴う反現実的回帰のための因果的コントラスト学習

Causal Contrastive Learning for Counterfactual Regression Over Time ( http://arxiv.org/abs/2406.00535v1 )

ライセンス: Link先を確認
Mouad El Bouchattaoui, Myriam Tami, Benoit Lepetit, Paul-Henry Cournède, (参考訳) 時間とともに治療効果を推定することは、精密医療、疫学、経済、マーケティングなど様々な領域において重要である。 本稿では, 長期予測を重視した, 反実的回帰に対するユニークなアプローチを提案する。 Causal Transformerのような既存のモデルから切り離し、我々のアプローチは、Contrastive Predictive Coding (CPC) と Information Max (InfoMax) が補完する長期予測にRNNを使うことの有効性を強調します。 効率性を強調するため、計算コストのかかる変換器は不要である。 提案手法は,CPCを活用することで,時間変化のある共同創設者の存在下での長期的依存関係を捉える。 特に、最近のモデルは、識別の前提を妥協して、可逆表現の重要性を無視している。 これを改善するためにInfoMaxの原理を用い、シーケンスデータとその表現間の相互情報の低境界を最大化する。 提案手法は,因果推論におけるContrastive Predictive Encodingの先駆的導入を示す合成データと実世界のデータの両方を用いて,最先端の対物推定結果を実現する。

Estimating treatment effects over time holds significance in various domains, including precision medicine, epidemiology, economy, and marketing. This paper introduces a unique approach to counterfactual regression over time, emphasizing long-term predictions. Distinguishing itself from existing models like Causal Transformer, our approach highlights the efficacy of employing RNNs for long-term forecasting, complemented by Contrastive Predictive Coding (CPC) and Information Maximization (InfoMax). Emphasizing efficiency, we avoid the need for computationally expensive transformers. Leveraging CPC, our method captures long-term dependencies in the presence of time-varying confounders. Notably, recent models have disregarded the importance of invertible representation, compromising identification assumptions. To remedy this, we employ the InfoMax principle, maximizing a lower bound of mutual information between sequence data and its representation. Our method achieves state-of-the-art counterfactual estimation results using both synthetic and real-world data, marking the pioneering incorporation of Contrastive Predictive Encoding in causal inference.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 物質のオントロジーをめざして : マルチスケール分析と前立腺追跡

Towards an ontology of portions of matter to support multi-scale analysis and provenance tracking ( http://arxiv.org/abs/2406.00537v1 )

ライセンス: Link先を確認
Lucas Valadares Vieira, Mara Abel, Fabricio Henrique Rodrigues, Tiago Prince Sales, Claudenir M. Fonseca, (参考訳) 本稿では, 科学的, 産業的領域にまたがって, 物質の一部のオントロジーについて述べる。 オントロジーはUFO (Unified Foundational Ontology) の下で開発され、量の概念を用いて、トポロジ的に最大に自己結合した物質の部分を表す。 提案するオントロジーでは,物体と物質の一部を挟むグラニュラーOf結合関係が導入された。 また、顆粒の収集による量の構成、物質のサブポーションの表現、そして歴史的関係を用いた量間の物質的証明の追跡についても論じている。 最後に, 石油・ガス産業の地質分野における物質オントロジーの活用を実証するために, ケーススタディを提出した。 ケーススタディでは,岩盤の原位置と工業化過程に生じたサブポーションの歴史的関係をモデル化する。 最後に、粒度レベルの調査や事象の分類の定義など、今後の研究の方向性について概説する。

This paper presents an ontology of portions of matter with practical implications across scientific and industrial domains. The ontology is developed under the Unified Foundational Ontology (UFO), which uses the concept of quantity to represent topologically maximally self-connected portions of matter. The proposed ontology introduces the granuleOf parthood relation, holding between objects and portions of matter. It also discusses the constitution of quantities by collections of granules, the representation of sub-portions of matter, and the tracking of matter provenance between quantities using historical relations. Lastly, a case study is presented to demonstrate the use of the portion of matter ontology in the geology domain for an Oil & Gas industry application. In the case study, we model how to represent the historical relation between an original portion of rock and the sub-portions created during the industrial process. Lastly, future research directions are outlined, including investigating granularity levels and defining a taxonomy of events.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# CONFINE: 解釈可能なニューラルネットワークのコンフォーマル予測

CONFINE: Conformal Prediction for Interpretable Neural Networks ( http://arxiv.org/abs/2406.00539v1 )

ライセンス: Link先を確認
Linhui Huang, Sayeri Lala, Niraj K. Jha, (参考訳) ディープニューラルネットワークは、優れたパフォーマンスを示すが、そのブラックボックスの性質は、解釈可能性が不可欠である医療などの分野において、その実用性を制限している。 既存の説明可能性のアプローチは、しばしば正確さを犠牲にして、予測の不確実性の定量化を欠いている。 本研究では、モデル透明性と信頼性を高めるために、点予測の代わりに統計的に堅牢な不確実性推定を伴う予測セットを生成する多目的フレームワークCONFINE(Conformal Prediction for Interpretable Neural Networks)を提案する。 CONFINEは、個々の予測に対してサンプルベースの説明と信頼度の推定を提供するだけでなく、精度を最大3.6%向上させる。 正確なラベルを含む予測集合の分数を評価するための新しい計量である正しい効率を定義し、CONFINEが元の精度よりも最大3.3%高い精度を達成することを示す。 CONFINEの限界条件とクラス条件のカバレッジは、医療画像分類から言語理解まで、その妥当性を証明している。 CONFINEは、事前訓練された分類器に適応可能であるため、クリティカルドメインにおける透明で信頼性の高いディープラーニングアプリケーションへの大きな進歩を示している。

Deep neural networks exhibit remarkable performance, yet their black-box nature limits their utility in fields like healthcare where interpretability is crucial. Existing explainability approaches often sacrifice accuracy and lack quantifiable measures of prediction uncertainty. In this study, we introduce Conformal Prediction for Interpretable Neural Networks (CONFINE), a versatile framework that generates prediction sets with statistically robust uncertainty estimates instead of point predictions to enhance model transparency and reliability. CONFINE not only provides example-based explanations and confidence estimates for individual predictions but also boosts accuracy by up to 3.6%. We define a new metric, correct efficiency, to evaluate the fraction of prediction sets that contain precisely the correct label and show that CONFINE achieves correct efficiency of up to 3.3% higher than the original accuracy, matching or exceeding prior methods. CONFINE's marginal and class-conditional coverages attest to its validity across tasks spanning medical image classification to language understanding. Being adaptable to any pre-trained classifier, CONFINE marks a significant advance towards transparent and trustworthy deep learning applications in critical domains.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 解釈可能な特徴生成のためのノウグレードグラフの活用

Leveraging Knowlegde Graphs for Interpretable Feature Generation ( http://arxiv.org/abs/2406.00544v1 )

ライセンス: Link先を確認
Mohamed Bouadi, Arta Alavi, Salima Benbernou, Mourad Ouziri, (参考訳) 機械学習(ML)モデルの品質は入力データに強く依存する。 さらに,MLによるシステムの普及,特に批判的文脈において,解釈可能性や説明可能性の必要性がますます重要になっている。 手動FEは時間がかかり、ケース固有の知識を必要とするため、我々は、知識グラフを活用して解釈可能な特徴の生成をガイドするKRAFTフレームワークを提案する。 我々のハイブリッドAIアプローチは、一連の変換を通じて生の機能を変換するニューラルジェネレータと、Description Logics (DL)を用いて特徴の解釈可能性を評価するナレッジベースの推論器を組み合わせる。 生成装置は、生成した特徴の予測精度と解釈可能性を最大化するために、Deep Reinforcement Learning (DRL)を介して訓練される。 実際のデータセットに対する大規模な実験により、KRAFTは高いレベルの解釈可能性を確保しながら精度を大幅に向上することが示された。

The quality of Machine Learning (ML) models strongly depends on the input data, as such Feature Engineering (FE) is often required in ML. In addition, with the proliferation of ML-powered systems, especially in critical contexts, the need for interpretability and explainability becomes increasingly important. Since manual FE is time-consuming and requires case specific knowledge, we propose KRAFT, an AutoFE framework that leverages a knowledge graph to guide the generation of interpretable features. Our hybrid AI approach combines a neural generator to transform raw features through a series of transformations and a knowledge-based reasoner to evaluate features interpretability using Description Logics (DL). The generator is trained through Deep Reinforcement Learning (DRL) to maximize the prediction accuracy and the interpretability of the generated features. Extensive experiments on real datasets demonstrate that KRAFT significantly improves accuracy while ensuring a high level of interpretability.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# Few-shot Semantic Segmentationのための不確実性に基づく特徴拡張を用いたメモリ誘導ネットワーク

Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2406.00545v1 )

ライセンス: Link先を確認
Xinyue Chen, Miaojing Shi, (参考訳) 教師付きセマンティックセグメンテーション手法の性能は、大規模トレーニングデータの可用性に大きく依存している。 この依存を緩和するために、少数ショットセマンティックセマンティックセマンティクス(FSS)を導入し、ベースクラスでトレーニングされたモデルを、少ないデータで新しいクラスのセマンティクスに十分なデータで活用する。 FSS法は, 基本クラスと新規クラスの分布シフトにより, 新規クラスにおけるモデル一般化の課題に直面している。 そこで本研究では,学習可能なメモリベクトルの集合からなるクラス共有メモリ(CSM)モジュールを提案する。 これらのメモリベクトルは、トレーニング中も推論中もクエリ機能を再エンコードしながら、ベースクラスから要素オブジェクトパターンを学習し、ベースクラスと新規クラスの分散アライメントを改善する。 さらに,画像間のクラス内分散による性能劣化に対処するために,モデルの堅牢性向上のためのトレーニング中に多様なクエリ特徴を生成する不確実性ベースの特徴拡張(UFA)モジュールを導入する。 我々は、CSMとUFAを代表的FSS作品に統合し、広く使われているPASCAL-5$^i$とCOCO-20$^i$データセットを用いて、最先端技術よりも優れた性能を示す実験結果を得た。

The performance of supervised semantic segmentation methods highly relies on the availability of large-scale training data. To alleviate this dependence, few-shot semantic segmentation (FSS) is introduced to leverage the model trained on base classes with sufficient data into the segmentation of novel classes with few data. FSS methods face the challenge of model generalization on novel classes due to the distribution shift between base and novel classes. To overcome this issue, we propose a class-shared memory (CSM) module consisting of a set of learnable memory vectors. These memory vectors learn elemental object patterns from base classes during training whilst re-encoding query features during both training and inference, thereby improving the distribution alignment between base and novel classes. Furthermore, to cope with the performance degradation resulting from the intra-class variance across images, we introduce an uncertainty-based feature augmentation (UFA) module to produce diverse query features during training for improving the model's robustness. We integrate CSM and UFA into representative FSS works, with experimental results on the widely-used PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrating the superior performance of ours over state of the art.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 雑音場と狭帯域場によって駆動される光学力学

Optomechanics driven by noisy and narrowband fields ( http://arxiv.org/abs/2406.00546v1 )

ライセンス: Link先を確認
Louise Banniard, Cheng Wang, Davide Stirpe, Kjetil Børkje, Francesco Massel, Laure Mercier de Lépinay, Mika A. Sillanpää, (参考訳) 狭帯域電磁場によって駆動される空洞光学系について,非相関雑音の形で適用されるか,より構造的なスペクトルとして検討する。 駆動スペクトルの帯域幅は機械共振周波数より小さいため、分解側帯域制限における通常の共振器光学に精通した概念を用いて、結果の物理を記述することができる。 ブルー変調ノイズ駆動では、ノイズ誘起相互作用は機械振動子の破壊と、コヒーレント駆動音に匹敵する平均雑音パワーにおける自己振動閾値につながる。 この過程は、騒音による機械運動の動的増幅と見なすことができる。 しかし, 騒音帯域幅を機械減衰の順序に縮めると, 自己振動のパワーしきい値が大きく変化することがわかった。 これは、瞬時雑音プロファイルに従って振動子が断定されるためである。 ブルーデチュードノイズ駆動に加えて,近接する2つのコヒーレント駆動音からなる狭帯域駆動について検討した。 また,これらの場合においても,音の周波数とパワーのみに依存して,自然な光学的記述から逸脱を観察する。

We report a study of a cavity optomechanical system driven by narrow-band electromagnetic fields, which are applied either in the form of uncorrelated noise, or as a more structured spectrum. The bandwidth of the driving spectra is smaller than the mechanical resonant frequency, and thus we can describe the resulting physics using concepts familiar from regular cavity optomechanics in the resolved-sideband limit. With a blue-detuned noise driving, the noise-induced interaction leads to anti-damping of the mechanical oscillator, and a self-oscillation threshold at an average noise power that is comparable to that of a coherent driving tone. This process can be seen as noise-induced dynamical amplification of mechanical motion. However, when the noise bandwidth is reduced down to the order of the mechanical damping, we discover a large shift of the power threshold of self-oscillation. This is due to the oscillator adiabatically following the instantaneous noise profile. In addition to blue-detuned noise driving, we investigate narrow-band driving consisting of two coherent drive tones nearby in frequency. Also in these cases, we observe deviations from a naive optomechanical description relying only on the tones' frequencies and powers.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# LIDAO:Debiasing(Large)言語モデルに対する限定的介入を目指して

LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models ( http://arxiv.org/abs/2406.00548v1 )

ライセンス: Link先を確認
Tianci Liu, Haoyu Wang, Shiyang Wang, Yu Cheng, Jing Gao, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて印象的なパフォーマンスを達成した。 それでも、特定の人口集団(例えば、女性)に偏りのある、ネガティブで有害なコンテンツを生成し、厳しい公平さの懸念を生じさせる。 修正として、事前の作業は、態度や人口統計情報を排除し、生成品質を必然的に劣化させ、顕著な「textit{fairness-fluency}」トレードオフをもたらすことによって、世代を介入した。 しかし、Fluency \textit{hasto} がどの程度の公平性を達成するために影響を受けるかはまだ解明されていない。 本研究では,情報理論の観点から初めて公式な研究を行う。 従来の手法はデバイアス化には過大であり, LIDAO は (L)LM を高い流速で脱バイアスする一般的なフレームワークである。 我々はさらに、LIDAOを敵のシナリオで強化し、慎重に構築されたプロンプトは、命令追従能力を示すLCMを刺激し、そのプロンプトも考慮された場合にのみ、公平な問題のあるテキストを生成する。 0.7B から 7B までの 3 つの LM 実験により,本手法の優位性を実証した。

Large language models (LLMs) have achieved impressive performance on various natural language generation tasks. Nonetheless, they suffer from generating negative and harmful contents that are biased against certain demographic groups (e.g., female), raising severe fairness concerns. As remedies, prior works intervened the generation by removing attitude or demographic information, inevitably degrading the generation quality and resulting in notable \textit{fairness-fluency} trade-offs. However, it is still under-explored to what extent the fluency \textit{has to} be affected in order to achieve a desired level of fairness. In this work, we conduct the first formal study from an information-theoretic perspective. We show that previous approaches are excessive for debiasing and propose LIDAO, a general framework to debias a (L)LM at a better fluency provably. We further robustify LIDAO in adversarial scenarios, where a carefully-crafted prompt may stimulate LLMs exhibiting instruction-following abilities to generate texts with fairness issue appears only when the prompt is also taken into account. Experiments on three LMs ranging from 0.7B to 7B parameters demonstrate the superiority of our method.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 不足データ問題としてのゼロインフレ--プロキシベースのアプローチ

Zero Inflation as a Missing Data Problem: a Proxy-based Approach ( http://arxiv.org/abs/2406.00549v1 )

ライセンス: Link先を確認
Trung Phung, Jaron J. R. Lee, Opeyemi Oladapo-Shittu, Eili Y. Klein, Ayse Pinar Gurses, Susan M. Hannum, Kimberly Weems, Jill A. Marsteller, Sara E. Cosgrove, Sara C. Keller, Ilya Shpitser, (参考訳) 共通型のゼロインフレドデータは、データ記録規則(欠落と推定される結果)やデータ記録装置の詳細(例えば遺伝子発現データにおける人工ゼロ)により、ある真の値を誤ってゼロに置き換える。 既存のゼロインフレードデータの方法は、過剰なゼロを明示的に表すパラメトリック混合モデルによって観測されたデータの可能性に適合するか、またはインプットされた値によって過剰なゼロを置き換えることを目指している。 解析の目的が真のデータ実現を知ることに依存する場合、観測された零点がどれで、どの点が膨らんでいるのかを正確に決定することは困難であるため、ゼロ膨らませたデータの特定の課題は識別可能である。 本稿では、ゼロ膨らませたデータを、ゼロが記録されるたびに、潜在的に検閲された変数の可観測性インジケータ自体が観測されないような、一般的なタイプの欠落データ問題とみなす。 追加の仮定なしでは、ゼロインフレード変数を含むターゲットパラメータが特定されないことを示す。 しかし,黒木とパールの効果回復手法の修正により,指標と指標の関係が分かっていれば,指標の発見と推定が可能となる。 この関係が不明な場合、本手法は感度解析のための部分的識別戦略を導出する。 具体的には、特定のプロキシとインデックスの関係のみが、観測されたデータ分布と互換性があることを示す。 我々は、あるモデルにおいて鋭い分類結果の場合に、この関係について解析的境界を与える。 より複雑な場合、鋭い数値境界は Duarte et al [2023] の手法で計算できる。 本手法をシミュレーション研究および中央線関連血液ストリーム感染症(CLABSIs)へのデータ応用により概説した。

A common type of zero-inflated data has certain true values incorrectly replaced by zeros due to data recording conventions (rare outcomes assumed to be absent) or details of data recording equipment (e.g. artificial zeros in gene expression data). Existing methods for zero-inflated data either fit the observed data likelihood via parametric mixture models that explicitly represent excess zeros, or aim to replace excess zeros by imputed values. If the goal of the analysis relies on knowing true data realizations, a particular challenge with zero-inflated data is identifiability, since it is difficult to correctly determine which observed zeros are real and which are inflated. This paper views zero-inflated data as a general type of missing data problem, where the observability indicator for a potentially censored variable is itself unobserved whenever a zero is recorded. We show that, without additional assumptions, target parameters involving a zero-inflated variable are not identified. However, if a proxy of the missingness indicator is observed, a modification of the effect restoration approach of Kuroki and Pearl allows identification and estimation, given the proxy-indicator relationship is known. If this relationship is unknown, our approach yields a partial identification strategy for sensitivity analysis. Specifically, we show that only certain proxy-indicator relationships are compatible with the observed data distribution. We give an analytic bound for this relationship in cases with a categorical outcome, which is sharp in certain models. For more complex cases, sharp numerical bounds may be computed using methods in Duarte et al.[2023]. We illustrate our method via simulation studies and a data application on central line-associated bloodstream infections (CLABSIs).
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 戦略的線形文脈帯域

Strategic Linear Contextual Bandits ( http://arxiv.org/abs/2406.00551v1 )

ライセンス: Link先を確認
Thomas Kleine Buening, Aadirupa Saha, Christos Dimitrakakis, Haifeng Xu, (参考訳) 利用者に推奨する回数を最大化するために, 戦略エージェントが推薦システムをゲーミングする現象に触発され, 線形文脈的帯域問題において, アームが学習者にプライベートな文脈を戦略的に誤レポートできる戦略的変異について検討した。 我々は,アルゴリズム設計問題を不確実性下でのメカニズム設計の1つとして扱うとともに,エージェント(腕)に刺激を与えるオプティスティックグリムトリガー機構(OptGTM)を提案する。 また, エージェントの戦略的性質を考慮しないと, 線形後悔が生じることも示唆した。 しかし、機構設計と後悔の最小化のトレードオフは避けられないように見える。 より広範に、この研究はオンライン学習とメカニズム設計の共通点に関する洞察を提供することを目的としている。

Motivated by the phenomenon of strategic agents gaming a recommender system to maximize the number of times they are recommended to users, we study a strategic variant of the linear contextual bandit problem, where the arms can strategically misreport their privately observed contexts to the learner. We treat the algorithm design problem as one of mechanism design under uncertainty and propose the Optimistic Grim Trigger Mechanism (OptGTM) that incentivizes the agents (i.e., arms) to report their contexts truthfully while simultaneously minimizing regret. We also show that failing to account for the strategic nature of the agents results in linear regret. However, a trade-off between mechanism design and regret minimization appears to be unavoidable. More broadly, this work aims to provide insight into the intersection of online learning and mechanism design.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# グラフニューラルネットワークトレーニングシステム:フルグラフとミニバッチの性能比較

Graph Neural Network Training Systems: A Performance Comparison of Full-Graph and Mini-Batch ( http://arxiv.org/abs/2406.00552v1 )

ライセンス: Link先を確認
Saurabh Bajaj, Hui Guan, Marco Serafini, (参考訳) グラフニューラルネットワーク(GNN)は,近年,グラフ構造化データの表現を学習する能力から注目されている。 GNNのトレーニングには、ミニバッチトレーニングとフルグラフトレーニングの2つの一般的な方法がある。 これらの2つの手法は異なる訓練パイプラインとシステム最適化を必要とするため、GNN訓練システムの2つの異なるカテゴリが出現し、それぞれが1つの方法に適している。 特定のカテゴリに属するシステムを紹介する作品は、主に同じカテゴリに属する他のシステムと比較し、他のカテゴリに属するシステムと限定的または全く比較しない。 いくつかの先行研究は、ある特定のトレーニング方法に焦点をあてることも正当化している。 しかし、この文献には不完全かつ矛盾した証拠がある。 本稿では,全グラフとミニバッチGNNトレーニングシステムの総合的な比較実験を行い,現場における最先端技術のより明確な画像を得る。 ミニバッチトレーニングシステムは、複数のデータセット、GNNモデル、システム構成にまたがるフルグラフトレーニングシステムよりも一貫して収束し、2.4倍から15.2倍のスピードアップを実現している。 また、両方のトレーニング手法が類似の精度値に収束していることがわかり、時間から精度の点で2つのカテゴリのシステムを比較することは健全なアプローチである。

Graph Neural Networks (GNNs) have gained significant attention in recent years due to their ability to learn representations of graph structured data. Two common methods for training GNNs are mini-batch training and full-graph training. Since these two methods require different training pipelines and systems optimizations, two separate categories of GNN training systems emerged, each tailored for one method. Works that introduce systems belonging to a particular category predominantly compare them with other systems within the same category, offering limited or no comparison with systems from the other category. Some prior work also justifies its focus on one specific training method by arguing that it achieves higher accuracy than the alternative. The literature, however, has incomplete and contradictory evidence in this regard. In this paper, we provide a comprehensive empirical comparison of full-graph and mini-batch GNN training systems to get a clearer picture of the state of the art in the field. We find that the mini-batch training systems we consider consistently converge faster than the full-graph training ones across multiple datasets, GNN models, and system configurations, with speedups between 2.4x - 15.2x. We also find that both training techniques converge to similar accuracy values, so comparing systems across the two categories in terms of time-to-accuracy is a sound approach.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 回答セットプログラミングによるLCMベースのストーリー生成の誘導と多様化

Guiding and Diversifying LLM-Based Story Generation via Answer Set Programming ( http://arxiv.org/abs/2406.00554v1 )

ライセンス: Link先を確認
Phoebe J. Wang, Max Kreminski, (参考訳) インストラクションチューニングされた大規模言語モデル(LLM)は、オープンエンドのユーザ要求に応答してストーリーを生成することができるが、結果として得られるストーリーは多様性に制限される傾向がある。 より古いシンボリックなストーリー生成アプローチ(プランニングなど)は、より多様なプロットアウトラインを生成することができるが、手書きのキャラクターアクションテンプレートの固定セットを再結合するストーリーだけに限られる。 これらのアプローチの強みを組み合わせて、弱点を軽減できますか? 本稿では,高レベルかつ抽象的な高レベルなストーリー構造仕様(ASP)を用いて実装された高レベルなストーリー構造(高レベルなストーリー構造)を用いて,LCMベースのストーリー生成をガイドし,多様化させることを提案する。 セマンティックな類似性分析により,本手法が無指導のLLMよりも多様なストーリを生成することを示すとともに,コードの抜粋を通じて,完全なストーリープランニングよりもASPベースのアウトライン生成のコンパクト性と柔軟性の向上を実証する。

Instruction-tuned large language models (LLMs) are capable of generating stories in response to open-ended user requests, but the resulting stories tend to be limited in their diversity. Older, symbolic approaches to story generation (such as planning) can generate substantially more diverse plot outlines, but are limited to producing stories that recombine a fixed set of hand-engineered character action templates. Can we combine the strengths of these approaches while mitigating their weaknesses? We propose to do so by using a higher-level and more abstract symbolic specification of high-level story structure -- implemented via answer set programming (ASP) -- to guide and diversify LLM-based story generation. Via semantic similarity analysis, we demonstrate that our approach produces more diverse stories than an unguided LLM, and via code excerpts, we demonstrate the improved compactness and flexibility of ASP-based outline generation over full-fledged narrative planning.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# 非小細胞肺癌脳転移のディープラーニング予測における長さスケールによる研究

Length-scale study in deep learning prediction for non-small cell lung cancer brain metastasis ( http://arxiv.org/abs/2406.00555v1 )

ライセンス: Link先を確認
Haowen Zhou, Steven, Lin, Mark Watson, Cory T. Bernadt, Oumeng Zhang, Ramaswamy Govindan, Richard J. Cote, Changhuei Yang, (参考訳) 深層学習支援デジタル病理学は臨床実践に大きな影響を与える可能性がある。 近年の研究では、ディープニューラルネットワーク(DNN)がヒト病理学者より優れた解析を可能にしている。 DNNアーキテクチャのサイズと複雑さの増大は、一般的にDNNの説明責任を犠牲にして、パフォーマンスを向上させる。 病理学にとって、このDNN説明能力の欠如は、生理学的疾患の洞察をもたらす可能性のある病態の特徴のより広範な臨床的解釈を妨げるため、特に問題となる。 DNNがデジタル顕微鏡画像の解釈を行うための予測アルゴリズムの開発に用いている特徴をよりよく評価するために,我々は,DNNの予測力を基盤とする予測特徴量尺度の新たな研究方法として,分解能と組織スケールの役割を解明することを試みた。 早期非小細胞肺癌生検スライドの脳転移予測例におけるDNNの予測能力の検討に本手法を適用した。 この研究は、細胞規模(解像度)と組織規模の両方の特徴を標的とした脳転移予測におけるDNNの注目点を、H&Eの組織学的全スライド画像上で強調した。 セルスケールでは、DNNの予測力は高分解能(すなわち、低い可溶性特徴長)で徐々に増加し、可溶性特徴長が5ミクロン以上である場合には、ほとんど失われる。 さらに、DNNは組織や構造に関連するよりマクロな特徴(最大特徴長)を使用し、41ミクロン以上の視野を評価する際に最適化される。 本研究は,デジタル全スライド画像上での最適DNN学習に必要な長大な要件を初めて示すものである。

Deep learning assisted digital pathology has the potential to impact clinical practice in significant ways. In recent studies, deep neural network (DNN) enabled analysis outperforms human pathologists. Increasing sizes and complexity of the DNN architecture generally improves performance at the cost of DNN's explainability. For pathology, this lack of DNN explainability is particularly problematic as it hinders the broader clinical interpretation of the pathology features that may provide physiological disease insights. To better assess the features that DNN uses in developing predictive algorithms to interpret digital microscopic images, we sought to understand the role of resolution and tissue scale and here describe a novel method for studying the predictive feature length-scale that underpins a DNN's predictive power. We applied the method to study a DNN's predictive capability in the case example of brain metastasis prediction from early-stage non-small-cell lung cancer biopsy slides. The study highlights the DNN attention in the brain metastasis prediction targeting both cellular scale (resolution) and tissue scale features on H&E-stained histological whole slide images. At the cellular scale, we see that DNN's predictive power is progressively increased at higher resolution (i.e., lower resolvable feature length) and is largely lost when the resolvable feature length is longer than 5 microns. In addition, DNN uses more macro-scale features (maximal feature length) associated with tissue organization/architecture and is optimized when assessing visual fields larger than 41 microns. This study for the first time demonstrates the length-scale requirements necessary for optimal DNN learning on digital whole slide images.
翻訳日:2024-06-06 06:25:48 公開日:2024-06-01
# ソフトウェア開発生産性における生成AIの役割--パイロットケーススタディ

The Role of Generative AI in Software Development Productivity: A Pilot Case Study ( http://arxiv.org/abs/2406.00560v1 )

ライセンス: Link先を確認
Mariana Coutinho, Lorena Marques, Anderson Santos, Marcio Dahia, Cesar Franca, Ronnie de Souza Santos, (参考訳) ソフトウェア開発は革新的技術にますます依存しているため、プロセスの合理化と生産性向上のための生成AIツールの可能性を探求することへの関心が高まっている。 本稿では,ソフトウェア開発におけるジェネレーティブAIツールの統合について検討し,生産性の面に注目したソフトウェアプロフェッショナルに対する利用,メリット,課題の理解に焦点をあてる。 ソフトウェア実践者がさまざまな役割を担っているパイロットケーススタディを通じて、生成可能なAIツールを日々の作業ルーチンに統合するための貴重な経験を集めました。 以上の結果から,これらのツールの個人の生産性に対する肯定的な認識と,特定された制限に対処する必要性が示唆された。 全体として、私たちの研究は、生成型AIツールの統合によるソフトウェア開発の実践の進化の展望を、さらなる調査の段階に設定しています。

With software development increasingly reliant on innovative technologies, there is a growing interest in exploring the potential of generative AI tools to streamline processes and enhance productivity. In this scenario, this paper investigates the integration of generative AI tools within software development, focusing on understanding their uses, benefits, and challenges to software professionals, in particular, looking at aspects of productivity. Through a pilot case study involving software practitioners working in different roles, we gathered valuable experiences on the integration of generative AI tools into their daily work routines. Our findings reveal a generally positive perception of these tools in individual productivity while also highlighting the need to address identified limitations. Overall, our research sets the stage for further exploration into the evolving landscape of software development practices with the integration of generative AI tools.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# 拡散生成モデルによる粒子平滑化軌道の近似学習

Learning to Approximate Particle Smoothing Trajectories via Diffusion Generative Models ( http://arxiv.org/abs/2406.00561v1 )

ライセンス: Link先を確認
Ella Tamir, Arno Solin, (参考訳) 希薄な観測から力学系を学ぶことは、生物学、金融学、物理学など多くの分野において重要である。 このような問題に対処することが一般的な情報融合の標準であるとしても、拡散モデルのような現代の機械学習モデルでは困難である。 本研究では,条件付き粒子フィルタリングと祖先サンプリングと拡散モデルを統合し,観測データと整合したリアルな軌跡の生成を可能にする手法を提案する。 提案手法は,条件付き粒子フィルタと祖先サンプリングを併用したスムーズなスムーズな手法を用いて,観測された限界値に一致する可塑性軌跡をまず生成し,対応する拡散モデルについて学習する。 このアプローチは、複雑な制約下での高品質な滑らかな軌跡の生成法と、古典的追跡問題に対する粒子の滑らか化分布の効率的な近似の両方を提供する。 車両追跡や単一セルRNAシークエンシングデータを含む時系列生成と補間タスクにおけるアプローチを実証する。

Learning dynamical systems from sparse observations is critical in numerous fields, including biology, finance, and physics. Even if tackling such problems is standard in general information fusion, it remains challenging for contemporary machine learning models, such as diffusion models. We introduce a method that integrates conditional particle filtering with ancestral sampling and diffusion models, enabling the generation of realistic trajectories that align with observed data. Our approach uses a smoother based on iterating a conditional particle filter with ancestral sampling to first generate plausible trajectories matching observed marginals, and learns the corresponding diffusion model. This approach provides both a generative method for high-quality, smoothed trajectories under complex constraints, and an efficient approximation of the particle smoothing distribution for classical tracking problems. We demonstrate the approach in time-series generation and interpolation tasks, including vehicle tracking and single-cell RNA sequencing data.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# SPAGHETTI: 検索と意味解析を併用した異種データからのオープンドメイン質問応答

SPAGHETTI: Open-Domain Question Answering from Heterogeneous Data Sources with Retrieval and Semantic Parsing ( http://arxiv.org/abs/2406.00562v1 )

ライセンス: Link先を確認
Heidi C. Zhang, Sina J. Semnani, Farhad Ghassemi, Jialiang Xu, Shicheng Liu, Monica S. Lam, (参考訳) SPAGHETTI: Text Tables and Infoboxesによるハイブリッド英語情報のためのセマンティックパーシング拡張生成(Semantic Parsing Augmented Generation for Hybrid English information from Text Tables and Infoboxes)、知識ベース、テキスト、テーブル、インフォボックスを含む異種知識ソースからの情報を利用するハイブリッド質問応答パイプライン(QA)を紹介する。 我々のLLM拡張アプローチは、最も包括的かつヘテロジニアスなオープンドメインQAデータセットであるCompmixデータセット上で、56.5%の正確なマッチング(EM)レートで最先端のパフォーマンスを達成する。 さらに重要なことは、データセットのサンプルを手動で分析することで、SPAGHETTIが90%以上正確であることを示唆し、今日のQAシステムの能力を評価するのにEMはもはや適していないことを示している。

We introduce SPAGHETTI: Semantic Parsing Augmented Generation for Hybrid English information from Text Tables and Infoboxes, a hybrid question-answering (QA) pipeline that utilizes information from heterogeneous knowledge sources, including knowledge base, text, tables, and infoboxes. Our LLM-augmented approach achieves state-of-the-art performance on the Compmix dataset, the most comprehensive heterogeneous open-domain QA dataset, with 56.5% exact match (EM) rate. More importantly, manual analysis on a sample of the dataset suggests that SPAGHETTI is more than 90% accurate, indicating that EM is no longer suitable for assessing the capabilities of QA systems today.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# 時系列における周期的音源検出のための教師なし手法

An Unsupervised Approach for Periodic Source Detection in Time Series ( http://arxiv.org/abs/2406.00566v1 )

ライセンス: Link先を確認
Berken Utku Demirel, Christian Holz, (参考訳) ノイズのある時系列データ内の周期的な関心パターンの検出は、健康モニタリングから行動分析まで、様々なタスクにおいて重要な役割を果たす。 既存の学習技術は、周期性を検出するためにラベルやクリーンな信号に頼りがちであり、自己教師付き学習手法を採用する者は、適切な拡張を適用する必要がある。 本研究では,ラベルを必要とせずに時系列の周期性を検出する手法を提案する。 バッチにランダムな分散制約を課すことなく、学習した表現が元のサンプルからの情報を保持することを保証することで、崩壊問題を緩和する。 最新の学習手法に対する3つの時系列タスクによる実験の結果,提案手法は従来よりも一貫して優れており,45~50倍以上の性能向上を実現し,その効果を示した。 コード:https://github.com/eth-siplab/Unsupervised_Periodicity_detection

Detection of periodic patterns of interest within noisy time series data plays a critical role in various tasks, spanning from health monitoring to behavior analysis. Existing learning techniques often rely on labels or clean versions of signals for detecting the periodicity, and those employing self-supervised learning methods are required to apply proper augmentations, which is already challenging for time series and can result in collapse -- all representations collapse to a single point due to strong augmentations. In this work, we propose a novel method to detect the periodicity in time series without the need for any labels or requiring tailored positive or negative data generation mechanisms with specific augmentations. We mitigate the collapse issue by ensuring the learned representations retain information from the original samples without imposing any random variance constraints on the batch. Our experiments in three time series tasks against state-of-the-art learning methods show that the proposed approach consistently outperforms prior works, achieving performance improvements of more than 45--50\%, showing its effectiveness. Code: https://github.com/eth-siplab/Unsupervised_Periodicity_Detection
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# コントリビューションを再定義する - シェープ駆動型フェデレーションラーニング

Redefining Contributions: Shapley-Driven Federated Learning ( http://arxiv.org/abs/2406.00569v1 )

ライセンス: Link先を確認
Nurbek Tastan, Samar Fares, Toluwani Aremu, Samuel Horvath, Karthik Nandakumar, (参考訳) フェデレーテッド・ラーニング(FL)は、機械学習における重要なアプローチとして現れ、複数の参加者が生データを共有せずにグローバルモデルのトレーニングを行うことができる。 FLは、医療や金融など様々な分野の応用を見出しているが、参加者が等しくかつ正直に貢献していない場合、グローバルなモデル収束を保証することは困難である。 この課題を克服するためには、FL設定における個々の参加者による貢献を評価するために原則化されたメカニズムが必要である。 既存のコントリビューションアセスメントのソリューションは一般的な精度評価に依存しており、しばしばニュアンスド・ダイナミクスやクラス固有の影響を捉えることに失敗する。 本稿では,FLにおけるコントリビューションの詳細な評価のために,ShapFedと呼ばれる新しいコントリビューションアセスメントアセスメント手法を提案する。 本手法では,協調ゲーム理論のシェープリー値を用いて,クラス固有の影響を詳細に理解する。 ShapFedをベースとしたShapFed-WAと呼ばれる重み付けアグリゲーション手法を導入する。 コントリビューションに基づいた参加者更新のパーソナライズは、参加者のコントリビューションに相応しい差別化されたモデルを提供することによって、コラボレーションの公平性をさらに向上させる。 CIFAR-10、Chest X-Ray、Fed-ISIC2019データセットに対する実験により、FLシステムの実用性、効率、公正性を改善するためのアプローチの有効性が示された。 コードはhttps://github.com/tnurbek/shapfed.comにある。

Federated learning (FL) has emerged as a pivotal approach in machine learning, enabling multiple participants to collaboratively train a global model without sharing raw data. While FL finds applications in various domains such as healthcare and finance, it is challenging to ensure global model convergence when participants do not contribute equally and/or honestly. To overcome this challenge, principled mechanisms are required to evaluate the contributions made by individual participants in the FL setting. Existing solutions for contribution assessment rely on general accuracy evaluation, often failing to capture nuanced dynamics and class-specific influences. This paper proposes a novel contribution assessment method called ShapFed for fine-grained evaluation of participant contributions in FL. Our approach uses Shapley values from cooperative game theory to provide a granular understanding of class-specific influences. Based on ShapFed, we introduce a weighted aggregation method called ShapFed-WA, which outperforms conventional federated averaging, especially in class-imbalanced scenarios. Personalizing participant updates based on their contributions further enhances collaborative fairness by delivering differentiated models commensurate with the participant contributions. Experiments on CIFAR-10, Chest X-Ray, and Fed-ISIC2019 datasets demonstrate the effectiveness of our approach in improving utility, efficiency, and fairness in FL systems. The code can be found at https://github.com/tnurbek/shapfed.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# 正規化と外部化による時系列予測のためのガウス的プロセスベースストリーミングアルゴリズム

A Gaussian Process-based Streaming Algorithm for Prediction of Time Series With Regimes and Outliers ( http://arxiv.org/abs/2406.00570v1 )

ライセンス: Link先を確認
Daniel Waxman, Petar M. Djurić, (参考訳) 政権交代期における時系列のオンライン予測は、文献において広く研究されている問題であり、多くの著名なアプローチがある。 近ごろ提案されたINTELアルゴリズムは、ガウス過程の非パラメトリックな柔軟性を用いて、オフレーヤの特別な場合を含む、可能な状態切替の下での時系列のオンライン予測に専門家のアプローチの産物を提供する。 これはいくつかの候補モデルを適応的に組み合わせて達成され、それぞれが予測分布をt$で報告する。 しかし、INTELアルゴリズムは、予測分布に対する有限コンテキストウィンドウ近似を用いており、その計算は最大ラグで3乗スケールするか、正確に予測分布で4乗スケールする。 LINTELは,一定時間更新を伴う時間$t$の正確なフィルタリング分布を用いて,ストリーミングアルゴリズムの時間的複雑さを最適にする。 さらに、INELの重み付け機構は専門家のアプローチの混合に適しており、LINTELの算術平均化に基づく融合ポリシーを提案する。 提案手法は,適切な条件下でのINELよりも5倍以上高速で,良好な品質予測が可能であることを示す。

Online prediction of time series under regime switching is a widely studied problem in the literature, with many celebrated approaches. Using the non-parametric flexibility of Gaussian processes, the recently proposed INTEL algorithm provides a product of experts approach to online prediction of time series under possible regime switching, including the special case of outliers. This is achieved by adaptively combining several candidate models, each reporting their predictive distribution at time $t$. However, the INTEL algorithm uses a finite context window approximation to the predictive distribution, the computation of which scales cubically with the maximum lag, or otherwise scales quartically with exact predictive distributions. We introduce LINTEL, which uses the exact filtering distribution at time $t$ with constant-time updates, making the time complexity of the streaming algorithm optimal. We additionally note that the weighting mechanism of INTEL is better suited to a mixture of experts approach, and propose a fusion policy based on arithmetic averaging for LINTEL. We show experimentally that our proposed approach is over five times faster than INTEL under reasonable settings with better quality predictions.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# VOICE:ニューラルネットワークの解釈可能性の不確かさを定量化するためのコントラスト説明のばらつき

VOICE: Variance of Induced Contrastive Explanations to quantify Uncertainty in Neural Network Interpretability ( http://arxiv.org/abs/2406.00573v1 )

ライセンス: Link先を確認
Mohit Prabhushankar, Ghassan AlRegib, (参考訳) 本稿では,ニューラルネットワークに対する勾配に基づくポストホック視覚的説明の予測的不確かさを可視化し,定量化する。 予測の不確実性は、入力に対する摂動下でのネットワーク予測のばらつきを指す。 視覚的なポストホック説明可能性のテクニックは、イメージ内の機能を強調して、ネットワークの予測を正当化する。 理論的には、既存の視覚説明手法の評価戦略は、ニューラルネットワークの予測不確実性を部分的に減少させる。 この分析により、勾配に基づく説明手法の残りの予測不確かさを可視化し、定量化するためのプラグインアプローチを構築することができる。 すべての画像,ネットワーク,予測,説明技術がユニークな不確実性を持っていることを示す。 提案された不確実性可視化と定量化は、2つの重要な観測結果をもたらす。 第一に、しばしば誤った予測の下で、説明技法は、彼らが予測に寄与しているのと同じ特徴について不確実であり、それによって説明の信頼性が低下する。 第二に、説明の不確実性の客観的な指標は、経験的に疫学的不確実性と同様に振る舞う。 これらの観測は、2つのデータセット、4つの説明技法、6つのニューラルネットワークアーキテクチャで支援する。 コードはhttps://github.com/olivesgatech/VOICE-Uncertaintyで公開されている。

In this paper, we visualize and quantify the predictive uncertainty of gradient-based post hoc visual explanations for neural networks. Predictive uncertainty refers to the variability in the network predictions under perturbations to the input. Visual post hoc explainability techniques highlight features within an image to justify a network's prediction. We theoretically show that existing evaluation strategies of visual explanatory techniques partially reduce the predictive uncertainty of neural networks. This analysis allows us to construct a plug in approach to visualize and quantify the remaining predictive uncertainty of any gradient-based explanatory technique. We show that every image, network, prediction, and explanatory technique has a unique uncertainty. The proposed uncertainty visualization and quantification yields two key observations. Firstly, oftentimes under incorrect predictions, explanatory techniques are uncertain about the same features that they are attributing the predictions to, thereby reducing the trustworthiness of the explanation. Secondly, objective metrics of an explanation's uncertainty, empirically behave similarly to epistemic uncertainty. We support these observations on two datasets, four explanatory techniques, and six neural network architectures. The code is available at https://github.com/olivesgatech/VOICE-Uncertainty.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# 一般凸集合による外乱を含む線形系の集合メンバーシップ推定の収束率について

On the Convergence Rates of Set Membership Estimation of Linear Systems with Disturbances Bounded by General Convex Sets ( http://arxiv.org/abs/2406.00574v1 )

ライセンス: Link先を確認
Haonan Xu, Yingying Li, (参考訳) 本稿では,頑健な(適応的な)制約制御を動機とする境界障害を持つ線形力学系のシステムパラメータの不確実性セットの推定について検討する。 本稿では,最小二乗推定の信頼性境界を機械学習文献から切り離して,(ロバスト制約による)制御文献によく用いられる手法であるセットメンバシップ推定(SME)に焦点を当てる。 システム障害が境界付けられた場合、中小企業はLSEの信頼性境界よりも経験的なパフォーマンスを享受する傾向にある。 しかし、中小企業の理論的保証は、すなわち有界乱れに対しても完全には解決されない。 文献では、SMEの収束は、外乱の一般凸支持に対して証明されているが、SMEの収束速度は特別な外乱支援を仮定する:$l_\infty$ ball。 本研究の主な貢献は、外乱支援に関する仮定を緩和し、一般凸支持のための中小企業の収束率を確立し、収束率と収束率の差を埋めることである。 SMEとLSEの信頼性境界に関する数値実験も、異なる外乱支援のために提供される。

This paper studies the uncertainty set estimation of system parameters of linear dynamical systems with bounded disturbances, which is motivated by robust (adaptive) constrained control. Departing from the confidence bounds of least square estimation from the machine-learning literature, this paper focuses on a method commonly used in (robust constrained) control literature: set membership estimation (SME). SME tends to enjoy better empirical performance than LSE's confidence bounds when the system disturbances are bounded. However, the theoretical guarantees of SME are not fully addressed even for i.i.d. bounded disturbances. In the literature, SME's convergence has been proved for general convex supports of the disturbances, but SME's convergence rate assumes a special type of disturbance support: $l_\infty$ ball. The main contribution of this paper is relaxing the assumption on the disturbance support and establishing the convergence rates of SME for general convex supports, which closes the gap on the applicability of the convergence and convergence rates results. Numerical experiments on SME and LSE's confidence bounds are also provided for different disturbance supports.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-01
# WebSuite: なぜWebエージェントが失敗するのかをシステム的に評価する

WebSuite: Systematically Evaluating Why Web Agents Fail ( http://arxiv.org/abs/2406.01623v1 )

ライセンス: Link先を確認
Eric Li, Jim Waldo, (参考訳) 汎用Webエージェントのための最初の診断ベンチマークであるWebSuiteについて述べる。 AIの進歩は、タスクを完了するためにブラウザを自律的に操作する多数のWebエージェントの台頭につながっている。 しかし、既存のベンチマークのほとんどは、エージェントがタスクを完了できるかどうかを、理由を知ることなく厳密に測定することに焦点を当てている。 本稿では, 1)共通の障害パターンの識別を容易にするためのWebアクションの分類法を開発し、 2) 分類された行動におけるエージェントのパフォーマンスを評価するための拡張可能なベンチマークスイートを作成する。 このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するといったエンドツーエンドタスクの両方で構成されており、タスクの失敗は、特定のWebアクションの失敗に直接原因付けることができるように設計されている。 我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。 WebSuiteはタスクの障害を特定のアクション障害に分解できるため、個々のエージェントが問題のあるUXフローの詳細な識別が可能になり、改善のための有望な方法がすぐに強調される。 これらの調査結果は、今日のパフォーマンスの弱さを超えて、エージェントを効果的に改善するために、Webエージェントがどこが悪いのか、より集中したベンチマークの必要性を浮き彫りにしている。

We describe WebSuite, the first diagnostic benchmark for generalist web agents, designed to systematically evaluate why agents fail. Advances in AI have led to the rise of numerous web agents that autonomously operate a browser to complete tasks. However, most existing benchmarks focus on strictly measuring whether an agent can or cannot complete a task, without giving insight on why. In this paper, we 1) develop a taxonomy of web actions to facilitate identifying common failure patterns, and 2) create an extensible benchmark suite to assess agents' performance on our taxonomized actions. This benchmark suite consists of both individual tasks, such as clicking a button, and end-to-end tasks, such as adding an item to a cart, and is designed such that any failure of a task can be attributed directly to a failure of a specific web action. We evaluate two popular generalist web agents, one text-based and one multimodal, and identify unique weaknesses for each agent. Because WebSuite can disaggregate task failures into specific action failures, this enables granular identification of which UX flows an individual agent has trouble with and immediately highlights promising avenues for improvement. These findings highlight the need for more focused benchmarking on where web agents go wrong to effectively improve agents beyond their weaker performance today.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-01
# 隠れた要因を明らかにする: 音声感情認識における特徴増強のための説明可能なAI

Unveiling Hidden Factors: Explainable AI for Feature Boosting in Speech Emotion Recognition ( http://arxiv.org/abs/2406.01624v1 )

ライセンス: Link先を確認
Alaa Nfissi, Wassim Bouachir, Nizar Bouguila, Brian Mishara, (参考訳) 音声感情認識(SER)は、メンタルヘルス、教育、人間とコンピュータの相互作用など、いくつかの応用分野から注目されている。 しかし、SERシステムの精度は、無関係かつ冗長な情報を含む可能性のある高次元特徴集合によって妨げられる。 そこで本研究では,機械学習モデルの性能向上のための機能関連性や説明可能性を重視した,SERの反復的機能強化手法を提案する。 我々のアプローチは、効率的なSERシステムを構築するための細心の注意を要する特徴の選択と分析である。 モデル説明可能性による主要な問題に対処するために、Shapley値を持つ機能評価ループを用いて、反復的に機能セットを洗練します。 このプロセスはモデルの性能と透明性のバランスをとっており、モデルの予測を包括的に理解することができる。 提案手法は、無関係で冗長な特徴の識別や削除など、いくつかの利点を提供し、より効果的なモデルをもたらす。 さらに、説明可能性を促進し、モデルの予測の理解を促進し、感情決定の重要な特徴を識別する。 提案手法の有効性はトロントの感情音声セット(TESS)、ベルリンの感情音声データベース(EMO-DB)、Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS)、およびSurrey Audio-Visual Expressed Emotion(SAVEE)データセットのSERベンチマークで検証され、最先端の手法よりも優れている。 これらの結果は、正確で説明可能なSERシステムを開発する上で、提案手法の可能性を浮き彫りにした。 私たちの知る限りでは、SERフレームワークにモデル説明可能性を導入するのはこれが初めてです。

Speech emotion recognition (SER) has gained significant attention due to its several application fields, such as mental health, education, and human-computer interaction. However, the accuracy of SER systems is hindered by high-dimensional feature sets that may contain irrelevant and redundant information. To overcome this challenge, this study proposes an iterative feature boosting approach for SER that emphasizes feature relevance and explainability to enhance machine learning model performance. Our approach involves meticulous feature selection and analysis to build efficient SER systems. In addressing our main problem through model explainability, we employ a feature evaluation loop with Shapley values to iteratively refine feature sets. This process strikes a balance between model performance and transparency, which enables a comprehensive understanding of the model's predictions. The proposed approach offers several advantages, including the identification and removal of irrelevant and redundant features, leading to a more effective model. Additionally, it promotes explainability, facilitating comprehension of the model's predictions and the identification of crucial features for emotion determination. The effectiveness of the proposed method is validated on the SER benchmarks of the Toronto emotional speech set (TESS), Berlin Database of Emotional Speech (EMO-DB), Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS), and Surrey Audio-Visual Expressed Emotion (SAVEE) datasets, outperforming state-of-the-art methods. These results highlight the potential of the proposed technique in developing accurate and explainable SER systems. To the best of our knowledge, this is the first work to incorporate model explainability into an SER framework.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-01
# GenBench:ゲノム基盤モデルのシステム評価のためのベンチマークスイート

GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models ( http://arxiv.org/abs/2406.01627v1 )

ライセンス: Link先を確認
Zicheng Liu, Jiahui Li, Siyuan Li, Zelin Zang, Cheng Tan, Yufei Huang, Yajing Bai, Stan Z. Li, (参考訳) ゲノミック・ファンデーション・モデル(GFM)パラダイムは、大規模なゲノムデータから一般化可能な表現の抽出を容易にすることが期待されている。 進歩にもかかわらず、評価フレームワークの欠如は、実験的な設定、モデルの複雑度、ベンチマークデータセット、再現性の問題による公平な評価の確保を困難にしている。 標準化がなければ、比較分析のリスクは偏り、信頼できない。 本稿では,ゲノミクス・ファンデーション・モデルの有効性を評価するための総合的なベンチマーク・スイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。 様々な生物ドメインにまたがるデータセットの体系的評価を通じて、特に短距離と長距離のゲノムタスクに重点を置いて、まず、コーディング領域、非コーディング領域、ゲノム構造などをカバーする3つの重要なDNAタスクを含む。 さらに,タスク固有の性能に対するモデルアーキテクチャとデータセット特性の相互作用を微妙に解析する。 パラメータの数とは無関係に、短距離および長距離タスクにおける注意ベースモデルと畳み込みモデルとの相違は、将来のGFMの設計に関する洞察を与える可能性がある。

The Genomic Foundation Model (GFM) paradigm is expected to facilitate the extraction of generalizable representations from massive genomic data, thereby enabling their application across a spectrum of downstream applications. Despite advancements, a lack of evaluation framework makes it difficult to ensure equitable assessment due to experimental settings, model intricacy, benchmark datasets, and reproducibility challenges. In the absence of standardization, comparative analyses risk becoming biased and unreliable. To surmount this impasse, we introduce GenBench, a comprehensive benchmarking suite specifically tailored for evaluating the efficacy of Genomic Foundation Models. GenBench offers a modular and expandable framework that encapsulates a variety of state-of-the-art methodologies. Through systematic evaluations of datasets spanning diverse biological domains with a particular emphasis on both short-range and long-range genomic tasks, firstly including the three most important DNA tasks covering Coding Region, Non-Coding Region, Genome Structure, etc. Moreover, We provide a nuanced analysis of the interplay between model architecture and dataset characteristics on task-specific performance. Our findings reveal an interesting observation: independent of the number of parameters, the discernible difference in preference between the attention-based and convolution-based models on short- and long-range tasks may provide insights into the future design of GFM.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-01
# RecDiff:ソーシャルレコメンデーションのための拡散モデル

RecDiff: Diffusion Model for Social Recommendation ( http://arxiv.org/abs/2406.01629v1 )

ライセンス: Link先を確認
Zongwei Li, Lianghao Xia, Chao Huang, (参考訳) ソーシャルレコメンデーションは、オンラインソーシャルプラットフォームで観察されるフォローや友人関係といった、ユーザ間のソーシャルなつながりを活用することによって、パーソナライズされたレコメンデーションを強化する強力なアプローチとして現れてきた。 ソーシャルレコメンデーションの基本的な前提は、ソーシャル接続されたユーザーが好みのパターンにホモフィリーを示すことである。 これは、ソーシャルなつながりによって結びついているユーザーが、評価や購入といったユーザーイテム活動に類似した嗜好を持つ傾向にあることを意味する。 しかし、この仮定は、ユーザ埋め込みを汚染し、レコメンデーション精度に悪影響を及ぼす、無関係で偽の社会的結びつきが存在するため、必ずしも有効ではない。 この課題に対処するために,新しい拡散型ソーシャル・デノベーション・フレームワーク(RecDiff)を提案する。 提案手法は, 圧縮された高密度表現空間における雑音効果を緩和するために, 単純かつ効果的な隠れ空間拡散パラダイムを利用する。 多段階のノイズ拡散と除去を行うことにより、RecDiffは、ノイズレベルが変化しても、符号化されたユーザ表現からノイズを識別および除去する堅牢な能力を有する。 拡散モジュールは、下流のタスク認識方法で最適化され、レコメンデーションプロセスを強化する能力を最大化する。 提案手法の有効性を評価するための広範囲な実験を行い, 提案手法の精度, 訓練効率, 騒音低減効果の観点から, その優位性を実証した。 モデル実装のソースコードは、https://github.com/HKUDS/RecDiff.comで公開されている。

Social recommendation has emerged as a powerful approach to enhance personalized recommendations by leveraging the social connections among users, such as following and friend relations observed in online social platforms. The fundamental assumption of social recommendation is that socially-connected users exhibit homophily in their preference patterns. This means that users connected by social ties tend to have similar tastes in user-item activities, such as rating and purchasing. However, this assumption is not always valid due to the presence of irrelevant and false social ties, which can contaminate user embeddings and adversely affect recommendation accuracy. To address this challenge, we propose a novel diffusion-based social denoising framework for recommendation (RecDiff). Our approach utilizes a simple yet effective hidden-space diffusion paradigm to alleivate the noisy effect in the compressed and dense representation space. By performing multi-step noise diffusion and removal, RecDiff possesses a robust ability to identify and eliminate noise from the encoded user representations, even when the noise levels vary. The diffusion module is optimized in a downstream task-aware manner, thereby maximizing its ability to enhance the recommendation process. We conducted extensive experiments to evaluate the efficacy of our framework, and the results demonstrate its superiority in terms of recommendation accuracy, training efficiency, and denoising effectiveness. The source code for the model implementation is publicly available at: https://github.com/HKUDS/RecDiff.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-01
# 低温EMのためのポーズの等変補正推論

Equivariant amortized inference of poses for cryo-EM ( http://arxiv.org/abs/2406.01630v1 )

ライセンス: Link先を確認
Larissa de Ruijter, Gabriele Cesa, (参考訳) Cryo-EMは、タンパク質やウイルスなどの生体分子の3次元構造を決定する重要な技術である。 高ノイズレベル、粒子のポーズの欠如、大規模データセット処理の計算要求などにより、Creo-EM再構成問題は困難である。 これらの課題に対する有望な解決策は、大規模なデータセットのポーズ推定において特に有効である、償却推論手法を使用することである。 しかし、これらの手法は収束問題にも遭遇し、しばしば洗練された初期化戦略を必要とする。 収束問題に対処するために対称損失関数を使用する既存のCryoAIパイプラインに基づいて、この研究はパイプライン内のこれらの問題の出現と永続性について調査する。 さらに,同変アモータイズ推論が収束性向上に与える影響についても検討する。 シミュレーションデータに適用した場合,同変エンコーダを組み込んだパイプラインは,標準手法よりも高速かつ頻繁に収束するだけでなく,ポーズ推定精度と再構成ボリュームの分解能の点で優れた性能を示す。 注目すべきは、$D_4$-equivariantエンコーダは対称損失を過剰にし、したがってより効率的な再構築パイプラインを可能にすることである。

Cryo-EM is a vital technique for determining 3D structure of biological molecules such as proteins and viruses. The cryo-EM reconstruction problem is challenging due to the high noise levels, the missing poses of particles, and the computational demands of processing large datasets. A promising solution to these challenges lies in the use of amortized inference methods, which have shown particular efficacy in pose estimation for large datasets. However, these methods also encounter convergence issues, often necessitating sophisticated initialization strategies or engineered solutions for effective convergence. Building upon the existing cryoAI pipeline, which employs a symmetric loss function to address convergence problems, this work explores the emergence and persistence of these issues within the pipeline. Additionally, we explore the impact of equivariant amortized inference on enhancing convergence. Our investigations reveal that, when applied to simulated data, a pipeline incorporating an equivariant encoder not only converges faster and more frequently than the standard approach but also demonstrates superior performance in terms of pose estimation accuracy and the resolution of the reconstructed volume. Notably, $D_4$-equivariant encoders make the symmetric loss superfluous and, therefore, allow for a more efficient reconstruction pipeline.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-01
# LLMに基づくレコメンダシステム環境

An LLM-based Recommender System Environment ( http://arxiv.org/abs/2406.01631v1 )

ライセンス: Link先を確認
Nathan Corecco, Giorgio Piatti, Luca A. Lanzendörfer, Flint Xiaofeng Fan, Roger Wattenhofer, (参考訳) 強化学習 (Reinforcement Learning, RL) は, 長期報酬を最適化し, 利用者に関連コンテンツの発見を指導する能力によって, 推薦システムの領域で人気を博している。 しかし,レコメンデーションシステムにおけるRLの実装は,オンラインデータの利用率の制限など,いくつかの要因により困難である。 この不足は、オンラインモデルのトレーニングに高価なヒューマンインタラクションを必要とします。 さらに、モデルの品質を正確に反映した効果的な評価フレームワークの開発は、レコメンダシステムにおける根本的な課題である。 これらの課題に対処するために,大規模言語モデル(LLM)の能力を活用し,人間の行動をシミュレートする総合的な合成環境フレームワークを提案する。 我々は,本フレームワークを詳細なアブレーション研究で補完し,映画や書籍のレコメンデーション実験でその効果を実証する。 LLMを合成ユーザとして活用することにより、RLベースのレコメンデータシステムのトレーニングのためのモジュラーで斬新なフレームワークを導入する。 RL環境を含むソフトウェアは一般公開されている。

Reinforcement learning (RL) has gained popularity in the realm of recommender systems due to its ability to optimize long-term rewards and guide users in discovering relevant content. However, the successful implementation of RL in recommender systems is challenging because of several factors, including the limited availability of online data for training on-policy methods. This scarcity requires expensive human interaction for online model training. Furthermore, the development of effective evaluation frameworks that accurately reflect the quality of models remains a fundamental challenge in recommender systems. To address these challenges, we propose a comprehensive framework for synthetic environments that simulate human behavior by harnessing the capabilities of large language models (LLMs). We complement our framework with in-depth ablation studies and demonstrate its effectiveness with experiments on movie and book recommendations. By utilizing LLMs as synthetic users, this work introduces a modular and novel framework for training RL-based recommender systems. The software, including the RL environment, is publicly available.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-01
# LLM型チャットボットにおける過度な会話優先事項の克服について

On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots ( http://arxiv.org/abs/2406.01633v1 )

ライセンス: Link先を確認
Christine Herlihy, Jennifer Neville, Tobias Schnabel, Adith Swaminathan, (参考訳) 本稿では,Large Language Model (LLMをベースとした) チャットボットによる推薦システムの実現について検討する。 チャットボットが不明確でないリクエストに遭遇した場合(例えば、誤った仮定をしたり、長いレスポンスでヘッジしたり、答えを拒んだり)、応答が不十分になるのを観察します。 単一ターンアノテーションはマルチターンの会話ユーティリティをキャプチャできず、アノテータの好みはレコメンデータシステムと対話するユーザの代表ではないかもしれない。 まず、公開LLMチャットログを分析し、クエリアンダーセグメンテーションが一般的であると結論付ける。 次に、構成可能な潜在アイテムユーティリティを用いて合成レコメンデーション問題を研究し、それらを部分観測決定プロセス(PODP)としてフレーム化する。 事前学習したLLMはPODPに準最適であり、適切なときに不特定クエリを明らかにするためのより良いポリシーを導出できることが判明した。 そして、学習した制御メッセージでLSMを再校正し、改善されたポリシーを近似する。 最後に、我々の軽量学習手法は、ログ化された会話データを効果的に利用し、レコメンデーションタスクにLLMベースのチャットボットの応答戦略を再検討することを示した。

We explore the use of Large Language Model (LLM-based) chatbots to power recommender systems. We observe that the chatbots respond poorly when they encounter under-specified requests (e.g., they make incorrect assumptions, hedge with a long response, or refuse to answer). We conjecture that such miscalibrated response tendencies (i.e., conversational priors) can be attributed to LLM fine-tuning using annotators -- single-turn annotations may not capture multi-turn conversation utility, and the annotators' preferences may not even be representative of users interacting with a recommender system. We first analyze public LLM chat logs to conclude that query under-specification is common. Next, we study synthetic recommendation problems with configurable latent item utilities and frame them as Partially Observed Decision Processes (PODP). We find that pre-trained LLMs can be sub-optimal for PODPs and derive better policies that clarify under-specified queries when appropriate. Then, we re-calibrate LLMs by prompting them with learned control messages to approximate the improved policy. Finally, we show empirically that our lightweight learning approach effectively uses logged conversation data to re-calibrate the response strategies of LLM-based chatbots for recommendation tasks.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-01
# 高等教育における生成AIの責任ある採用--学部的視点に基づく「考慮すべきポイント」アプローチの開発

Responsible Adoption of Generative AI in Higher Education: Developing a "Points to Consider" Approach Based on Faculty Perspectives ( http://arxiv.org/abs/2406.01930v1 )

ライセンス: Link先を確認
Ravit Dotan, Lisa S. Parker, John G. Radzilowicz, (参考訳) 本稿では,高等教育の目標,価値観,構造的特徴に敏感な「考慮すべきポイント」アプローチを用いて,高等教育におけるジェネレーティブAI導入の責任を負うアプローチを提案する。 高等教育における協力的教員統治の倫理、教育学と研究の目標、および学術的自由の紛争の受け入れは、民間部門で共通するAIの統治に一元的なトップダウンアプローチを取り入れている、と論文は主張する。 この論文はピッツバーグ大学における1学期にわたる取り組みに基づいており、共同で反復的で学際的なプロセスを通じて高等教育における生成AIの視点を収集し、組織化した。 本稿は, 論文の展開する「考慮すべきポイント」に繋がるこの取り組みから得られた知見を提示する。 これらの洞察には、高等教育におけるジェネレーティブAIの潜在的な利用の利点とリスク、そして、その採用への障壁、そして高等教育機関におけるジェネレーティブAIの採用と管理について考慮すべき6つの規範的ポイントに到達している。

This paper proposes an approach to the responsible adoption of generative AI in higher education, employing a ''points to consider'' approach that is sensitive to the goals, values, and structural features of higher education. Higher education's ethos of collaborative faculty governance, pedagogical and research goals, and embrace of academic freedom conflict, the paper argues, with centralized top down approaches to governing AI that are common in the private sector. The paper is based on a semester long effort at the University of Pittsburgh which gathered and organized perspectives on generative AI in higher education through a collaborative, iterative, interdisciplinary process that included recurring group discussions, three standalone focus groups, and an informal survey. The paper presents insights drawn from this effort that give rise to the ''points to consider'' approach the paper develops. These insights include the benefits and risks of potential uses of generative AI In higher education, as well as barriers to its adoption, and culminate in the six normative points to consider when adopting and governing generative AI in institutions of higher education.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-01
# キーポイントマッチングのための検出・公開マルチアームネットワーク

A Detector-oblivious Multi-arm Network for Keypoint Matching ( http://arxiv.org/abs/2104.00947v3 )

ライセンス: Link先を確認
Xuelun Shen, Qian Hu, Xin Li, Cheng Wang, (参考訳) 本稿では,画像間の点対応を確立するためのマッチングネットワークを提案する。 本研究では,領域の重なりと深さを学習するマルチArm Network(MAN)を提案する。 このフレームワークを、異なるキーポイント検出器を採用する際に再トレーニングを必要とする既存の学習ベースパイプラインとは異なるものにする別の設計では、ネットワークはそのような時間を要する再トレーニングプロセスなしで、異なるキーポイント検出器と直接連携することができる。 屋外および屋内のデータセットを用いた総合的な実験により,提案手法が最先端の手法より優れていることが示された。

This paper presents a matching network to establish point correspondence between images. We propose a Multi-Arm Network (MAN) to learn region overlap and depth, which can greatly improve the keypoint matching robustness while bringing little computational cost during the inference stage. Another design that makes this framework different from many existing learning based pipelines that require re-training when a different keypoint detector is adopted, our network can directly work with different keypoint detectors without such a time-consuming re-training process. Comprehensive experiments conducted on outdoor and indoor datasets demonstrated that our proposed MAN outperforms state-of-the-art methods.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-01
# ブロックチェーン・フェデレーション・ラーニングの体系的調査

A Systematic Survey of Blockchained Federated Learning ( http://arxiv.org/abs/2110.02182v2 )

ライセンス: Link先を確認
Zhilin Wang, Qin Hu, Minghui Xu, Yan Zhuang, Yawei Wang, Xiuzhen Cheng, (参考訳) 機械学習の技術的進歩により、実生活で生成された膨大なデータを処理する効果的な方法が利用できるようになった。 しかし、プライバシとスケーラビリティの問題により、機械学習の開発が制限される。 フェデレートラーニング(FL)は、複数のクライアントにトレーニングタスクを割り当て、中央サーバをローカルデバイスから分離することで、プライバシーの漏洩を防止する。 しかし、FLはシングルポイント障害や悪意のあるデータといった欠点に悩まされている。 ブロックチェーンの出現は、FLをデプロイするためのセキュアで効率的なソリューションを提供する。 本稿では,ブロックチェーンFL(BCFL)に関する文献を包括的に調査する。 まず、システム構成の観点から、連邦政府の学習にブロックチェーンをどのように適用できるかを検討する。 次に,メカニズム設計の観点からBCFLの具体的機能を分析し,FLに特化してブロックチェーンがどのような問題に対処するかを説明する。 BCFLの実際の応用についても調査する。 最後に,いくつかの課題と今後の研究方針について論じる。

With the technological advances in machine learning, effective ways are available to process the huge amount of data generated in real life. However, issues of privacy and scalability will constrain the development of machine learning. Federated learning (FL) can prevent privacy leakage by assigning training tasks to multiple clients, thus separating the central server from the local devices. However, FL still suffers from shortcomings such as single-point-failure and malicious data. The emergence of blockchain provides a secure and efficient solution for the deployment of FL. In this paper, we conduct a comprehensive survey of the literature on blockchained FL (BCFL). First, we investigate how blockchain can be applied to federal learning from the perspective of system composition. Then, we analyze the concrete functions of BCFL from the perspective of mechanism design and illustrate what problems blockchain addresses specifically for FL. We also survey the applications of BCFL in reality. Finally, we discuss some challenges and future research directions.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-01
# Duck Swarmアルゴリズム:理論、数値最適化とその応用

Duck swarm algorithm: theory, numerical optimization, and applications ( http://arxiv.org/abs/2112.13508v2 )

ライセンス: Link先を確認
Mengjian Zhang, Guihua Wen, (参考訳) 本研究は,アヒル群集の餌源探索と捕食行動から着想を得た群集知能に基づく最適化アルゴリズムDuck Swarm Algorithm (DSA)を提案する。 2つのルールは、提案されたDSAの探索および利用段階に対応するアヒルの餌の発見と採餌からモデル化される。 DSAの性能は、統計的(ベスト、平均、標準偏差、平均ランニングタイム)の結果を、Particle Swarm Optimization (PSO)、Firefly Algorithm (FA)、Chicken Swarm Optimization (CSO)、Grey wolf Optimizationr (GWO)、Sine cosine algorithm (SCA)、Marine-predators algorithm (MPA)、Archimedes Optimization Algorithm (AOA)といった7つのよく知られたアルゴリズムと比較して検証する。 さらに、ウィルコクソンランクサム試験、フリードマン試験、および比較結果の収束曲線を利用して、他のアルゴリズムに対するDSAの優位性を証明した。 その結果, DSAは, 数値最適化問題の解法として, 収束速度と探索-探索バランスの観点から, 高性能な最適化手法であることがわかった。 また,6つの工学的制約付き最適化問題の最適設計と,無線センサネットワーク(WSN)のノード最適化配置タスクに適用した。 比較の結果、DSAは様々な最適化問題を解くための有望で非常に競争力のあるアルゴリズムであることがわかった。

A swarm intelligence-based optimization algorithm, named Duck Swarm Algorithm (DSA), is proposed in this study, which is inspired by the searching for food sources and foraging behaviors of the duck swarm. Two rules are modeled from the finding food and foraging of the duck, which corresponds to the exploration and exploitation phases of the proposed DSA, respectively. The performance of the DSA is verified by using multiple CEC benchmark functions, where its statistical (best, mean, standard deviation, and average running-time) results are compared with seven well-known algorithms like Particle swarm optimization (PSO), Firefly algorithm (FA), Chicken swarm optimization (CSO), Grey wolf optimizer (GWO), Sine cosine algorithm (SCA), and Marine-predators algorithm (MPA), and Archimedes optimization algorithm (AOA). Moreover, the Wilcoxon rank-sum test, Friedman test, and convergence curves of the comparison results are utilized to prove the superiority of the DSA against other algorithms. The results demonstrate that DSA is a high-performance optimization method in terms of convergence speed and exploration-exploitation balance for solving the numerical optimization problems. Also, DSA is applied for the optimal design of six engineering constrained optimization problems and the node optimization deployment task of the Wireless Sensor Network (WSN). Overall, the comparison results revealed that the DSA is a promising and very competitive algorithm for solving different optimization problems.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-01
# 電力需要予測モデル構築のためのインテリジェントエンドツーエンドニューラルネットワーク探索フレームワーク

An Intelligent End-to-End Neural Architecture Search Framework for Electricity Forecasting Model Development ( http://arxiv.org/abs/2203.13563v2 )

ライセンス: Link先を確認
Jin Yang, Guangxin Jiang, Yinan Wang, Ying Chen, (参考訳) 近年,電力系統における時系列電力予測のための深層学習(DL)モデルの開発が急激な成長を遂げている。 しかし,提案したモデルのほとんどは,設計者固有の知識と経験に基づいて設計されており,提案したニューラルアーキテクチャの適合性は明らかにされていない。 さらに、これらのモデルは、その構造の柔軟性のない設計のため、動的に変化するデータパターンに自己調整することはできない。 近年、電気予測分野において最適化された構造を持つネットワークを得るためのニューラルネットワークサーチ(NAS)技術の適用が検討されているが、そのトレーニングプロセスは計算的に高価であり、探索戦略は柔軟ではないため、この分野におけるNASの適用はまだ初期段階にあることが示唆されている。 本研究では、時系列電気予測モデルの開発のためのインテリジェント自動アーキテクチャサーチ(IAAS)フレームワークを提案する。 提案フレームワークは,ネットワーク機能保存変換操作,強化学習(RL)に基づくネットワーク変換制御,ネットワーク構造の探索品質向上を目的としたヒューリスティックネットワークスクリーニングの3つの主要コンポーネントを含む。 2つの公用電力負荷データセットと2つの風力負荷データセットに関する総合的な実験を行った結果、IAASフレームワークは精度と安定性の予測において、既存の10のモデルや手法を著しく上回っていることを実証した。 最後に,予測精度向上のためのIAASフレームワークにおける重要なコンポーネントの重要性を明らかにするためのアブレーション実験を行った。

Recent years have witnessed exponential growth in developing deep learning (DL) models for time-series electricity forecasting in power systems. However, most of the proposed models are designed based on the designers' inherent knowledge and experience without elaborating on the suitability of the proposed neural architectures. Moreover, these models cannot be self-adjusted to dynamically changed data patterns due to the inflexible design of their structures. Although several recent studies have considered the application of the neural architecture search (NAS) technique for obtaining a network with an optimized structure in the electricity forecasting sector, their training process is computationally expensive and their search strategies are not flexible, indicating that the NAS application in this area is still at an infancy stage. In this study, we propose an intelligent automated architecture search (IAAS) framework for the development of time-series electricity forecasting models. The proposed framework contains three primary components, i.e., network function-preserving transformation operation, reinforcement learning (RL)-based network transformation control, and heuristic network screening, which aim to improve the search quality of a network structure. After conducting comprehensive experiments on two publicly-available electricity load datasets and two wind power datasets, we demonstrate that the proposed IAAS framework significantly outperforms the ten existing models or methods in terms of forecasting accuracy and stability. Finally, we perform an ablation experiment to showcase the importance of critical components in the proposed IAAS framework in improving forecasting accuracy.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-01
# ルール学習とサブグループ探索技術を用いたシステムレベルデバッグの高速化

Accelerating System-Level Debug Using Rule Learning and Subgroup Discovery Techniques ( http://arxiv.org/abs/2207.00622v2 )

ライセンス: Link先を確認
Zurab Khasidashvili, (参考訳) 本稿では,ルールベースの手法を用いて,システムレベルのデバッグを高速化するルートキャスティング手法を提案する。 この手順と、デバッグの労力を減らすために高品質なデバッグヒントを提供する方法について説明する。 これには、多数のテストのログからエンジニアリング機能のヒューリスティックスと、強力なデバッグヒントを生成するためのデータ分析技術が含まれている。 ケーススタディでは,これらの手法をパワーマネージメント(PM)設計の特徴であるPackage-C8の根源的故障に適用し,その有効性を示した。 さらに,本研究では,ルートキャスティング体験と再利用結果のマイニング,将来のデバッグ活動の促進,検証専門家への依存の軽減といった手法を提案する。 これらのテクニックは、複雑なハードウェア、ソフトウェア、ファームウェアシステム、プレシリコン、ポストシリコンといった様々なレベルでの検証活動にも有用であると考えています。

We propose a root-causing procedure for accelerating system-level debug using rule-based techniques. We describe the procedure and how it provides high quality debug hints for reducing the debug effort. This includes the heuristics for engineering features from logs of many tests, and the data analytics techniques for generating powerful debug hints. As a case study, we used these techniques for root-causing failures of the Power Management (PM) design feature Package-C8 and showed their effectiveness. Furthermore, we propose an approach for mining the root-causing experience and results for reuse, to accelerate future debug activities and reduce dependency on validation experts. We believe that these techniques are beneficial also for other validation activities at different levels of abstraction, for complex hardware, software and firmware systems, both pre-silicon and post-silicon.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-01
# NVIDIA NICにおける強化学習データセンターの混雑制御の実装

Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs ( http://arxiv.org/abs/2207.02295v5 )

ライセンス: Link先を確認
Benjamin Fuhrer, Yuval Shpigelman, Chen Tessler, Shie Mannor, Gal Chechik, Eitan Zahavi, Gal Dalal, (参考訳) 通信プロトコルが進化するにつれて、データセンターネットワークの利用が増加する。 その結果、混雑が頻発し、遅延とパケット損失が増大する。 ワークロードの複雑さの増大と相まって、渋滞制御(CC)アルゴリズムの手動設計は非常に困難になる。 これにより、人間の努力を置き換えるAIアプローチの開発が求められます。 残念ながら、計算能力が限られているため、現在、ネットワークデバイスにAIモデルをデプロイすることはできない。 本稿では,最近の強化学習CCアルゴリズム [arXiv:2207.02295] に基づく計算軽度解を構築することにより,この問題に対する解決策を提供する。 我々は、複雑なニューラルネットワークを決定木に蒸留することにより、RL-CCのx500による推論時間を短縮する。 この変換は、$\mu$-sec決定時間要件内でのリアルタイム推論を可能にする。 NVIDIA NICのトランスフォーメーションポリシを,ライブクラスタにデプロイします。 実運用で一般的なCCアルゴリズムと比較して、RL-CCは、多数のフローでテストされた全てのベンチマークでうまく機能する唯一の方法である。 帯域幅、レイテンシ、パケットドロップという、複数のメトリクスを同時にバランスさせる。 これらの結果から, CCのデータ駆動方式は実現可能であり, 最適性能を達成するためには手作りヒューリスティックスが必要であるという従来の信念に疑問が持たれている。

As communication protocols evolve, datacenter network utilization increases. As a result, congestion is more frequent, causing higher latency and packet loss. Combined with the increasing complexity of workloads, manual design of congestion control (CC) algorithms becomes extremely difficult. This calls for the development of AI approaches to replace the human effort. Unfortunately, it is currently not possible to deploy AI models on network devices due to their limited computational capabilities. Here, we offer a solution to this problem by building a computationally-light solution based on a recent reinforcement learning CC algorithm [arXiv:2207.02295]. We reduce the inference time of RL-CC by x500 by distilling its complex neural network into decision trees. This transformation enables real-time inference within the $\mu$-sec decision-time requirement, with a negligible effect on quality. We deploy the transformed policy on NVIDIA NICs in a live cluster. Compared to popular CC algorithms used in production, RL-CC is the only method that performs well on all benchmarks tested over a large range of number of flows. It balances multiple metrics simultaneously: bandwidth, latency, and packet drops. These results suggest that data-driven methods for CC are feasible, challenging the prior belief that handcrafted heuristics are necessary to achieve optimal performance.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-01
# BFL: フォールトツリーを推論する論理

BFL: a Logic to Reason about Fault Trees ( http://arxiv.org/abs/2208.13424v2 )

ライセンス: Link先を確認
Stefano M. Nicoletti, E. Moritz Hahn, Marielle Stoelinga, (参考訳) 安全に重要なインフラは安全かつ確実に運用されなければならない。 フォールトツリー分析は、これらのシステムにおけるリスクを評価するために広く用いられる手法である: フォールトツリー(FT)は、連邦航空局や原子力規制委員会によって、自律運転および航空宇宙システムにおけるソフトウェア開発のためのISO26262標準で要求される。 産業とアカデミックの両方で人気があるが、FTは強力で理解可能な分析クエリを定式化する体系的な方法がない。 本稿では,このギャップを埋め,FTを推論する論理であるブールフォールトツリー論理(BFL)を導入することを目的とする。 BFLは、複雑なシナリオのより簡単な定式化とFTプロパティの仕様をサポートする、単純だが表現力のある論理である。 BFLと並行して、BFLの特定の特性を分析するためのバイナリ決定図(BDD)に基づくモデル検査アルゴリズム、パターン、および反例を構築するアルゴリズムを提案する。 最後に、COVID19関連FTを分析し、BFLのケーススタディ応用を提案する。

Safety-critical infrastructures must operate safely and reliably. Fault tree analysis is a widespread method used to assess risks in these systems: fault trees (FTs) are required - among others - by the Federal Aviation Authority, the Nuclear Regulatory Commission, in the ISO26262 standard for autonomous driving and for software development in aerospace systems. Although popular both in industry and academia, FTs lack a systematic way to formulate powerful and understandable analysis queries. In this paper, we aim to fill this gap and introduce Boolean Fault tree Logic (BFL), a logic to reason about FTs. BFL is a simple, yet expressive logic that supports easier formulation of complex scenarios and specification of FT properties. Alongside BFL, we present model checking algorithms based on binary decision diagrams (BDDs) to analyse specified properties in BFL, patterns and an algorithm to construct counterexamples. Finally, we propose a case-study application of BFL by analysing a COVID19-related FT.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-01
# 暗号通貨のトレーサビリティ測定に向けて

Towards Measuring the Traceability of Cryptocurrencies ( http://arxiv.org/abs/2211.04259v2 )

ライセンス: Link先を確認
Domokos Miklós Kelen, István András Seres, (参考訳) 暗号通貨は、中央集権的で信頼できる仲介者を排除しながら、デジタル領域で物理的現金を複製することを目的としている。 分散化は、すべてのトランザクションの記録を含む永続的なパブリック台帳であるブロックチェーンによって達成される。 公開台帳は透明性を保証し、公衆の検証を可能にするが、追跡不能、ファジビリティ、匿名性を損なう。 過去10年間で、暗号通貨は数百万のユーザーを惹きつけ、ピーク時には時価総額は約3兆米ドルに達した。 しかし、彼らの匿名性保証は理解が不十分で、広く信じられている不信に悩まされている。 実際、従来のプライバシー、匿名性、および暗号通貨のトレーサビリティの概念は、計算的に測定するのが困難である。 本研究では,暗号通貨の追跡可能性と匿名性を測定するための公式な枠組みを提案し,暗号通貨の特徴と,その上に構築されたプライバシー保護技術とを定量的に分析する。 本手法はシャノンエントロピーと組み合わせたマルコフ鎖の吸収に適用する。 我々の知識を最大限に活用するために、我々の研究は、暗号通貨のトレーサビリティを定量的に評価する最初の実用的で効率的で確率的な尺度を提供し、同時に暗号取引グラフ全体に一般化する。 いくつかの暗号トランザクショングラフに対して提案したトレーサビリティ尺度を実装し,広範囲に評価する。 その他の定量的な結果の中で、調査された1週間の間隔で、平均してBitcoinブロックチェーンは、Ethereumブロックチェーンと同等だが、定量的に比較すると、Ethereumブロックチェーンよりも自然な混合を提供する。

Cryptocurrencies aim to replicate physical cash in the digital realm while removing centralized and trusted intermediaries. Decentralization is achieved by the blockchain, a permanent public ledger that contains a record of every transaction. The public ledger ensures transparency, which enables public verifiability but harms untraceability, fungibility, and anonymity. In the last decade, cryptocurrencies attracted millions of users, with their total market cap reaching approximately three trillion USD at its peak. However, their anonymity guarantees are poorly understood and plagued by widespread misbeliefs. Indeed, previous notions of privacy, anonymity, and traceability for cryptocurrencies are either non-quantitative or inapplicable, e.g., computationally hard to measure. In this work, we put forward a formal framework to measure the (un)traceability and anonymity of cryptocurrencies, allowing us to quantitatively reason about the mixing characteristics of cryptocurrencies and the privacy-enhancing technologies built on top of them. Our methods apply absorbing Markov chains combined with Shannon entropy. To the best of our knowledge, our work provides the first practical, efficient, and probabilistic measure to assess the traceability of cryptocurrencies quantitatively, which also generalizes to entire cryptocurrency transaction graphs. We implement and extensively evaluate our proposed traceability measure on several cryptocurrency transaction graphs. Among other quantitative results, we find that in the studied one-week interval, the Bitcoin blockchain, on average, provided comparable but quantifiably more natural mixing than the Ethereum blockchain.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-01
# 量子プログラマとしてのシュレーディンガー:ステアリングによる絡み合いの推定

Schrödinger as a Quantum Programmer: Estimating Entanglement via Steering ( http://arxiv.org/abs/2303.07911v4 )

ライセンス: Link先を確認
Aby Philip, Soorya Rethinasamy, Vincent Russo, Mark M. Wilde, (参考訳) 量子エンタングルメントは、量子状態の資源性を測定する重要なタスクである。 そこで我々は、量子ステアリング効果を用いて、一般二部体状態の分離性をテストし、定量化する量子アルゴリズムを開発した。 我々の分離性テストは、関心状態の浄化を準備する計算限定クライアントと、還元されたシステムを純積状態の確率的アンサンブルに操ろうとする計算非有界サーバの2つを含む分散量子計算からなる。 実用的なアルゴリズムを設計するために、パラメータ化されたユニタリ回路と古典的な最適化手法を組み合わせてサーバの役割を置き換え、必要な計算を行う。 その結果は変分量子ステアリングアルゴリズム (VQSA) であり、今日の量子コンピュータで実装可能な改良された分離性テストである。 次に、ノイズの多い量子シミュレータ上でVQSAをシミュレートし、テストした例に好適な収束特性を求める。 VQSAの結果をベンチマークする半定値プログラムも開発しています。 このように、我々の研究結果は、ステアリング、絡み合い、量子アルゴリズム、量子計算複雑性理論の間に有意義な関連性をもたらす。 また、VQSAにおけるパラメータ化中間回路の測定値も示す。

Quantifying entanglement is an important task by which the resourcefulness of a quantum state can be measured. Here, we develop a quantum algorithm that tests for and quantifies the separability of a general bipartite state by using the quantum steering effect, the latter initially discovered by Schr\"odinger. Our separability test consists of a distributed quantum computation involving two parties: a computationally limited client, who prepares a purification of the state of interest, and a computationally unbounded server, who tries to steer the reduced systems to a probabilistic ensemble of pure product states. To design a practical algorithm, we replace the role of the server with a combination of parameterized unitary circuits and classical optimization techniques to perform the necessary computation. The result is a variational quantum steering algorithm (VQSA), a modified separability test that is implementable on quantum computers that are available today. We then simulate our VQSA on noisy quantum simulators and find favorable convergence properties on the examples tested. We also develop semidefinite programs, executable on classical computers, that benchmark the results obtained from our VQSA. Thus, our findings provide a meaningful connection between steering, entanglement, quantum algorithms, and quantum computational complexity theory. They also demonstrate the value of a parameterized mid-circuit measurement in a VQSA.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-01
# マルチスケールサーフェス・ビジョン・トランス

The Multiscale Surface Vision Transformer ( http://arxiv.org/abs/2303.11909v2 )

ライセンス: Link先を確認
Simon Dahan, Logan Z. J. Williams, Daniel Rueckert, Emma C. Robinson, (参考訳) 表面メッシュは、ヒト大脳皮質の構造的および機能的情報を表現するのに好まれる領域であるが、その複雑なトポロジと幾何学は、ディープラーニング解析に重大な課題をもたらす。 トランスフォーマーはシーケンス・ツー・シーケンス・ラーニングのドメインに依存しないアーキテクチャとして優れているが、自己注意操作の二次コストは多くの密集予測タスクの障害となっている。 視覚変換器を用いた階層型モデリングの最近の進歩に触発されて,表面深層学習のためのバックボーンアーキテクチャとして,Multiscale Surface Vision Transformer (MS-SiT)を導入した。 自己保持機構は局所的なメッシュウインドウ内で適用され、基礎となるデータの高精細なサンプリングを可能にし、シフトウインドウ戦略はウィンドウ間の情報の共有を改善する。 隣接パッチは順次マージされ、MS-SiTは任意の予測タスクに適した階層表現を学習できる。 以上の結果から,MS-SiTは,発達型Human Connectome Project(dHCP)データセットを用いて,新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。 さらに、表面セグメンテーションのためのU字型アーキテクチャにMS-SiTバックボーンを組み込むことで、UK Biobank(UKB)と手動で注釈付けされたMindBoggleデータセットを使用した皮質パーセル化の競合結果が示される。 コードとトレーニングされたモデルはhttps://github.com/metrics-lab/ surface-vision-transformersで公開されている。

Surface meshes are a favoured domain for representing structural and functional information on the human cortex, but their complex topology and geometry pose significant challenges for deep learning analysis. While Transformers have excelled as domain-agnostic architectures for sequence-to-sequence learning, the quadratic cost of the self-attention operation remains an obstacle for many dense prediction tasks. Inspired by some of the latest advances in hierarchical modelling with vision transformers, we introduce the Multiscale Surface Vision Transformer (MS-SiT) as a backbone architecture for surface deep learning. The self-attention mechanism is applied within local-mesh-windows to allow for high-resolution sampling of the underlying data, while a shifted-window strategy improves the sharing of information between windows. Neighbouring patches are successively merged, allowing the MS-SiT to learn hierarchical representations suitable for any prediction task. Results demonstrate that the MS-SiT outperforms existing surface deep learning methods for neonatal phenotyping prediction tasks using the Developing Human Connectome Project (dHCP) dataset. Furthermore, building the MS-SiT backbone into a U-shaped architecture for surface segmentation demonstrates competitive results on cortical parcellation using the UK Biobank (UKB) and manually-annotated MindBoggle datasets. Code and trained models are publicly available at https://github.com/metrics-lab/surface-vision-transformers.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-01
# マンハッタン世界推定下の魚眼画像復元のためのヒートマップ回帰による深部単眼カメラの校正

Deep Single Image Camera Calibration by Heatmap Regression to Recover Fisheye Images Under Manhattan World Assumption ( http://arxiv.org/abs/2303.17166v2 )

ライセンス: Link先を確認
Nobuhiko Wakai, Satoshi Sato, Yasunori Ishii, Takayoshi Yamashita, (参考訳) 立方体建物に沿って横たわるマンハッタンの世界は、カメラの角度推定に役立ちます。 しかしながら、マンハッタンの世界における魚眼画像からの正確で頑健な角度推定は、一般的なシーン画像は線、弧、消滅点などの制約を欠いているため、未解決の課題である。 高い精度とロバスト性を達成するために,キーポイントを用いたポーズ推定に類似した熱マップ回帰を用いた学習ベースキャリブレーション手法を提案し,ラベル付き画像座標の方向を検出する。 同時に、我々の2つの推定器は、一般的なシーンイメージから再マッピングすることで、回転を回復し、魚眼の歪みを取り除く。 ゼロ点制約を考慮せずに、学習に基づく手法のための追加のポイントを定義することができる。 画像の消失点の欠如を補うため,空間的均一性の最適3次元配置を有する補助的対角点を導入する。 大規模データセットやオフザシェルフカメラにおいて,本手法が従来の手法よりも優れていることを示した。

A Manhattan world lying along cuboid buildings is useful for camera angle estimation. However, accurate and robust angle estimation from fisheye images in the Manhattan world has remained an open challenge because general scene images tend to lack constraints such as lines, arcs, and vanishing points. To achieve higher accuracy and robustness, we propose a learning-based calibration method that uses heatmap regression, which is similar to pose estimation using keypoints, to detect the directions of labeled image coordinates. Simultaneously, our two estimators recover the rotation and remove fisheye distortion by remapping from a general scene image. Without considering vanishing-point constraints, we find that additional points for learning-based methods can be defined. To compensate for the lack of vanishing points in images, we introduce auxiliary diagonal points that have the optimal 3D arrangement of spatial uniformity. Extensive experiments demonstrated that our method outperforms conventional methods on large-scale datasets and with off-the-shelf cameras.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-01
# Data Mesh: システムグレーの文献レビュー

Data Mesh: a Systematic Gray Literature Review ( http://arxiv.org/abs/2304.01062v2 )

ライセンス: Link先を確認
Abel Goedegebuure, Indika Kumara, Stefan Driessen, Dario Di Nucci, Geert Monsieur, Willem-jan van den Heuvel, Damian Andrew Tamburri, (参考訳) Data Meshは、企業の集中型モノリシックなデータアーキテクチャに関連する運用上のボトルネックを最小化または回避することを目的とした、新たなドメイン駆動型の分散データアーキテクチャである。 この話題は実践者の興味を惹きつけており、それには相当なグレーの文学がある。 同時に、概念を定義し、構築する学術的な試みの欠如を観察する。 したがって、この記事では、その設計原則、アーキテクチャコンポーネント、機能、組織の役割について、基盤から始め、データメッシュアーキテクチャを特徴付けることを目的としています。 我々は114の産業用グレー文学論文を体系的に収集,分析,合成した。 このレビューは、データメッシュの4つの重要な原則、すなわち、製品としてのデータ、データのドメインオーナシップ、セルフサービスデータプラットフォーム、フェデレートされたコンピューティングガバナンスに関する実践者の見解に関する洞察を提供する。 さらに、データメッシュとSOA(サービス指向アーキテクチャ)の互換性のため、グレーの文献からの発見をSOA学術文献の参照アーキテクチャにマッピングし、データメッシュの3つの重要な側面、すなわち能力と役割、開発、実行の組織化を記述するための参照アーキテクチャを作成しました。 最後に,データメッシュにおけるオープンな研究課題について論じる。

Data mesh is an emerging domain-driven decentralized data architecture that aims to minimize or avoid operational bottlenecks associated with centralized, monolithic data architectures in enterprises. The topic has picked the practitioners' interest, and there is considerable gray literature on it. At the same time, we observe a lack of academic attempts at defining and building upon the concept. Hence, in this article, we aim to start from the foundations and characterize the data mesh architecture regarding its design principles, architectural components, capabilities, and organizational roles. We systematically collected, analyzed, and synthesized 114 industrial gray literature articles. The review provides insights into practitioners' perspectives on the four key principles of data mesh: data as a product, domain ownership of data, self-serve data platform, and federated computational governance. Moreover, due to the comparability of data mesh and SOA (service-oriented architecture), we mapped the findings from the gray literature into the reference architectures from the SOA academic literature to create the reference architectures for describing three key dimensions of data mesh: organization of capabilities and roles, development, and runtime. Finally, we discuss open research issues in data mesh, partially based on the findings from the gray literature.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-01
# 実効GNN表現性に関する実証的研究

An Empirical Study of Realized GNN Expressiveness ( http://arxiv.org/abs/2304.07702v4 )

ライセンス: Link先を確認
Yanbo Wang, Muhan Zhang, (参考訳) グラフニューラルネットワーク(GNN)の理論表現性の研究は急速に進展し,その表現性を高めるために多くの手法が提案されている。 しかしながら、ほとんどのメソッドは、$k$-次元のWeisfeiler-Lehman(k$-WL)テスト階層に厳密に従う数を除いて、一様表現性尺度を持たないため、それらの表現性を比較するのが困難である。 これまでの研究ではデータセットを計測に利用しようと試みてきたが、難易度(1-WLを超えるモデルは100%近い精度)、粒度(モデルは100%正しいかランダムに近い確率で推測される)、スケール(基本的にはいくつかの異なるグラフのみを含む)の問題に直面していた。 これらの制約に対処するために、実用モデルインスタンスが実現可能な表現力について、より難易度の高いBREC(4-WL非識別可能なグラフ)、より細かい粒度(1-WLと3-WLのモデルの比較)、より大きなスケール(800個の1-WL非同型グラフからなる)を用いて検討する。 BREC上で高-1-WL表現率23モデルを合成試験した。 本実験では, 従来の1-WL GNNモデルを超えて, 実現された表現性について, 理論的表現性と実現された表現性とのギャップを明らかにする。 データセットと評価コードは、https://github.com/GraphPKU/BRECでリリースされている。

Research on the theoretical expressiveness of Graph Neural Networks (GNNs) has developed rapidly, and many methods have been proposed to enhance the expressiveness. However, most methods do not have a uniform expressiveness measure except for a few that strictly follow the $k$-dimensional Weisfeiler-Lehman ($k$-WL) test hierarchy, leading to difficulties in quantitatively comparing their expressiveness. Previous research has attempted to use datasets for measurement, but facing problems with difficulty (any model surpassing 1-WL has nearly 100% accuracy), granularity (models tend to be either 100% correct or near random guess), and scale (only several essentially different graphs involved). To address these limitations, we study the realized expressive power that a practical model instance can achieve using a novel expressiveness dataset, BREC, which poses greater difficulty (with up to 4-WL-indistinguishable graphs), finer granularity (enabling comparison of models between 1-WL and 3-WL), a larger scale (consisting of 800 1-WL-indistinguishable graphs that are non-isomorphic to each other). We synthetically test 23 models with higher-than-1-WL expressiveness on BREC. Our experiment gives the first thorough measurement of the realized expressiveness of those state-of-the-art beyond-1-WL GNN models and reveals the gap between theoretical and realized expressiveness. Dataset and evaluation codes are released at: https://github.com/GraphPKU/BREC.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-01
# 科学研究における人工知能のメリットの定量化

Quantifying the Benefit of Artificial Intelligence for Scientific Research ( http://arxiv.org/abs/2304.10578v2 )

ライセンス: Link先を確認
Jian Gao, Dashun Wang, (参考訳) 進行中の人工知能(AI)革命は、ほぼすべての作業ラインを変える可能性がある。 AIの能力が正確性、堅牢性、到達度を向上し続けるにつれ、AIは、多くの重要なタスクにわたって、人間の専門家よりも優れ、置き換える可能性がある。 AIが労働と経済に与える影響と、科学的な発見と進歩を加速する最近のAIの成功を理解するための膨大な努力にもかかわらず、私たちは、AIの進歩が科学研究の分野や分野にまたがる利益をもたらす可能性があるという体系的な理解を欠いている。 ここでは、仕事の未来と科学の科学に関する文献から、科学研究におけるAIの直接的利用とAIの潜在的利益の両方を推定するための測定フレームワークを開発し、7460万の出版物と7100万の特許に自然言語処理技術を適用する。 私たちは、研究におけるAIの使用が科学全体に広まり、特に2015年以来急速に成長しており、AIを使用する論文は引用プレミアムを示しています。 さらに、我々の分析は、AIが多くの科学分野に利益をもたらす可能性があることを示しているが、AI教育とその研究応用の間には顕著な断絶があり、AI専門知識の供給と研究の需要とのミスマッチが浮き彫りになっている。 最後に、科学分野にまたがるAIの利益における人口格差を調査し、女性や黒人科学者の比率が高い分野は、より少ない利益に結びつく傾向があることを発見し、AIが研究に与える影響の増大が科学における既存の不平等をさらに悪化させる可能性があることを示唆している。 AIと科学研究の結びつきが深まるにつれ、我々の発見はますます重要になり、研究企業の株式と持続可能性に影響を及ぼすかもしれない。

The ongoing artificial intelligence (AI) revolution has the potential to change almost every line of work. As AI capabilities continue to improve in accuracy, robustness, and reach, AI may outperform and even replace human experts across many valuable tasks. Despite enormous effort devoted to understanding the impact of AI on labor and the economy and AI's recent successes in accelerating scientific discovery and progress, we lack a systematic understanding of how AI advances may benefit scientific research across disciplines and fields. Here, drawing from the literature on the future of work and the science of science, we develop a measurement framework to estimate both the direct use of AI and the potential benefit of AI in scientific research, applying natural language processing techniques to 74.6 million publications and 7.1 million patents. We find that the use of AI in research is widespread throughout the sciences, growing especially rapidly since 2015, and papers that use AI exhibit a citation premium, more likely to be highly cited both within and outside their disciplines. Moreover, our analysis reveals considerable potential for AI to benefit numerous scientific fields, yet a notable disconnect exists between AI education and its research applications, highlighting a mismatch between the supply of AI expertise and its demand in research. Lastly, we examine demographic disparities in AI's benefits across scientific disciplines and find that disciplines with a higher proportion of women or Black scientists tend to be associated with less benefit, suggesting that AI's growing impact on research may further exacerbate existing inequalities in science. As the connection between AI and scientific research deepens, our findings may become increasingly important, with implications for the equity and sustainability of the research enterprise.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-01
# MCD:マルチモーダル設計修正のためのモデルに依存しない非実数探索法

MCD: A Model-Agnostic Counterfactual Search Method For Multi-modal Design Modifications ( http://arxiv.org/abs/2305.11308v2 )

ライセンス: Link先を確認
Lyle Regenwetter, Yazan Abu Obaideh, Faez Ahmed, (参考訳) 設計者は、要求の多い機能目標を達成するために設計概念をどう調整するかを自問することがある。 このような疑問に答えるためには、デザイナはデザイナに対して、設計上の代替案と予測されたパフォーマンスを考慮に入れなければならない。 本稿では,MCD(Multi-objective Counterfactuals for Design)を提案する。 MCDは、設計問題に不可欠な多目的要求をサポートし、また、偽物探索とサンプリングプロセスを分離することにより、既存の偽物探索法を改善し、効率を向上し、客観的なトレードオフ可視化を容易にする。 本論文は,3つの実証自転車設計課題を用いて,複雑なエンジニアリングタスクにおけるMDDの機能を示す。 第一に、MDDは機能性能を定量的に向上し、自転車フレームを強化し、重量を節約する設計変更を効果的に識別する。 第2に、MDDはパラメトリックバイクモデルを、主観的なテキストプロンプトや参照画像に類似するように、クロスモーダルな方法で修正する。 最終学際的なケーススタディでは、MCDは最初の2つの問題で導入された量的および主観的な設計要件に取り組み、同時に自転車の設計を個々のライダーの生体力学特性にカスタマイズする。 仮説的な設計変更と、それらが複数の設計目標に与える影響を探求することで、MDDは、その設計をターゲットとした拡張を行おうとする実践者に対して、効果的な設計修正を推奨している。 論文で使用されるコード、テスト問題、データセットは、decode.mit.edu/projects/counterfactuals/で一般に公開されている。

Designers may often ask themselves how to adjust their design concepts to achieve demanding functional goals. To answer such questions, designers must often consider counterfactuals, weighing design alternatives and their projected performance. This paper introduces Multi-objective Counterfactuals for Design (MCD), a computational tool that automates and streamlines the counterfactual search process and recommends targeted design modifications that meet designers' unique requirements. MCD improves upon existing counterfactual search methods by supporting multi-objective requirements, which are crucial in design problems, and by decoupling the counterfactual search and sampling processes, thus enhancing efficiency and facilitating objective trade-off visualization. The paper showcases MCD's capabilities in complex engineering tasks using three demonstrative bicycle design challenges. In the first, MCD effectively identifies design modifications that quantifiably enhance functional performance, strengthening the bike frame and saving weight. In the second, MCD modifies parametric bike models in a cross-modal fashion to resemble subjective text prompts or reference images. In a final multidisciplinary case study, MCD tackles all the quantitative and subjective design requirements introduced in the first two problems, while simultaneously customizing a bike design to an individual rider's biomechanical attributes. By exploring hypothetical design alterations and their impact on multiple design objectives, MCD recommends effective design modifications for practitioners seeking to make targeted enhancements to their designs. The code, test problems, and datasets used in the paper are available to the public at decode.mit.edu/projects/counterfactuals/.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-01
# 最適輸送による不完全データからのDAGのパラメータ推定

Parameter Estimation in DAGs from Incomplete Data via Optimal Transport ( http://arxiv.org/abs/2305.15927v4 )

ライセンス: Link先を確認
Vy Vo, Trung Le, Tung-Long Vuong, He Zhao, Edwin Bonilla, Dinh Phung, (参考訳) 不完全なデータから確率論的指向グラフィカルモデルのパラメータを推定することは、長年にわたる課題である。 これは、潜伏変数が存在する場合、可能性関数と後続分布の両方が、構造的依存やモデルクラスに関する仮定なしでは難解であるからである。 既存の学習手法は基本的に最大化の可能性に基づくものであるが、ここでは最適な輸送のレンズを通してパラメータ学習問題の新たな視点を提供する。 この観点は任意の有向グラフ上で動作し、潜在変数の後方に非現実的な仮定や変分近似に頼ることなく、一般的なフレームワークをライセンスする。 我々は、理論的な枠組みを開発し、我々のアプローチの汎用性と堅牢性を示す広範な実証的な証拠でそれを支援する。 実験を通して,本手法は,地中構造パラメータを効果的に復元できるだけでなく,下流アプリケーション上でのベースラインの競合よりも相容れない,あるいは優れていることを示す。

Estimating the parameters of a probabilistic directed graphical model from incomplete data is a long-standing challenge. This is because, in the presence of latent variables, both the likelihood function and posterior distribution are intractable without assumptions about structural dependencies or model classes. While existing learning methods are fundamentally based on likelihood maximization, here we offer a new view of the parameter learning problem through the lens of optimal transport. This perspective licenses a general framework that operates on any directed graphs without making unrealistic assumptions on the posterior over the latent variables or resorting to variational approximations. We develop a theoretical framework and support it with extensive empirical evidence demonstrating the versatility and robustness of our approach. Across experiments, we show that not only can our method effectively recover the ground-truth parameters but it also performs comparably or better than competing baselines on downstream applications.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-01
# 可変量子固有解法のための測定に基づく注入回路

Measurement-based infused circuits for variational quantum eigensolvers ( http://arxiv.org/abs/2305.19200v3 )

ライセンス: Link先を確認
Albie Chan, Zheng Shi, Luca Dellantonio, Wolfgang Dür, Christine A. Muschik, (参考訳) 変分量子固有解法(VQEs)は、量子コンピュータ上の物理系を研究するために成功したアルゴリズムである。 最近、量子コンピューティングの計測ベースモデルに拡張され、リソースグラフ状態とその利点を量子シミュレーションの領域にもたらすようになった。 本研究では,従来のVQE回路にそのようなアイデアを組み込む。 これにより、新しい問題インフォームド設計と多体ハミルトニアンの多元的実装が可能になる。 本稿では, 摂動平面符号, Z2格子ゲージ理論, 1次元量子色力学, LiH分子を含むテストベッドシステムのVQEシミュレーションにより, 実超伝導量子コンピュータへのアプローチを示す。

Variational quantum eigensolvers (VQEs) are successful algorithms for studying physical systems on quantum computers. Recently, they were extended to the measurement-based model of quantum computing, bringing resource graph states and their advantages into the realm of quantum simulation. In this work, we incorporate such ideas into traditional VQE circuits. This enables novel problem-informed designs and versatile implementations of many-body Hamiltonians. We showcase our approach on real superconducting quantum computers by performing VQE simulations of testbed systems including the perturbed planar code, Z2 lattice gauge theory, 1D quantum chromodynamics, and the LiH molecule.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-01
# Riemannian Projection-free Online Learning

Riemannian Projection-free Online Learning ( http://arxiv.org/abs/2305.19349v2 )

ライセンス: Link先を確認
Zihao Hu, Guanghui Wang, Jacob Abernethy, (参考訳) プロジェクション演算は、制約を強制し、最適後悔境界を達成するために、オンライン勾配降下(OGD)のような幅広い最適化アルゴリズムにおいて重要な要素である。 しかし、これは高次元の設定における計算複雑性の制限や、不条件の制約セットを扱う際に悩まされる。 プロジェクションフリーアルゴリズムは、プロジェクションオラクルをより効率的な最適化サブルーチンに置き換えることでこの問題に対処する。 しかし、これらの手法はユークリッド的な設定で開発され、リーマン多様体の最適化への関心が高まりつつあるが、ここでは射影のないツールを活用しようとする試みは基本的には行われていない。 明らかな問題は、非自明なアフィン函数がそのような領域では一般に非凸であることである。 本稿では,2つのシナリオに対して,曲面空間上での空間的空間的凸最適化において,サブ線形後悔保証を得る方法を提案する。 a)分離宣誓供述書または (b)線形最適化オラクル ジオデシックな凸損失に対して、分離オラクルが利用可能であれば、我々のアルゴリズムは、全情報設定においてそれぞれ$O(T^{1/2}\:)$と$O(T^{3/4}\;)$の適応的後悔保証を達成する。 線形最適化オラクルが利用可能であれば、測地的凸損失は$O(T^{3/4}\;)$、測地的凸損失は$O(T^{2/3}\; log T )$となる。

The projection operation is a critical component in a wide range of optimization algorithms, such as online gradient descent (OGD), for enforcing constraints and achieving optimal regret bounds. However, it suffers from computational complexity limitations in high-dimensional settings or when dealing with ill-conditioned constraint sets. Projection-free algorithms address this issue by replacing the projection oracle with more efficient optimization subroutines. But to date, these methods have been developed primarily in the Euclidean setting, and while there has been growing interest in optimization on Riemannian manifolds, there has been essentially no work in trying to utilize projection-free tools here. An apparent issue is that non-trivial affine functions are generally non-convex in such domains. In this paper, we present methods for obtaining sub-linear regret guarantees in online geodesically convex optimization on curved spaces for two scenarios: when we have access to (a) a separation oracle or (b) a linear optimization oracle. For geodesically convex losses, and when a separation oracle is available, our algorithms achieve $O(T^{1/2}\:)$ and $O(T^{3/4}\;)$ adaptive regret guarantees in the full information setting and the bandit setting, respectively. When a linear optimization oracle is available, we obtain regret rates of $O(T^{3/4}\;)$ for geodesically convex losses and $O(T^{2/3}\; log T )$ for strongly geodesically convex losses.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-01
# 量子回路からのベルサンプリング

Bell sampling from quantum circuits ( http://arxiv.org/abs/2306.00083v5 )

ライセンス: Link先を確認
Dominik Hangleiter, Michael J. Gullans, (参考訳) 量子コンピュータの検証における中心的な課題は、その性能全体をベンチマークし、その計算能力を実証することである。 この研究で、これらのタスクの両方に使用できる量子計算の普遍的なモデルであるベルサンプリングを発見し、そのため、フォールトトレランスに向けた理想的なステップストーンを提供する。 ベルサンプリングでは,逆ベル基底の量子回路で作成された状態の2つのコピーを測定する。 我々はベルサンプルが古典的に抽出可能であり、同時に回路シャドーと呼ばれるものを構成することを示し、ベルサンプルから状態を作成する量子回路に関する情報を効率的に抽出し、回路エラーを診断することができる。 ベル試料から効率的に抽出できる既知の特性に加えて, 状態忠実度推定器, 回路深度テスト, 回路内のTゲート数に対する下界を推定するアルゴリズムなど, 新規で効率的なプロトコルがいくつか提供される。 さらに,T数が少ない回路で生成した状態の完全な記述をアルゴリズムで学習する。

A central challenge in the verification of quantum computers is benchmarking their performance as a whole and demonstrating their computational capabilities. In this work, we find a universal model of quantum computation, Bell sampling, that can be used for both of those tasks and thus provides an ideal stepping stone towards fault-tolerance. In Bell sampling, we measure two copies of a state prepared by a quantum circuit in the transversal Bell basis. We show that the Bell samples are classically intractable to produce and at the same time constitute what we call a circuit shadow: from the Bell samples we can efficiently extract information about the quantum circuit preparing the state, as well as diagnose circuit errors. In addition to known properties that can be efficiently extracted from Bell samples, we give several new and efficient protocols: an estimator of state fidelity, a test for the depth of the circuit and an algorithm to estimate a lower bound to the number of T gates in the circuit. With some additional measurements, our algorithm learns a full description of states prepared by circuits with low T-count.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-01
# コンフォーマル言語モデリング

Conformal Language Modeling ( http://arxiv.org/abs/2306.10193v2 )

ライセンス: Link先を確認
Victor Quach, Adam Fisch, Tal Schuster, Adam Yala, Jae Ho Sohn, Tommi S. Jaakkola, Regina Barzilay, (参考訳) 本稿では,生成言語モデル(LM)の共形予測のための新しい手法を提案する。 標準共形予測は、厳密で統計的な性能保証を持つ単一の予測の代わりに、予測セットを生成する。 LM応答は通常、自然言語の大規模な組合せ出力空間上のモデルの予測分布からサンプリングされる。 このプロセスを共形予測に変換し、出力セットが十分である確信になるまで、成長する候補セットに追加されるLMから異なる出力をサンプリングするための停止ルールを校正する。 いくつかのサンプルは低品質である可能性があるため、ノイズを低減するために出力セットから候補を除去するために同時に校正し、拒否規則を適用します。 共形予測と同様に、我々の手順によって返されるサンプル集合は、平均的には経験的正確(すなわち小さい)でありながら、高い確率で少なくとも1つの許容可能な解を含むことを証明している。 さらに、この一連の候補応答において、それぞれ独立に正しい個々のコンポーネント(句や文など)のサブセット(例えば、"幻覚"ではない)を統計的保証とともに正確に識別できることを示す。 我々は,オープンドメイン質問応答,テキスト要約,放射線学レポート生成において,異なるLM変種を用いた複数のタスクに対するアプローチの可能性を実証する。

We propose a novel approach to conformal prediction for generative language models (LMs). Standard conformal prediction produces prediction sets -- in place of single predictions -- that have rigorous, statistical performance guarantees. LM responses are typically sampled from the model's predicted distribution over the large, combinatorial output space of natural language. Translating this process to conformal prediction, we calibrate a stopping rule for sampling different outputs from the LM that get added to a growing set of candidates until we are confident that the output set is sufficient. Since some samples may be low-quality, we also simultaneously calibrate and apply a rejection rule for removing candidates from the output set to reduce noise. Similar to conformal prediction, we prove that the sampled set returned by our procedure contains at least one acceptable answer with high probability, while still being empirically precise (i.e., small) on average. Furthermore, within this set of candidate responses, we show that we can also accurately identify subsets of individual components -- such as phrases or sentences -- that are each independently correct (e.g., that are not "hallucinations"), again with statistical guarantees. We demonstrate the promise of our approach on multiple tasks in open-domain question answering, text summarization, and radiology report generation using different LM variants.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-01
# 六方晶窒化ホウ素中のホウ素原子価欠陥の基底準位分解によるロバスト核スピン分極

Robust Nuclear Spin Polarization via Ground-State Level Anti-Crossing of Boron Vacancy Defects in Hexagonal Boron Nitride ( http://arxiv.org/abs/2306.15960v2 )

ライセンス: Link先を確認
Shihao Ru, Zhengzhi Jiang, Haidong Liang, Jonathan Kenny, Hongbing Cai, Xiaodan Lyu, Robert Cernansky, Feifei Zhou, Yuzhe Yang, Kenji Watanabe, Takashi Taniguch, Fuli Li, Koh Teck Seng, Xiaogang Liu, Fedor Jelezko, Andrew A. Bettiol, Weibo Gao, (参考訳) 量子情報処理と量子センシングにおいて、核スピン偏極は重要な役割を果たす。 本研究では, 六方晶窒化ホウ素 (h-BN) 中のホウ素空孔欠陥 (\mathrm{V_B^-}$) を基底準位アンチクロス (GSLAC) を用いて, 安定かつ効率的な核スピン分極法を示す。 GSLACによる核分極は励起状態の反交差よりもかなり低いレーザーパワーで達成できることを示し、このプロセスは実験的により有効であることを示した。 さらに、h-BNで$\mathrm{V_B^-}$に対して、核スピンの直接光学的読み出しを実証した。 以上の結果から, GSLACはh-BNの欠陥を正確に制御し, 操作するための有望な手法であることが示唆された。

Nuclear spin polarization plays a crucial role in quantum information processing and quantum sensing. In this work, we demonstrate a robust and efficient method for nuclear spin polarization with boron vacancy ($\mathrm{V_B^-}$) defects in hexagonal boron nitride (h-BN) using ground-state level anti-crossing (GSLAC). We show that GSLAC-assisted nuclear polarization can be achieved with significantly lower laser power than excited-state level anti-crossing, making the process experimentally more viable. Furthermore, we have demonstrated direct optical readout of nuclear spins for $\mathrm{V_B^-}$ in h-BN. Our findings suggest that GSLAC is a promising technique for the precise control and manipulation of nuclear spins in $\mathrm{V_B^-}$ defects in h-BN.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-01
# 原子ボース-アインシュタイン凝縮体のデジタルツインニングによる量子力センシング

Quantum Force Sensing by Digital Twinning of Atomic Bose-Einstein Condensates ( http://arxiv.org/abs/2307.00484v2 )

ライセンス: Link先を確認
Tangyou Huang, Zhongcheng Yu, Zhongyi Ni, Xiaoji Zhou, Xiaopeng Li, (参考訳) 高感度検出は、科学的発見と技術応用において重要な役割を担っている。 集合多体相関と量子エンタングルメントを利用した興味深い手法は、感度を高めるために物理学で開発されているが、厳密な技術的要求のため、その実践的実装は難しいままである。 本稿では、機械学習の能力を生かし、弱い信号検出感度を大幅に向上させる、完全にデータ駆動型アプローチを提案する。 原子間力センサでは,無力データのデジタルレプリカと異常検出技術を組み合わせて,物理的システムやセンサプロセスの仮定に関する事前知識を欠いている。 その結果,感度が著しく向上し,約10^{-25}〜\mathrm{N}$の弱い力を検出するため,従来のプロトコルよりも格段に向上した。 結果の感度は 1.7(4) \times 10^{-25}~\mathrm{N}/\sqrt{\mathrm{Hz}}$ に達する。 我々の機械学習ベースの信号処理アプローチは、システム固有の詳細や処理された信号に頼らず、様々な領域にわたるセンシング技術に適用できる。

High sensitivity detection plays a vital role in science discoveries and technological applications. While intriguing methods utilizing collective many-body correlations and quantum entanglements have been developed in physics to enhance sensitivity, their practical implementation remains challenging due to rigorous technological requirements. Here, we propose an entirely data-driven approach that harnesses the capabilities of machine learning, to significantly augment weak-signal detection sensitivity. In an atomic force sensor, our method combines a digital replica of force-free data with anomaly detection technique, devoid of any prior knowledge about the physical system or assumptions regarding the sensing process. Our findings demonstrate a significant advancement in sensitivity, achieving an order of magnitude improvement over conventional protocols in detecting a weak force of approximately $10^{-25}~\mathrm{N}$. The resulting sensitivity reaches $1.7(4) \times 10^{-25}~\mathrm{N}/\sqrt{\mathrm{Hz}}$. Our machine learning-based signal processing approach does not rely on system-specific details or processed signals, rendering it highly applicable to sensing technologies across various domains.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-01
# 平滑な表面圧力センサによる円柱の流動制御のための動的特徴量に基づく深部強化学習

Dynamic Feature-based Deep Reinforcement Learning for Flow Control of Circular Cylinder with Sparse Surface Pressure Sensing ( http://arxiv.org/abs/2307.01995v3 )

ライセンス: Link先を確認
Qiulei Wang, Lei Yan, Gang Hu, Wenli Chen, Jean Rabault, Bernd R. Noack, (参考訳) 本研究は,低抵抗および低リフト変動を目標とした閉ループシリンダーウェイク制御のための自己学習アルゴリズムを提案する。 DRLの性能は、センサー信号を動的特徴(DF)に引き上げることで大幅に向上し、将来の流れ状態を予測する。 その結果、動的特徴ベースDRL(DF-DRL)は、動的モデルなしで自動的に植物内のフィードバック制御を学習する。 その結果,DF-DRLモデルの抵抗係数は直接センサフィードバックに基づいてバニラモデルよりも25%小さいことがわかった。 さらに, DF-DRLは1つの表面圧力センサのみを用いて, Re = 100 で約8%の最先端性能にドラッグ係数を低減し, 昇降係数の変動を著しく軽減することができる。 したがって、DF-DRLは制御性能を低下させることなく、流れのスパースセンシングを展開できる。 この方法はまた、より高いレイノルズ数の下での流路制御において良好な堅牢性を示し、Re = 500 と 1000 でそれぞれドラッグ係数を 32.2% と 46.55% 減らし、この方法の適用可能性を示している。 表面圧力情報は,流速情報よりも現実的なシナリオで測定しやすいため,壁面圧力信号に基づいて円柱のアクティブフロー制御を実験的に設計する上で貴重な基準を提供する。

This study proposes a self-learning algorithm for closed-loop cylinder wake control targeting lower drag and lower lift fluctuations with the additional challenge of sparse sensor information, taking deep reinforcement learning as the starting point. DRL performance is significantly improved by lifting the sensor signals to dynamic features (DF), which predict future flow states. The resulting dynamic feature-based DRL (DF-DRL) automatically learns a feedback control in the plant without a dynamic model. Results show that the drag coefficient of the DF-DRL model is 25% less than the vanilla model based on direct sensor feedback. More importantly, using only one surface pressure sensor, DF-DRL can reduce the drag coefficient to a state-of-the-art performance of about 8% at Re = 100 and significantly mitigate lift coefficient fluctuations. Hence, DF-DRL allows the deployment of sparse sensing of the flow without degrading the control performance. This method also shows good robustness in controlling flow under higher Reynolds numbers, which reduces the drag coefficient by 32.2% and 46.55% at Re = 500 and 1000, respectively, indicating the broad applicability of the method. Since surface pressure information is more straightforward to measure in realistic scenarios than flow velocity information, this study provides a valuable reference for experimentally designing the active flow control of a circular cylinder based on wall pressure signals, which is an essential step toward further developing intelligent control in realistic multi-input multi-output (MIMO) system.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-01
# 注意グラフによる地域表現学習

Attentive Graph Enhanced Region Representation Learning ( http://arxiv.org/abs/2307.03212v3 )

ライセンス: Link先を確認
Weiliang Chen, Qianqian Ren, Jinbao Li, (参考訳) 都市部を正確にかつ包括的に表現することは,様々な都市計画・分析業務に不可欠である。 近年,都市の拡大に伴い,複数のデータソースによる長距離空間依存のモデル化が都市域の表現において重要な役割を担っている。 本稿では,複数のグラフから包括的依存関係を抽出し,都市部のリッチな意味表現を学習することを目的とした,Attentive Graph Enhanced Region Representation Learning (ATGRL)モデルを提案する。 具体的には、移動フローパターン、関心点(POI)関数、ノイズフィルタリングによるチェックインセマンティクスを取り入れたグラフ強化学習モジュールを提案する。 次に,複数のグラフから情報を統合することで,地域間の局所的およびグローバルな空間的依存関係を捕捉する多グラフ集約モジュールを提案する。 さらに,異なるビュー間の情報共有を容易にする二段階融合モジュールを設計し,改善された線形アテンション機構を用いて都市域埋め込みのための多視点表現を効率的に融合する。 最後に、3つの下流タスクのための実世界のデータセットに関する広範な実験は、最先端の手法と比較して、我々のモデルの優れた性能を示している。

Representing urban regions accurately and comprehensively is essential for various urban planning and analysis tasks. Recently, with the expansion of the city, modeling long-range spatial dependencies with multiple data sources plays an important role in urban region representation. In this paper, we propose the Attentive Graph Enhanced Region Representation Learning (ATGRL) model, which aims to capture comprehensive dependencies from multiple graphs and learn rich semantic representations of urban regions. Specifically, we propose a graph-enhanced learning module to construct regional graphs by incorporating mobility flow patterns, point of interests (POIs) functions, and check-in semantics with noise filtering. Then, we present a multi-graph aggregation module to capture both local and global spatial dependencies between regions by integrating information from multiple graphs. In addition, we design a dual-stage fusion module to facilitate information sharing between different views and efficiently fuse multi-view representations for urban region embedding using an improved linear attention mechanism. Finally, extensive experiments on real-world datasets for three downstream tasks demonstrate the superior performance of our model compared to state-of-the-art methods.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-01
# GPT4RoI: 関心領域に基づく大規模言語モデルの学習

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest ( http://arxiv.org/abs/2307.03601v3 )

ライセンス: Link先を確認
Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Yu Liu, Kai Chen, Ping Luo, (参考訳) 画像とテキストのペアにおける大規模言語モデル(LLM)の視覚的チューニングは、汎用的な視覚言語能力を実現している。 しかし、領域文対の欠如は、その進歩を細かなマルチモーダル理解に制限する。 本稿では,この命令における関心領域(RoI)を参照する空間的命令チューニングを提案する。 LLMに送信する前に、参照はRoI機能に置き換えられ、シーケンスとして言語埋め込みとインターリーブされる。 我々のモデルであるGPT4RoIは、7つの領域テキストペアデータセットに基づいて訓練されており、従来の画像レベルモデルと比較して、前例のない対話的かつ会話的な体験をもたらす。 1) 言語以外のインタラクション: ユーザーは言語とバウンディングボックスの両方でモデルと対話し、参照粒度を柔軟に調整できる。 2) 多様なマルチモーダル能力:各RoI内の属性情報を GPT4RoI, eg, 色, 形状, 材料, 作用等によりマイニングすることができる。 さらに、常識に基づいて複数のRoIを推論することができる。 Visual Commonsense Reasoning(VCR)データセットでは、GPT4RoIは81.6%の精度を達成し、既存のモデル全てを大きく上回っている(第2位は75.6%)。 コード、データセット、デモはhttps://github.com/jshilong/GPT4RoIで見ることができる。

Visual instruction tuning large language model(LLM) on image-text pairs has achieved general-purpose vision-language abilities. However, the lack of region-text pairs limits their advancements to fine-grained multimodal understanding. In this paper, we propose spatial instruction tuning, which introduces the reference to the region-of-interest(RoI) in the instruction. Before sending to LLM, the reference is replaced by RoI features and interleaved with language embeddings as a sequence. Our model GPT4RoI, trained on 7 region-text pair datasets, brings an unprecedented interactive and conversational experience compared to previous image-level models. (1) Interaction beyond language: Users can interact with our model by both language and drawing bounding boxes to flexibly adjust the referring granularity. (2) Versatile multimodal abilities: A variety of attribute information within each RoI can be mined by GPT4RoI, e.g., color, shape, material, action, etc. Furthermore, it can reason about multiple RoIs based on common sense. On the Visual Commonsense Reasoning(VCR) dataset, GPT4RoI achieves a remarkable accuracy of 81.6%, surpassing all existing models by a significant margin (the second place is 75.6%) and almost reaching human-level performance of 85.0%. The code, dataset, and demo can be found at https://github.com/jshilong/GPT4RoI.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-01
# 表面加工型オートエンコーダを用いた脳波の時空間符号化

Spatio-Temporal Encoding of Brain Dynamics with Surface Masked Autoencoders ( http://arxiv.org/abs/2308.05474v2 )

ライセンス: Link先を確認
Simon Dahan, Logan Z. J. Williams, Yourong Guo, Daniel Rueckert, Emma C. Robinson, (参考訳) 人間の脳活動の時空間的ダイナミクスを符号化する堅牢で一般的なモデルの開発は、神経科学的な発見を進める上で不可欠である。 しかし、ヒト大脳皮質の組織における顕著な個体差は、これらのシグナルの集団レベルの傾向を特定するのを困難にしている。 最近、Surface Vision Transformer (SiTs) は皮質信号のモデリングに有望なアプローチとして登場したが、アーキテクチャに帰納バイアスがないため、低データシナリオではいくつかの制限に直面している。 これらの課題に対処するため,本研究では,正中性格子上での皮質信号の多変量および時空間事前学習のための表面Masked AutoEncoder (sMAE) とビデオ表面Masked AutoEncoder (vsMAE) を提案する。 これらのモデルは、皮質構造と関数の強い潜在表現を学習することにより、入力のマスクされたバージョンから皮質特徴写像を再構築するように訓練されている。 このような表現は、個々の表現型のより良いモデリングに変換され、下流タスクのパフォーマンスが向上する。 提案手法は, 若年成人Human Connectome Project(HCP)とHCP(dHCP)の開発データを用いて, 皮質表現型回帰の評価を行った。 その結果、(v)sMAE事前学習モデルでは、複数のタスクにおける表現型予測性能が$\ge 26\%$で向上し、スクラッチからトレーニングしたモデルと比較してより高速に収束することが示された。 最後に、英国バイオバンク(UKB)のような大規模データセット上の事前学習型ビジョントランスフォーマーが、低データレギュレーションへのトランスファー学習をサポートすることを示す。 私たちのコードと事前訓練されたモデルは、https://github.com/metrics-lab/ surface-masked-autoencodersで公開されています。

The development of robust and generalisable models for encoding the spatio-temporal dynamics of human brain activity is crucial for advancing neuroscientific discoveries. However, significant individual variation in the organisation of the human cerebral cortex makes it difficult to identify population-level trends in these signals. Recently, Surface Vision Transformers (SiTs) have emerged as a promising approach for modelling cortical signals, yet they face some limitations in low-data scenarios due to the lack of inductive biases in their architecture. To address these challenges, this paper proposes the surface Masked AutoEncoder (sMAE) and video surface Masked AutoEncoder (vsMAE) - for multivariate and spatio-temporal pre-training of cortical signals over regular icosahedral grids. These models are trained to reconstruct cortical feature maps from masked versions of the input by learning strong latent representations of cortical structure and function. Such representations translate into better modelling of individual phenotypes and enhanced performance in downstream tasks. The proposed approach was evaluated on cortical phenotype regression using data from the young adult Human Connectome Project (HCP) and developing HCP (dHCP). Results show that (v)sMAE pre-trained models improve phenotyping prediction performance on multiple tasks by $\ge 26\%$, and offer faster convergence relative to models trained from scratch. Finally, we show that pre-training vision transformers on large datasets, such as the UK Biobank (UKB), supports transfer learning to low-data regimes. Our code and pre-trained models are publicly available at https://github.com/metrics-lab/surface-masked-autoencoders .
翻訳日:2024-06-04 21:10:26 公開日:2024-06-01
# LLM研究の要点:脚注は長い

Position: Key Claims in LLM Research Have a Long Tail of Footnotes ( http://arxiv.org/abs/2308.07120v2 )

ライセンス: Link先を確認
Anna Rogers, Alexandra Sasha Luccioni, (参考訳) MLコミュニティにおける最近の談話の多くは、Large Language Models (LLMs)、その機能と潜在能力を中心にしている。 LLMの定義に寄与し、それらの特性に関する5つの共通主張(創発的特性を含む)を批判的に検証し、今後の研究方向とフレーミングについて提案する。

Much of the recent discourse within the ML community has been centered around Large Language Models (LLMs), their functionality and potential -- yet not only do we not have a working definition of LLMs, but much of this discourse relies on claims and assumptions that are worth re-examining. We contribute a definition of LLMs, critically examine five common claims regarding their properties (including 'emergent properties'), and conclude with suggestions for future research directions and their framing.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-01
# SortedNet: モジュール型ディープニューラルネットワークをトレーニングするためのスケーラブルで汎用的なフレームワーク

SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks ( http://arxiv.org/abs/2309.00255v3 )

ライセンス: Link先を確認
Mojtaba Valipour, Mehdi Rezagholizadeh, Hossein Rajabzadeh, Parsa Kavehzadeh, Marzieh Tahaei, Boxing Chen, Ali Ghodsi, (参考訳) ディープニューラルネットワーク(DNN)は、さまざまなパフォーマンスニーズと予算を持つさまざまなユーザに対して、トレーニングや保存、多数のユーザ/タスク固有のモデルのメンテナンスといったコストを要する。 多くの個々のネットワークではなく、単一の動的モデルやマルチインワンモデルを扱うという文献的な解決策があるが、性能の大幅な低下、異なるモデルアーキテクチャや異なる次元(例えば、深さ、幅、注意ブロック)での一般化の欠如、訓練中の重いモデルの探索要件、限られた数のサブモデルの訓練に悩まされている。 これらの制限に対処するため、DNNの固有のモジュラリティを活用するために、一般化されたスケーラブルなトレーニングソリューションであるSortedNetを提案する。 SortedNetは、一般的なネスト型アーキテクチャ(この論文では \textit{sorted} アーキテクチャと呼ばれている)と、ランダムなサブモデルサンプリングと新しい勾配蓄積機構を組み合わせた新しい更新スキームのおかげで、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にし、動的モデルの選択を単純化し、推論中のデプロイメントをカスタマイズし、モデルストレージの要求を大幅に低減します。 SortedNetの汎用性とスケーラビリティは、LLaMA、BERT、RoBERTa(NLPタスク)、ResNet、MobileNet(画像分類)など、様々なアーキテクチャやタスクを通じて検証され、既存の動的トレーニングメソッドよりも優れていることが示されている。 例えば,大規模言語モデルの復号化を促進するために,ソート学習に基づく適応型自己投機的手法を提案する。 さらに、SortedNetは160のサブモデルを一度に訓練することができ、オリジナルのモデルの性能の少なくとも96%を達成することができる。

Deep neural networks (DNNs) must cater to a variety of users with different performance needs and budgets, leading to the costly practice of training, storing, and maintaining numerous user/task-specific models. There are solutions in the literature to deal with single dynamic or many-in-one models instead of many individual networks; however, they suffer from significant drops in performance, lack of generalization across different model architectures or different dimensions (e.g. depth, width, attention blocks), heavy model search requirements during training, and training a limited number of sub-models. To address these limitations, we propose SortedNet, a generalized and scalable training solution to harness the inherent modularity of DNNs. Thanks to a generalized nested architecture (which we refer as \textit{sorted} architecture in this paper) with shared parameters and its novel update scheme combining random sub-model sampling and a new gradient accumulation mechanism, SortedNet enables the training of sub-models simultaneously along with the training of the main model (without any significant extra training or inference overhead), simplifies dynamic model selection, customizes deployment during inference, and reduces the model storage requirement significantly. The versatility and scalability of SortedNet are validated through various architectures and tasks, including LLaMA, BERT, RoBERTa (NLP tasks), ResNet and MobileNet (image classification) demonstrating its superiority over existing dynamic training methods. For example, we introduce a novel adaptive self-speculative approach based on sorted-training to accelerate large language models decoding. Moreover, SortedNet is able to train 160 sub-models at once, achieving at least 96\% of the original model's performance.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-01
# 金融時系列予測におけるディープラーニングのデータのスケーリング効果

Data Scaling Effect of Deep Learning in Financial Time Series Forecasting ( http://arxiv.org/abs/2309.02072v5 )

ライセンス: Link先を確認
Chen Liu, Minh-Ngoc Tran, Chao Wang, Richard Gerlach, Robert Kohn, (参考訳) 長年にわたり、研究者は金融時系列の予測におけるディープラーニングの応用を調査してきた。 しかし、彼らは個々の資産の深層学習モデルを最適化するモデルトレーニングに従来の計量的アプローチを頼り続けた。 本研究は,深層学習モデルを多種多様な在庫に最適化するグローバルトレーニングの重要性を強調した。 株式市場のボラティリティ予測を例にとり、グローバルトレーニングが益となるだけでなく、深層学習に基づく金融時系列予測にも必要であることを示す。 さらに、十分なトレーニングデータがあれば、グローバルにトレーニングされたディープラーニングモデルは、あらゆる株に対して正確なゼロショット予測を提供することができることを実証する。

For years, researchers investigated the applications of deep learning in forecasting financial time series. However, they continued to rely on the conventional econometric approach for model training that optimizes the deep learning models on individual assets. This study highlights the importance of global training, where the deep learning model is optimized across a wide spectrum of stocks. Focusing on stock volatility forecasting as an exemplar, we show that global training is not only beneficial but also necessary for deep learning-based financial time series forecasting. We further demonstrate that, given a sufficient amount of training data, a globally trained deep learning model is capable of delivering accurate zero-shot forecasts for any stocks.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-01
# 最適な契約を学習する:小さなアクションスペースを爆発させる方法

Learning Optimal Contracts: How to Exploit Small Action Spaces ( http://arxiv.org/abs/2309.09801v3 )

ライセンス: Link先を確認
Francesco Bacchiocchi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, (参考訳) 契約と呼ばれる結果依存型支払いスキームに主目的がコミットする主目的問題について検討し、エージェントに費用がかかる、観察不能な行動を起こさせ、有利な結果をもたらすよう誘導する。 我々は、主成分が複数のラウンドの契約にコミットすることでエージェントと相互作用する問題の古典的(単ラウンド)バージョンの一般化を考える。 プリンシパルはエージェントに関する情報を持っておらず、各ラウンドで実現した結果のみを観察することで最適な契約を学ばなければなりません。 エージェントのアクション空間のサイズが小さい設定に焦点を当てる。 動作数が一定である場合, 結果空間の大きさの多数の円多項式において, 確率の高いほぼ最適契約を学習するアルゴリズムを設計する。 我々のアルゴリズムは Zhu et al [2022] によるオープンな問題を解く。 さらに、関連するオンライン学習環境に$\tilde{\mathcal{O}}(T^{4/5})$ regret boundを提供するためにも使用できる。

We study principal-agent problems in which a principal commits to an outcome-dependent payment scheme -- called contract -- in order to induce an agent to take a costly, unobservable action leading to favorable outcomes. We consider a generalization of the classical (single-round) version of the problem in which the principal interacts with the agent by committing to contracts over multiple rounds. The principal has no information about the agent, and they have to learn an optimal contract by only observing the outcome realized at each round. We focus on settings in which the size of the agent's action space is small. We design an algorithm that learns an approximately-optimal contract with high probability in a number of rounds polynomial in the size of the outcome space, when the number of actions is constant. Our algorithm solves an open problem by Zhu et al.[2022]. Moreover, it can also be employed to provide a $\tilde{\mathcal{O}}(T^{4/5})$ regret bound in the related online learning setting in which the principal aims at maximizing their cumulative utility, thus considerably improving previously-known regret bounds.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-01
# ファウンデーションモデルによる長期学習 - ヘビーファインチューニングハート

Long-Tail Learning with Foundation Model: Heavy Fine-Tuning Hurts ( http://arxiv.org/abs/2309.10019v3 )

ライセンス: Link先を確認
Jiang-Xin Shi, Tong Wei, Zhi Zhou, Jie-Jing Shao, Xin-Yan Han, Yu-Feng Li, (参考訳) ロングテール学習タスクに対処する微調整パラダイムは、基礎モデルの出現以来、大きな関心を集めている。 それでも、ロングテール学習における微調整がパフォーマンスに与える影響は、明確に定量化されなかった。 本稿では,重度微調整がテールクラスの非無視性能劣化を引き起こす可能性があり,軽量微調整の方が有効であることを示す。 原因は、重度の微調整によって引き起こされる不整合クラス条件による。 以上の結果から,適応型軽量微調整による高速予測とコンパクトモデルの実現を目的とした,低複雑さかつ高精度な長尾学習アルゴリズムLIFTを開発した。 実験により、トレーニング時間と学習パラメータの両方が、最先端のアプローチと比較して、より正確な予測性能で大幅に削減されることを確認した。 実装コードはhttps://github.com/shijxcs/LIFT.comで公開されている。

The fine-tuning paradigm in addressing long-tail learning tasks has sparked significant interest since the emergence of foundation models. Nonetheless, how fine-tuning impacts performance in long-tail learning was not explicitly quantified. In this paper, we disclose that heavy fine-tuning may even lead to non-negligible performance deterioration on tail classes, and lightweight fine-tuning is more effective. The reason is attributed to inconsistent class conditions caused by heavy fine-tuning. With the observation above, we develop a low-complexity and accurate long-tail learning algorithms LIFT with the goal of facilitating fast prediction and compact models by adaptive lightweight fine-tuning. Experiments clearly verify that both the training time and the learned parameters are significantly reduced with more accurate predictive performance compared with state-of-the-art approaches. The implementation code is available at https://github.com/shijxcs/LIFT.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-01
# PAGER: 深部回帰モデルの故障解析のためのフレームワーク

PAGER: A Framework for Failure Analysis of Deep Regression Models ( http://arxiv.org/abs/2309.10977v2 )

ライセンス: Link先を確認
Jayaraman J. Thiagarajan, Vivek Narayanaswamy, Puja Trivedi, Rushil Anirudh, (参考訳) AIモデルの安全なデプロイには、コストのかかるエラーを防止するために、障害を積極的に検出する必要がある。 そこで本研究では, 深部回帰モデルにおける故障検出の問題点について検討する。 既存のアプローチは、失敗を特定するためのトレーニングデータと一致しないという認識の不確実性の推定に頼っている。 興味深いことに、不確実性は必要だが、実際に失敗を正確に特徴づけるには不十分である。 そこで,我々はPAGER (Principled Analysis of Generalization Errors in Regressors)を紹介した。 深層モデルにおけるアンカードトレーニングの原理に基づいて、PAGERは、エピステマ性不確実性と相補的多様体の非整合スコアを統一し、サンプルを異なるリスクレジームに正確に整理する。

Safe deployment of AI models requires proactive detection of failures to prevent costly errors. To this end, we study the important problem of detecting failures in deep regression models. Existing approaches rely on epistemic uncertainty estimates or inconsistency w.r.t the training data to identify failure. Interestingly, we find that while uncertainties are necessary they are insufficient to accurately characterize failure in practice. Hence, we introduce PAGER (Principled Analysis of Generalization Errors in Regressors), a framework to systematically detect and characterize failures in deep regressors. Built upon the principle of anchored training in deep models, PAGER unifies both epistemic uncertainty and complementary manifold non-conformity scores to accurately organize samples into different risk regimes.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-01
# データから数式表現を探索するニューラルネットワークによる動的記号ネットワーク

A Neural-Guided Dynamic Symbolic Network for Exploring Mathematical Expressions from Data ( http://arxiv.org/abs/2309.13705v2 )

ライセンス: Link先を確認
Wenqiang Li, Weijun Li, Lina Yu, Min Wu, Linjun Sun, Jingyi Liu, Yanjie Li, Shu Wei, Yusong Deng, Meilan Hao, (参考訳) 記号回帰(SR)は観測データから基礎となる数学的表現を発見するための強力な手法である。 深層学習の成功に触発されて、近年の深部生成SR法は有望な結果を示している。 しかし,これらの手法は,探索空間が大きいため,高次元問題や学習定数の処理が困難であり,目に見えない問題に対して十分にスケールできない。 本研究では,SRのためのニューラル誘導型動的記号ネットワークDySymNetを提案する。 大規模な検索空間内で表現を探す代わりに、強化学習によって導かれる様々な構造を持つ記号ネットワークを探索し、データに適した表現を特定するよう最適化する。 低次元の標準ベンチマークに関する広範な数値実験と、より多くの変数を持つよく知られたSRBenchに基づいて、DySymNetはいくつかの代表的ベースラインモデルよりも明確な優位性を示している。 ソースコードはhttps://github.com/AILWQ/DySymNetで入手できる。

Symbolic regression (SR) is a powerful technique for discovering the underlying mathematical expressions from observed data. Inspired by the success of deep learning, recent deep generative SR methods have shown promising results. However, these methods face difficulties in processing high-dimensional problems and learning constants due to the large search space, and they don't scale well to unseen problems. In this work, we propose DySymNet, a novel neural-guided Dynamic Symbolic Network for SR. Instead of searching for expressions within a large search space, we explore symbolic networks with various structures, guided by reinforcement learning, and optimize them to identify expressions that better-fitting the data. Based on extensive numerical experiments on low-dimensional public standard benchmarks and the well-known SRBench with more variables, DySymNet shows clear superiority over several representative baseline models. Open source code is available at https://github.com/AILWQ/DySymNet.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-01
# リーマン変分不等式問題に対する漸進型法

Extragradient Type Methods for Riemannian Variational Inequality Problems ( http://arxiv.org/abs/2309.14155v2 )

ライセンス: Link先を確認
Zihao Hu, Guanghui Wang, Xi Wang, Andre Wibisono, Jacob Abernethy, Molei Tao, (参考訳) リーマン凸最適化とミニマックス最適化は近年注目されている。 彼らの魅力は、目的関数の非凸性とユークリッドの意味で実現可能な集合に固有の制約を十分に管理する能力にある。 本研究では, 単調なリーマン変分不等式問題 (RVIP) を探索し, リーマン凸最適化とミニマックス最適化の両方を対象とする。 ユークリッド空間の文脈では、過次(EG)法と過去の過次(PEG)法の両方の最終定式式は、O\left(\frac{1}{\sqrt{T}}\right)$ (Cai et al , 2022) の速度で単調変分不等式問題の解に収束する。 しかし、リーマン多様体上の類似の挙動は未解決の問題である。 このギャップを埋めるために、リーマン・エクストラグラディエント(REG)法とリーマン・パス・エクストラグラディエント(RPEG)法を導入する。 どちらも$O\left(\frac{1}{\sqrt{T}}\right)$ last-iterate convergenceを示す。 さらに、REG と RPEG の双方の平均定位収束は$O\left(\frac{1}{{T}}\right)$であり、ユークリッドの場合の観測と一致している(Mokhtari et al , 2020)。 これらの結果は、リーマン事件における追加の合併症を減らすためにホロノミー効果を司法的に解決し、性能推定問題(PEP)法や2乗法(SOS)法にインスパイアされたユークリッド証明を再び適用することができる。

Riemannian convex optimization and minimax optimization have recently drawn considerable attention. Their appeal lies in their capacity to adeptly manage the non-convexity of the objective function as well as constraints inherent in the feasible set in the Euclidean sense. In this work, we delve into monotone Riemannian Variational Inequality Problems (RVIPs), which encompass both Riemannian convex optimization and minimax optimization as particular cases. In the context of Euclidean space, it is established that the last-iterates of both the extragradient (EG) and past extragradient (PEG) methods converge to the solution of monotone variational inequality problems at a rate of $O\left(\frac{1}{\sqrt{T}}\right)$ (Cai et al., 2022). However, analogous behavior on Riemannian manifolds remains an open question. To bridge this gap, we introduce the Riemannian extragradient (REG) and Riemannian past extragradient (RPEG) methods. We demonstrate that both exhibit $O\left(\frac{1}{\sqrt{T}}\right)$ last-iterate convergence. Additionally, we show that the average-iterate convergence of both REG and RPEG is $O\left(\frac{1}{{T}}\right)$, aligning with observations in the Euclidean case (Mokhtari et al., 2020). These results are enabled by judiciously addressing the holonomy effect so that additional complications in Riemannian cases can be reduced and the Euclidean proof inspired by the performance estimation problem (PEP) technique or the sum-of-squares (SOS) technique can be applied again.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-01
# 対称性は学習の構造と制約を誘導する

Symmetry Induces Structure and Constraint of Learning ( http://arxiv.org/abs/2309.16932v2 )

ライセンス: Link先を確認
Liu Ziyin, (参考訳) 一般的なアーキテクチャ設計のため、現代のニューラルネットワークでは対称性が広く存在する。 本研究では,機械学習モデルの学習行動に影響を及ぼすような損失関数対称性の重要性を明らかにする。 損失関数における反射面$O$のミラー反射対称性は、モデルパラメータ$\theta$:$O^T\theta =0$の制約の出現につながることを証明している。 この拘束解は、重み減衰または勾配雑音が大きいときに満たされる。 ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。 直交系として、再スケーリング対称性はスパーシティ、回転対称性は低いランク性、置換対称性は均質なアンサンブルをもたらすことを示す。 そこで, ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示すとともに, 厳密なアルゴリズムを設計し, 厳密な制約を異なる方法で適用する方法を提案する。

Due to common architecture designs, symmetries exist extensively in contemporary neural networks. In this work, we unveil the importance of the loss function symmetries in affecting, if not deciding, the learning behavior of machine learning models. We prove that every mirror-reflection symmetry, with reflection surface $O$, in the loss function leads to the emergence of a constraint on the model parameters $\theta$: $O^T\theta =0$. This constrained solution becomes satisfied when either the weight decay or gradient noise is large. Common instances of mirror symmetries in deep learning include rescaling, rotation, and permutation symmetry. As direct corollaries, we show that rescaling symmetry leads to sparsity, rotation symmetry leads to low rankness, and permutation symmetry leads to homogeneous ensembling. Then, we show that the theoretical framework can explain intriguing phenomena, such as the loss of plasticity and various collapse phenomena in neural networks, and suggest how symmetries can be used to design an elegant algorithm to enforce hard constraints in a differentiable way.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-01
# 内因性生物学的にプラウザブルな対人ロバスト性

Intrinsic Biologically Plausible Adversarial Robustness ( http://arxiv.org/abs/2309.17348v5 )

ライセンス: Link先を確認
Matilde Tristany Farinha, Thomas Ortner, Giorgia Dellaferrera, Benjamin Grewe, Angeliki Pantazi, (参考訳) バックプロパゲーション(BP)でトレーニングされた人工ニューラルネットワーク(ANN)は、さまざまな日常的なタスクをエクササイズするが、危険な脆弱性がある。 トレーニングデータセットを模範的な逆数サンプルで拡張する手法である逆数トレーニングは、この問題を軽減するために証明されているが、高い計算コストが伴う。 ANNとは対照的に、人間は同じ敵のサンプルを誤分類することは許されない。 したがって、生物学的に証明可能な訓練されたANNは敵の攻撃に対してより堅牢である可能性があると仮定できる。 本研究は,PEPITA(Inject the Error to Perturb the Input To modulate Activity)をケーススタディとして選択し,様々なコンピュータビジョンタスクにおけるBP学習ANNとの比較分析により検討した。 PEPITAは内向的対向性が高く、対向的に訓練された場合には、より好ましい自然対向的パフォーマンストレードオフを持つ。 特に、MNISTタスク上の同じ自然検定の場合、PEPITAの逆検定は平均0.26%しか減少せず、BPは8.05%減少している。

Artificial Neural Networks (ANNs) trained with Backpropagation (BP) excel in different daily tasks but have a dangerous vulnerability: inputs with small targeted perturbations, also known as adversarial samples, can drastically disrupt their performance. Adversarial training, a technique in which the training dataset is augmented with exemplary adversarial samples, is proven to mitigate this problem but comes at a high computational cost. In contrast to ANNs, humans are not susceptible to misclassifying these same adversarial samples. Thus, one can postulate that biologically-plausible trained ANNs might be more robust against adversarial attacks. In this work, we chose the biologically-plausible learning algorithm Present the Error to Perturb the Input To modulate Activity (PEPITA) as a case study and investigated this question through a comparative analysis with BP-trained ANNs on various computer vision tasks. We observe that PEPITA has a higher intrinsic adversarial robustness and, when adversarially trained, also has a more favorable natural-vs-adversarial performance trade-off. In particular, for the same natural accuracies on the MNIST task, PEPITA's adversarial accuracies decrease on average only by 0.26% while BP's decrease by 8.05%.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-01
# 緩和群畳み込みによる物理系における対称性の破れの発見

Discovering Symmetry Breaking in Physical Systems with Relaxed Group Convolution ( http://arxiv.org/abs/2310.02299v7 )

ライセンス: Link先を確認
Rui Wang, Elyssa Hofgard, Han Gao, Robin Walters, Tess E. Smidt, (参考訳) 対称性の破れをモデル化することは、微視的な粒子相互作用から流体力学や宇宙構造のようなマクロな現象まで、物理系の挙動や性質の基本的な変化を理解するために不可欠である。 したがって、非対称性の源を特定することは物理系を理解するための重要なツールである。 本稿では、緩和されたグループ畳み込みを用いたデータの非対称性の学習に焦点を当てる。 このフレキシブルな畳み込み法は、データと整合した最も高いレベルの同値性を維持し、様々な物理系の微妙な対称性を破る要因を発見できるという理論的および実証的な証拠を提供する。 結晶構造の相転移,乱流の等方性と均質性破壊,振り子系の時間反転対称性破壊など,様々な物理系において解釈可能かつ物理的に意味のある様々な対称性破壊因子を明らかにするために,緩和群畳み込み構造を用いる。

Modeling symmetry breaking is essential for understanding the fundamental changes in the behaviors and properties of physical systems, from microscopic particle interactions to macroscopic phenomena like fluid dynamics and cosmic structures. Thus, identifying sources of asymmetry is an important tool for understanding physical systems. In this paper, we focus on learning asymmetries of data using relaxed group convolutions. We provide both theoretical and empirical evidence that this flexible convolution technique allows the model to maintain the highest level of equivariance that is consistent with data and discover the subtle symmetry-breaking factors in various physical systems. We employ various relaxed group convolution architectures to uncover various symmetry-breaking factors that are interpretable and physically meaningful in different physical systems, including the phase transition of crystal structure, the isotropy and homogeneity breaking in turbulent flow, and the time-reversal symmetry breaking in pendulum systems.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-01
# 神経拡散モデル

Neural Diffusion Models ( http://arxiv.org/abs/2310.08337v3 )

ライセンス: Link先を確認
Grigory Bartosh, Dmitry Vetrov, Christian A. Naesseth, (参考訳) 拡散モデルは多くの生成タスクにおいて顕著な性能を示した。 最近の成功にもかかわらず、ほとんどの拡散モデルは、データ分布の線形変換しか許さないという点で制限されている。 対照的に、より広範な変換の族は、生成分布の訓練をより効率的にし、逆過程を単純化し、真の負の対数類似度と変分近似の間のギャップを閉じる可能性がある。 本稿では,時間に依存しないデータの非線形変換の定義と学習を可能にする従来の拡散モデルの一般化であるニューラル拡散モデル(NDM)を提案する。 シミュレーション不要な環境で変動境界を用いてNDMを最適化する方法を示す。 さらに,NDMの時間連続的な定式化を導出し,既製の数値ODEとSDEソルバを用いた高速かつ信頼性の高い推論を可能にする。 最後に,CIFAR-10 などの標準画像生成ベンチマーク,ImageNet と CelebA-HQ のダウンサンプル版など,学習可能な変換による NDM の有用性を実証する。 NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。

Diffusion models have shown remarkable performance on many generative tasks. Despite recent success, most diffusion models are restricted in that they only allow linear transformation of the data distribution. In contrast, broader family of transformations can potentially help train generative distributions more efficiently, simplifying the reverse process and closing the gap between the true negative log-likelihood and the variational approximation. In this paper, we present Neural Diffusion Models (NDMs), a generalization of conventional diffusion models that enables defining and learning time-dependent non-linear transformations of data. We show how to optimise NDMs using a variational bound in a simulation-free setting. Moreover, we derive a time-continuous formulation of NDMs, which allows fast and reliable inference using off-the-shelf numerical ODE and SDE solvers. Finally, we demonstrate the utility of NDMs with learnable transformations through experiments on standard image generation benchmarks, including CIFAR-10, downsampled versions of ImageNet and CelebA-HQ. NDMs outperform conventional diffusion models in terms of likelihood and produce high-quality samples.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-01
# プロンプトインジェクション攻撃と防御の形式化とベンチマーク

Formalizing and Benchmarking Prompt Injection Attacks and Defenses ( http://arxiv.org/abs/2310.12815v3 )

ライセンス: Link先を確認
Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong, (参考訳) プロンプトインジェクション攻撃は、悪意のあるインストラクション/データを LLM-Integrated Application の入力に注入することを目的としており、攻撃者の欲求として結果を生成する。 現存する作品はケーススタディに限られている。 その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。 私たちはこの仕事のギャップを埋めることを目指しています。 特に,プロンプトインジェクション攻撃を形式化するフレームワークを提案する。 既存の攻撃は私たちのフレームワークで特別なケースです。 さらに,我々のフレームワークをベースとして,既存の攻撃と組み合わせて新たな攻撃を設計する。 筆者らは,本フレームワークを用いて,5つのインジェクション攻撃と10個のLDMと7つのタスクからなる10個のディフェンスに対して,系統的評価を行った。 我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。 このトピックについての研究を容易にするため、私たちはhttps://github.com/liu00222/Open-Prompt-Injection.comでプラットフォームを公開しています。

A prompt injection attack aims to inject malicious instruction/data into the input of an LLM-Integrated Application such that it produces results as an attacker desires. Existing works are limited to case studies. As a result, the literature lacks a systematic understanding of prompt injection attacks and their defenses. We aim to bridge the gap in this work. In particular, we propose a framework to formalize prompt injection attacks. Existing attacks are special cases in our framework. Moreover, based on our framework, we design a new attack by combining existing ones. Using our framework, we conduct a systematic evaluation on 5 prompt injection attacks and 10 defenses with 10 LLMs and 7 tasks. Our work provides a common benchmark for quantitatively evaluating future prompt injection attacks and defenses. To facilitate research on this topic, we make our platform public at https://github.com/liu00222/Open-Prompt-Injection.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-01
# ゾーン評価:物体検出における空間バイアスの探索

Zone Evaluation: Revealing Spatial Bias in Object Detection ( http://arxiv.org/abs/2310.13215v2 )

ライセンス: Link先を確認
Zhaohui Zheng, Yuming Chen, Qibin Hou, Xiang Li, Ping Wang, Ming-Ming Cheng, (参考訳) 物体検出器の基本的な制限は、それらは「空間バイアス」に悩まされており、特に画像境界付近の物体を検出する場合、満足度が低いことである。 長い間、空間的偏見を計測し識別するための効果的な方法が欠如しており、それがどこから来たのか、その程度についてはほとんど分かっていない。 この目的のために,従来の評価からより一般化した評価へ拡張し,ゾーン上の検出性能を測定し,一連のゾーン精度(ZPs)を出力するゾーン評価プロトコルを提案する。 初めて数値的な結果が得られ、対象検出器はゾーンにわたって非常に不均一に機能することを示した。 驚くべきことに、画像の96%境界領域における検出器の性能はAP値に達しない(平均精度は画像領域全体の平均検出性能と見なされる)。 空間バイアスをよりよく理解するために、一連のヒューリスティックな実験が行われた。 本研究は,物体の大きさと物体の絶対位置が空間バイアスにほとんど影響を与えないという,空間バイアスに関する直感的な2つの予想を除外した。 鍵となるのは、異なるゾーンのオブジェクト間のデータパターンの人間の知覚できないばらつきにある。 これらの結果から,画像領域全体にわたってバランスの取れた検出能力を追求することを目的とした,空間不均衡問題(空間不均衡問題)の今後の方向を論じることができた。 10個の人気物体検出器と5個の検出データセットを広く評価することにより、物体検出器の空間バイアスに光を当てた。 この取り組みが、ロバスト性の検出に焦点を合わせることを願っている。 ソースコード、評価プロトコル、チュートリアルはhttps://github.com/Zzh-tju/ZoneEval.comで公開されている。

A fundamental limitation of object detectors is that they suffer from "spatial bias", and in particular perform less satisfactorily when detecting objects near image borders. For a long time, there has been a lack of effective ways to measure and identify spatial bias, and little is known about where it comes from and what degree it is. To this end, we present a new zone evaluation protocol, extending from the traditional evaluation to a more generalized one, which measures the detection performance over zones, yielding a series of Zone Precisions (ZPs). For the first time, we provide numerical results, showing that the object detectors perform quite unevenly across the zones. Surprisingly, the detector's performance in the 96% border zone of the image does not reach the AP value (Average Precision, commonly regarded as the average detection performance in the entire image zone). To better understand spatial bias, a series of heuristic experiments are conducted. Our investigation excludes two intuitive conjectures about spatial bias that the object scale and the absolute positions of objects barely influence the spatial bias. We find that the key lies in the human-imperceptible divergence in data patterns between objects in different zones, thus eventually forming a visible performance gap between the zones. With these findings, we finally discuss a future direction for object detection, namely, spatial disequilibrium problem, aiming at pursuing a balanced detection ability over the entire image zone. By broadly evaluating 10 popular object detectors and 5 detection datasets, we shed light on the spatial bias of object detectors. We hope this work could raise a focus on detection robustness. The source codes, evaluation protocols, and tutorials are publicly available at https://github.com/Zzh-tju/ZoneEval.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-01
# 量子スピン系におけるブートストラップ絡み

Bootstrapping entanglement in quantum spin systems ( http://arxiv.org/abs/2310.16503v2 )

ライセンス: Link先を確認
Jiaju Zhang, Arash Jafarizadeh, M. A. Rajabpour, (参考訳) 本稿では,直接対角化ではなく整合性に依存するブートストラップ法を用いて,量子多体系における期待値を決定する。 次に、これらの値を用いて、システムの絡み合う内容を評価する。 我々の研究は、単体または小体のシステムではなく、量子多体システムへのブートストラップアプローチを拡張し、横磁場と縦磁場の両方を持つよく知られたリプキン・メシュコフ・グリック(LMG)モデルに集中している。 ブートストラップ法では最大16のサイトを持つLMGモデルを解く。 主に基底状態の性質に焦点を当てた従来の研究とは異なり、我々の方法論は、これらの状態の明示的な波動関数を参照することなく、すべての固有状態または固有状態の特定のセクターに対して、エネルギースペクトル、角運動量、コンカレンス、タングル、残留タングル、および量子フィッシャー情報(QFI)を含む幅広い特性の計算を可能にする。 このアプローチは、新しい計算方法論を提供するだけでなく、固有状態のスペクトル全体にわたって、二分法と多分法の両方の絡み合い特性の包括的ビューを提供する。 具体的には、スペクトルの中心領域で典型的に見られる状態は、スペクトルの端にある状態に比べて、より大きいQFI値によって示されるような、より大きな多部構造の絡み合いを示すことを示す。 対照的に、並行性は逆の傾向を示す。 この観察行動は、量子絡み合いを司る一夫一婦制の原理と一致している。

In this paper, we employ the bootstrap method, a technique that relies on consistency relations instead of direct diagonalization, to determine the expectation values in quantum many-body systems. We then use these values to assess the entanglement content of the system. Our work extends the bootstrap approach to quantum many-body systems, rather than single-body or few-body systems, concentrating on the well-known Lipkin-Meshkov-Glick (LMG) model with both transverse and longitudinal external magnetic fields. In the bootstrap method we solve the LMG model with up to 16 sites. Unlike previous studies that have focused mainly on ground-state properties, our methodology allows for the calculation of a broad range of properties, including energy spectrum, angular momentum, concurrence, tangle, residual tangle, and quantum Fisher information (QFI), for all eigenstates or a particular sector of the eigenstates, without referring to the explicit wavefunctions of these states. We show that this approach offers not only a new computational methodology but also a comprehensive view of both bipartite and multipartite entanglement properties across the entire spectrum of eigenstates. Specifically, we demonstrate that states typically found in the central region of the spectrum exhibit greater multipartite entanglement, as indicated by larger QFI values, compared to states at the edges of the spectrum. In contrast, concurrence displays the opposite trend. This observed behavior is in line with the monogamy principle governing quantum entanglement.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-01
# PSP: グラフニューラルネットワークのための事前トレーニングと構造プロンプトチューニング

PSP: Pre-Training and Structure Prompt Tuning for Graph Neural Networks ( http://arxiv.org/abs/2310.17394v2 )

ライセンス: Link先を確認
Qingqing Ge, Zeyuan Zhao, Yiding Liu, Anfeng Cheng, Xiang Li, Shuaiqiang Wang, Dawei Yin, (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータのセマンティクスを学習する上で強力である。 近年,新しいパラダイムであるpre-train and promptは,教師付きデータが少ない様々なタスクにGNNを適用するという有望な結果を示している。 このようなパラダイムの成功は、事前学習とタスク指向のプロンプトチューニングのより一貫した目的に起因し得る。 既存のほとんどのメソッドは、クラスプロトタイプベクターフレームワークに基づいている。 しかし、ラベル付きデータが少ない数ショットのシナリオでは、クラスプロトタイプベクターを正確に構築したり、学習することは困難である。 一方、グラフの構造情報はノード表現を学習するための事前学習中に通常活用されるが、より正確なプロトタイプベクトルを学習するための迅速なチューニング段階では無視される。 さらに、一般に、ノード表現に対する異種近傍の影響を無視し、異種グラフには適さない。 これらのギャップを埋めるために、我々はGNNのための新しい事前学習および構造的プロンプトチューニングフレームワーク、すなわちPSPを提案する。 特にPSP 1) ノード属性とグラフ構造の潜在意味空間を整列させるために, 二重視点のコントラスト学習を用いる。 2) プロンプトグラフに構造情報を組み込んで、より正確なプロトタイプベクトルを構築し、プロンプトチューニングにおいてより訓練済みの知識を引き出す。 PSPの有効性を評価するために,ノード分類とグラフ分類タスクについて広範な実験を行った。 PSPは、ホモフィルグラフとヘテロフィルグラフの両方において、数ショットのシナリオにおいて優れた性能を示す。 実装されたコードはhttps://github.com/gqq1210/PSPで入手できる。

Graph Neural Networks (GNNs) are powerful in learning semantics of graph data. Recently, a new paradigm "pre-train and prompt" has shown promising results in adapting GNNs to various tasks with less supervised data. The success of such paradigm can be attributed to the more consistent objectives of pre-training and task-oriented prompt tuning, where the pre-trained knowledge can be effectively transferred to downstream tasks. Most existing methods are based on the class prototype vector framework. However, in the few-shot scenarios, given few labeled data, class prototype vectors are difficult to be accurately constructed or learned. Meanwhile, the structure information of graph is usually exploited during pre-training for learning node representations, while neglected in the prompt tuning stage for learning more accurate prototype vectors. In addition, they generally ignore the impact of heterophilous neighborhoods on node representation and are not suitable for heterophilous graphs. To bridge these gaps, we propose a novel pre-training and structure prompt tuning framework for GNNs, namely PSP, which consistently exploits structure information in both pre-training and prompt tuning stages. In particular, PSP 1) employs a dual-view contrastive learning to align the latent semantic spaces of node attributes and graph structure, and 2) incorporates structure information in prompted graph to construct more accurate prototype vectors and elicit more pre-trained knowledge in prompt tuning. We conduct extensive experiments on node classification and graph classification tasks to evaluate the effectiveness of PSP. We show that PSP can lead to superior performance in few-shot scenarios on both homophilous and heterophilous graphs. The implemented code is available at https://github.com/gqq1210/PSP.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-01
# パーティショニングによる地域発見:露光とアウトカムのペア周辺のポリノミアル時間因果発見

Local Discovery by Partitioning: Polynomial-Time Causal Discovery Around Exposure-Outcome Pairs ( http://arxiv.org/abs/2310.17816v3 )

ライセンス: Link先を確認
Jacqueline Maasch, Weishen Pan, Shantanu Gupta, Volodymyr Kuleshov, Kyra Gan, Fei Wang, (参考訳) 因果発見は、不偏効果推定のための有効な調整セット(VAS)の同定を可能にするため、観察研究において因果推論に不可欠である。 しかし、地球規模の因果発見は非パラメトリックな環境では難しいことで知られており、最悪の場合指数時間とサンプルの複雑さがある。 そこで本研究では,パラメトリックおよび前処理の仮定を必要とせず,下流推論タスクに適した局所因果探索法(LDP)を提案する。 LDPは制約ベースのプロシージャで、十分な条件が与えられた場合、潜伏条件下で露光出力ペアのVASを返す。 実行された独立テストの総数は、変数集合の濃度に関して最悪の2次数である。 漸近理論的保証は合成グラフ上で数値的に検証される。 LDPの調整セットは、ベースライン発見アルゴリズムよりもバイアスが少なく、より正確な平均治療効果の推定値が得られる。 特に、LLPはベンチマークのベースラインよりも少なくとも1300倍速く動作した。

Causal discovery is crucial for causal inference in observational studies, as it can enable the identification of valid adjustment sets (VAS) for unbiased effect estimation. However, global causal discovery is notoriously hard in the nonparametric setting, with exponential time and sample complexity in the worst case. To address this, we propose local discovery by partitioning (LDP): a local causal discovery method that is tailored for downstream inference tasks without requiring parametric and pretreatment assumptions. LDP is a constraint-based procedure that returns a VAS for an exposure-outcome pair under latent confounding, given sufficient conditions. The total number of independence tests performed is worst-case quadratic with respect to the cardinality of the variable set. Asymptotic theoretical guarantees are numerically validated on synthetic graphs. Adjustment sets from LDP yield less biased and more precise average treatment effect estimates than baseline discovery algorithms, with LDP outperforming on confounder recall, runtime, and test count for VAS discovery. Notably, LDP ran at least 1300x faster than baselines on a benchmark.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-01
# CeCNN: Copula-enhanced convolutional neural network in joint prediction offracion error and axial length based on Ultra-widefield fundus image

CeCNN: Copula-enhanced convolutional neural networks in joint prediction of refraction error and axial length based on ultra-widefield fundus images ( http://arxiv.org/abs/2311.03967v2 )

ライセンス: Link先を確認
Chong Zhong, Yang Li, Danjuan Yang, Meiyan Li, Xingyao Zhou, Bo Fu, Catherine C. Liu, A. H. Welsh, (参考訳) UWF(Ultra-widefield)の眼底画像は、より広い視野で視線を視認できるため、近視に関連する合併症のスクリーニング、検出、予測、治療において、従来の眼底画像を置き換える。 球状同値 (SE) は主近視結果の指標として広く用いられ, 軸長 (AL) は近視評価の重要な眼球成分として注目されている。 切削端の研究はSEとALが強く相関していることを示している。 SE と AL のジョイント情報を使用することは,どちらを別々に使用するよりもよい可能性がある。 深層学習コミュニティでは、3次元画像バイオマーカーを用いたマルチレスポンスタスクの研究があるが、応答間の依存は散発的にのみ考慮されている。 統計的手法により抽出されたデータから得られる情報は、深層学習モデルの予測精度を向上させることができるという精神に刺激され、回帰分類と回帰回帰の2変数タスクに対して、高階テンソルバイオマーカーを用いた多変量応答回帰モデルのクラスを定式化する。 具体的には、ガウスコプラ(ウォームアップCNNから推定されるパラメータを含む)を介して応答間の依存性を組み込んだコプラ強化畳み込みニューラルネットワーク(CeCNN)フレームワークを提案する。 上記の2つの二変量タスクの統計的枠組みとアルゴリズムを確立する。 バックボーンモデルに依存性情報を追加すると,CeCNNの精度が向上することを示す。 モデリングと提案されたCeCNNアルゴリズムはUWFのシナリオを超えて適用でき、ResNetやLeNet以外のバックボーンでも有効である。

Ultra-widefield (UWF) fundus images are replacing traditional fundus images in screening, detection, prediction, and treatment of complications related to myopia because their much broader visual range is advantageous for highly myopic eyes. Spherical equivalent (SE) is extensively used as the main myopia outcome measure, and axial length (AL) has drawn increasing interest as an important ocular component for assessing myopia. Cutting-edge studies show that SE and AL are strongly correlated. Using the joint information from SE and AL is potentially better than using either separately. In the deep learning community, though there is research on multiple-response tasks with a 3D image biomarker, dependence among responses is only sporadically taken into consideration. Inspired by the spirit that information extracted from the data by statistical methods can improve the prediction accuracy of deep learning models, we formulate a class of multivariate response regression models with a higher-order tensor biomarker, for the bivariate tasks of regression-classification and regression-regression. Specifically, we propose a copula-enhanced convolutional neural network (CeCNN) framework that incorporates the dependence between responses through a Gaussian copula (with parameters estimated from a warm-up CNN) and uses the induced copula-likelihood loss with the backbone CNNs. We establish the statistical framework and algorithms for the aforementioned two bivariate tasks. We show that the CeCNN has better prediction accuracy after adding the dependency information to the backbone models. The modeling and the proposed CeCNN algorithm are applicable beyond the UWF scenario and can be effective with other backbones beyond ResNet and LeNet.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-01
# 自然言語説明の忠実さと自己整合性の測定について

On Measuring Faithfulness or Self-consistency of Natural Language Explanations ( http://arxiv.org/abs/2311.07466v3 )

ライセンス: Link先を確認
Letitia Parcalabescu, Anette Frank, (参考訳) 大規模言語モデル(LLM)は、ポストホックまたはチェーン・オブ・ソート(CoT)の説明を通じて予測を説明することができる。 しかしLLMは、その根底にある理由に反する、合理的な説明を作るかもしれない。 最近の研究は、ポストホックやCoTの説明の忠実さを判断する試験を設計している。 この研究では、これらの忠実度テストはモデルの内部動作への忠実度を測定するのではなく、出力レベルでの自己整合性を測定する。 私たちの貢献は3倍です。 一 モデル説明可能性の観点から忠実度テストの現状を明らかにし、代わりに自己整合性テストとして特徴づける。 この評価は下記の通りです 二 自己整合性テストのための比較整合性銀行を構築すること。これは、11個のオープンLCMと5つのタスクからなる共通スイートにおける既存のテストとを初めて比較すること。 三 新しい自己整合性尺度CC-SHAP。 CC-SHAP(CC-SHAP)は、LCM自己整合性の詳細な尺度(テストではない)である。 モデルの入力が予測された回答にどのように貢献するかを比較し、説明を生成する。 きめ細かいCC-SHAP測定でわかる 三 予測を行う際のLCMの挙動を比較し、他の整合性テストの効果をより深く分析するために、厳密な出力指向テストよりもモデルの内部に近づき、忠実度を測定するための一歩を踏み出した。 我々のコードは \url{https://github.com/Heidelberg-NLP/CC-SHAP} で入手できる。

Large language models (LLMs) can explain their predictions through post-hoc or Chain-of-Thought (CoT) explanations. But an LLM could make up reasonably sounding explanations that are unfaithful to its underlying reasoning. Recent work has designed tests that aim to judge the faithfulness of post-hoc or CoT explanations. In this work we argue that these faithfulness tests do not measure faithfulness to the models' inner workings -- but rather their self-consistency at output level. Our contributions are three-fold: i) We clarify the status of faithfulness tests in view of model explainability, characterising them as self-consistency tests instead. This assessment we underline by ii) constructing a Comparative Consistency Bank for self-consistency tests that for the first time compares existing tests on a common suite of 11 open LLMs and 5 tasks -- including iii) our new self-consistency measure CC-SHAP. CC-SHAP is a fine-grained measure (not a test) of LLM self-consistency. It compares how a model's input contributes to the predicted answer and to generating the explanation. Our fine-grained CC-SHAP metric allows us iii) to compare LLM behaviour when making predictions and to analyse the effect of other consistency tests at a deeper level, which takes us one step further towards measuring faithfulness by bringing us closer to the internals of the model than strictly surface output-oriented tests. Our code is available at \url{https://github.com/Heidelberg-NLP/CC-SHAP}
翻訳日:2024-06-04 20:21:27 公開日:2024-06-01
# 分散二段階最適化の通信複雑性について

On the Communication Complexity of Decentralized Bilevel Optimization ( http://arxiv.org/abs/2311.11342v4 )

ライセンス: Link先を確認
Yihan Zhang, My T. Thai, Jie Wu, Hongchang Gao, (参考訳) 確率的二レベル最適化は、メタラーニング、ハイパーパラメータ最適化、ニューラルアーキテクチャサーチなど、機械学習に広く応用されている。 確率的二レベル最適化を分散データに拡張するために、いくつかの分散確率的二レベル最適化アルゴリズムを開発した。 しかし、既存の手法は、不均一な環境での収束速度が遅く、通信コストも高く、現実のタスクに適用性に制限されることが多い。 これらの問題に対処するために,更新戦略の同時および交互化に基づく2つの新しい分散確率的二段階勾配勾配アルゴリズムを提案する。 我々のアルゴリズムは既存の手法よりも高速な収束率と通信コストを抑えることができる。 重要なことに、収束解析は不均一性に関する強い仮定に依存しない。 さらに重要なことは、不均一な条件下での過次性の推定に必要な追加的な通信が収束率にどのように影響するかを明らかにすることである。 我々の知る限りでは、不均一な設定で穏やかな仮定でそのような良好な理論結果が得られたのは、これが初めてである。 さらに,変分還元勾配と組み合わせることで,更新戦略の収束率を確立する方法を示す。 最後に,本アルゴリズムの有効性を実験的に検証した。

Stochastic bilevel optimization finds widespread applications in machine learning, including meta-learning, hyperparameter optimization, and neural architecture search. To extend stochastic bilevel optimization to distributed data, several decentralized stochastic bilevel optimization algorithms have been developed. However, existing methods often suffer from slow convergence rates and high communication costs in heterogeneous settings, limiting their applicability to real-world tasks. To address these issues, we propose two novel decentralized stochastic bilevel gradient descent algorithms based on simultaneous and alternating update strategies. Our algorithms can achieve faster convergence rates and lower communication costs than existing methods. Importantly, our convergence analyses do not rely on strong assumptions regarding heterogeneity. More importantly, our theoretical analysis clearly discloses how the additional communication required for estimating hypergradient under the heterogeneous setting affects the convergence rate. To the best of our knowledge, this is the first time such favorable theoretical results have been achieved with mild assumptions in the heterogeneous setting. Furthermore, we demonstrate how to establish the convergence rate for the alternating update strategy when combined with the variance-reduced gradient. Finally, experimental results confirm the efficacy of our algorithms.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-01
# DMLR:データ中心機械学習研究の過去、現在、未来

DMLR: Data-centric Machine Learning Research -- Past, Present and Future ( http://arxiv.org/abs/2311.13028v2 )

ライセンス: Link先を確認
Luis Oala, Manil Maskey, Lilith Bat-Leah, Alicia Parrish, Nezihe Merve Gürel, Tzu-Sheng Kuo, Yang Liu, Rotem Dror, Danilo Brajovic, Xiaozhe Yao, Max Bartolo, William A Gaviria Rojas, Ryan Hileman, Rainier Aliment, Michael W. Mahoney, Meg Risdal, Matthew Lease, Wojciech Samek, Debojyoti Dutta, Curtis G Northcutt, Cody Coleman, Braden Hancock, Bernard Koch, Girmaw Abebe Tadesse, Bojan Karlaš, Ahmed Alaa, Adji Bousso Dieng, Natasha Noy, Vijay Janapa Reddi, James Zou, Praveen Paritosh, Mihaela van der Schaar, Kurt Bollacker, Lora Aroyo, Ce Zhang, Joaquin Vanschoren, Isabelle Guyon, Peter Mattson, (参考訳) 本報告では,ICML 2023 の第1回DMLRワークショップの議論から,機械学習科学を進展させる次世代のパブリックデータセットの作成における,コミュニティの関与とインフラ開発の関連性について概説する。 われわれは、これらのデータセットの作成と維持を継続し、ポジティブな科学的、社会的、ビジネスへの影響への道のりを図った。

Drawing from discussions at the inaugural DMLR workshop at ICML 2023 and meetings prior, in this report we outline the relevance of community engagement and infrastructure development for the creation of next-generation public datasets that will advance machine learning science. We chart a path forward as a collective effort to sustain the creation and maintenance of these datasets and methods towards positive scientific, societal and business impact.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-01
# ChAda-ViT : 不均一顕微鏡像の同時表現学習におけるチャネル適応的注意

ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images ( http://arxiv.org/abs/2311.15264v2 )

ライセンス: Link先を確認
Nicolas Bourriez, Ihab Bendidi, Ethan Cohen, Gabriel Watkinson, Maxime Sanchez, Guillaume Bollot, Auguste Genovesio, (参考訳) 連続してRGBチャネルに符号化されるカラー写真画像とは異なり、生物学的画像は様々なモダリティを含んでいる。 重要なことは、チャンネルの数は1から1ダース程度で、その相関関係はRGBよりも比較的低く、それぞれが特定の情報コンテンツを提供する。 この側面は、バイオイメージ領域から設計された手法によって見落とされ、現在のソリューションは主にチャネル内の空間的注意に焦点を当てており、チャネル間の関係を無視していることが多いが、ほとんどの生物学的応用において不可欠である。 重要なことは、可変チャネルタイプとカウントは、大規模な事前学習のための統一表現へのいくつかの実験の投射を防ぐことである。 本研究では,任意の数,順序,種類のチャネルを持つ画像に対して,チャネル間アテンション機構を用いた新しいチャネル適応型視覚トランスフォーマアーキテクチャであるChAda-ViTを提案する。 IDRCell100kは、7つの顕微鏡モードを多種多様なチャネルタイプでカバーし、実験1回につき1から10まで数える79の実験セットである。 我々のアーキテクチャは、自己管理的な方法で訓練され、いくつかの生物学的に関連する下流タスクにおいて、既存のアプローチよりも優れています。 さらに、様々な画像や実験的なモダリティを統一された生物学的イメージ表現に埋め込むことで、異なる顕微鏡、チャネル番号、タイプで測定する間において、初めてギャップをブリッジすることができる。 後者は、学際的な研究の促進と、生物学的画像に基づく分析における深層学習のより良い採用の道を開くべきである。 コードとデータはhttps://github.com/nicoboou/chadavit.comで入手できる。

Unlike color photography images, which are consistently encoded into RGB channels, biological images encompass various modalities, where the type of microscopy and the meaning of each channel varies with each experiment. Importantly, the number of channels can range from one to a dozen and their correlation is often comparatively much lower than RGB, as each of them brings specific information content. This aspect is largely overlooked by methods designed out of the bioimage field, and current solutions mostly focus on intra-channel spatial attention, often ignoring the relationship between channels, yet crucial in most biological applications. Importantly, the variable channel type and count prevent the projection of several experiments to a unified representation for large scale pre-training. In this study, we propose ChAda-ViT, a novel Channel Adaptive Vision Transformer architecture employing an Inter-Channel Attention mechanism on images with an arbitrary number, order and type of channels. We also introduce IDRCell100k, a bioimage dataset with a rich set of 79 experiments covering 7 microscope modalities, with a multitude of channel types, and counts varying from 1 to 10 per experiment. Our architecture, trained in a self-supervised manner, outperforms existing approaches in several biologically relevant downstream tasks. Additionally, it can be used to bridge the gap for the first time between assays with different microscopes, channel numbers or types by embedding various image and experimental modalities into a unified biological image representation. The latter should facilitate interdisciplinary studies and pave the way for better adoption of deep learning in biological image-based analyses. Code and Data available at https://github.com/nicoboou/chadavit.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-01
# ReLUネットワークの初期化と深度による指数スケーリングの活用

Compelling ReLU Network Initialization and Training to Leverage Exponential Scaling with Depth ( http://arxiv.org/abs/2311.18022v3 )

ライセンス: Link先を確認
Max Milkert, David Hyde, Forrest Laine, (参考訳) ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。 このようなネットワークに対して、入力領域上で表現される異なる線形領域の数は、指数関数的に深さにスケールする可能性があるが、初期パラメータがランダムに選択された場合、それは期待できない。 この貧弱なスケーリングは、単純な関数を近似するために、過度に大きなモデルを使う必要がある。 この問題に対処するために、我々はまずネットワークの重みをパラメータ化し、ネットワークに多くの活性化パターンを指数関数的に表示させる新しいトレーニング戦略を導入する。 導出したパラメータをトレーニングすることで、基礎となるモデルの重みを直接更新することで、後から改善できる最初のソリューションを提供します。 このアプローチにより、ランダムに初期化された関数よりも数桁精度の高い凸1次元関数の近似を学習することができる。

A neural network with ReLU activations may be viewed as a composition of piecewise linear functions. For such networks, the number of distinct linear regions expressed over the input domain has the potential to scale exponentially with depth, but it is not expected to do so when the initial parameters are chosen randomly. This poor scaling can necessitate the use of overly large models to approximate even simple functions. To address this issue, we introduce a novel training strategy: we first reparameterize the network weights in a manner that forces the network to display a number of activation patterns exponential in depth. Training first on our derived parameters provides an initial solution that can later be refined by directly updating the underlying model weights. This approach allows us to learn approximations of convex, one-dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-01
# PGDS:Pse-Guidance Deep Supervision for Mitigating Clothes-Changing in Person Redentification

PGDS: Pose-Guidance Deep Supervision for Mitigating Clothes-Changing in Person Re-Identification ( http://arxiv.org/abs/2312.05634v3 )

ライセンス: Link先を確認
Quoc-Huy Trinh, Nhat-Tan Bui, Dinh-Hieu Hoang, Phuoc-Thao Vo Thi, Hai-Dang Nguyen, Debesh Jha, Ulas Bagci, Ngan Le, Minh-Triet Tran, (参考訳) 個人再識別(Re-ID)タスクは、監視カメラによる複数の個人追跡を強化することを目的としている。 テキストベースの人物検索や人間のマッチングなど、マルチモーダルタスクをサポートする。 Re-IDで直面する最も重要な課題の1つは着替えであり、同じ人が異なる衣装に現れる可能性がある。 従来は衣服データの整合性維持や衣服の変化データ処理において顕著な進歩を遂げてきたが、外見のダイナミックな性質によって性能が制限されるため、服の情報に過度に依存している。 この課題を軽減するために,Re-IDタスク内でポーズガイダンスを学習するための効果的なフレームワークである Pose-Guidance Deep Supervision (PGDS) を提案する。 人間エンコーダ、ポーズエンコーダ、Pose-to-Human Projectionモジュール(PHP)の3つのモジュールで構成されている。 本稿では,PHPモジュールからの知識伝達機構を介し,ポーズエンコーダから複数のレイヤを通してポーズ情報を抽出し,推論段階において計算資源を増大させることなく,人間のエンコーダが情報の一部を学習するのを支援する。 大規模な実験を通じて,本手法は現在の最先端手法の性能を超越し,実世界の応用におけるロバスト性と有効性を示す。 私たちのコードはhttps://github.com/huyquoctrinh/PGDS.comで公開されています。

Person Re-Identification (Re-ID) task seeks to enhance the tracking of multiple individuals by surveillance cameras. It supports multimodal tasks, including text-based person retrieval and human matching. One of the most significant challenges faced in Re-ID is clothes-changing, where the same person may appear in different outfits. While previous methods have made notable progress in maintaining clothing data consistency and handling clothing change data, they still rely excessively on clothing information, which can limit performance due to the dynamic nature of human appearances. To mitigate this challenge, we propose the Pose-Guidance Deep Supervision (PGDS), an effective framework for learning pose guidance within the Re-ID task. It consists of three modules: a human encoder, a pose encoder, and a Pose-to-Human Projection module (PHP). Our framework guides the human encoder, i.e., the main re-identification model, with pose information from the pose encoder through multiple layers via the knowledge transfer mechanism from the PHP module, helping the human encoder learn body parts information without increasing computation resources in the inference stage. Through extensive experiments, our method surpasses the performance of current state-of-the-art methods, demonstrating its robustness and effectiveness for real-world applications. Our code is available at https://github.com/huyquoctrinh/PGDS.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-01
# フェアネスの制約はどれくらいでバイアスデータから回復できるのか?

How Far Can Fairness Constraints Help Recover From Biased Data? ( http://arxiv.org/abs/2312.10396v4 )

ライセンス: Link先を確認
Mohit Sharma, Amit Deshpande, (参考訳) 公平な分類に関する一般的な信念は、公正な制約は正確さとトレードオフを引き起こし、バイアスのあるデータが悪化する可能性があるというものである。 この信念とは対照的に、Blum & Stangl (2019) は、極度に偏りのあるデータでも、同じ機会制約による公平な分類が、元のデータ分布上で最適に正確かつ公平な分類を回復できることを示した。 彼らの結果は、公正性の制約がデータバイアスを暗黙的に修正し、公正さと正確さのトレードオフを同時に克服できることを示しているので興味深い。 彼らのデータバイアスモデルは、少数人口における下層表現とラベルバイアスをシミュレートし、データ分布とバイアスパラメータの簡単な条件下で、ラベルノイズを用いたスタイリングされたデータ分布で上記の結果を示す。 我々は、Blum & Stangl (2019) の結果を様々な公正性制約、データバイアスモデル、データ分布、仮説クラスに拡張するための一般的なアプローチを提案する。 我々は、それらの結果を強化し、そのスタイル化された分布が、i.d.ノイズの代わりにMassartノイズを持つラベルを持つ場合に拡張する。 フェアリジェクションオプション分類器を用いて任意のデータ分布に対して同様のリカバリ結果を示す。 さらに任意のデータ分布や任意の仮説クラスに一般化する、すなわち、任意のデータ分布に対して、与えられた仮説クラスの最適精度の分類器が公平で堅牢であれば、バイアスパラメータが一定の単純な条件を満たすとき、バイアス分布に等しい機会制約を課した公正な分類によって回復できることを示す。 最後に,本手法の分類および公平な機械学習パイプラインにおける時間変化データバイアスへの適用について述べる。

A general belief in fair classification is that fairness constraints incur a trade-off with accuracy, which biased data may worsen. Contrary to this belief, Blum & Stangl (2019) show that fair classification with equal opportunity constraints even on extremely biased data can recover optimally accurate and fair classifiers on the original data distribution. Their result is interesting because it demonstrates that fairness constraints can implicitly rectify data bias and simultaneously overcome a perceived fairness-accuracy trade-off. Their data bias model simulates under-representation and label bias in underprivileged population, and they show the above result on a stylized data distribution with i.i.d. label noise, under simple conditions on the data distribution and bias parameters. We propose a general approach to extend the result of Blum & Stangl (2019) to different fairness constraints, data bias models, data distributions, and hypothesis classes. We strengthen their result, and extend it to the case when their stylized distribution has labels with Massart noise instead of i.i.d. noise. We prove a similar recovery result for arbitrary data distributions using fair reject option classifiers. We further generalize it to arbitrary data distributions and arbitrary hypothesis classes, i.e., we prove that for any data distribution, if the optimally accurate classifier in a given hypothesis class is fair and robust, then it can be recovered through fair classification with equal opportunity constraints on the biased distribution whenever the bias parameters satisfy certain simple conditions. Finally, we show applications of our technique to time-varying data bias in classification and fair machine learning pipelines.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-01
# リドベルクイオンを閉じ込めた三部晶量子ラビモデル

Tripartite quantum Rabi model with trapped Rydberg ions ( http://arxiv.org/abs/2312.14718v2 )

ライセンス: Link先を確認
Thomas J. Hamlyn, Chi Zhang, Igor Lesanovsky, Weibin Li, (参考訳) スピン-スピン相互作用によって2つのスピン-1/2$の粒子にボソニックモードが同時結合し、スピン-スピン-ボソン結合が生じる三部量子ラビモデル(TQRM)について検討する。 TQRMの対称性は、スピン状態間のエネルギー差を表す変形パラメータに依存する。 パリティ対称性をゼロにすると、TQRMは量子ラビモデルに還元可能である。 3部結合強度が増大するにつれて、基底状態におけるサブラジアントから超ラジアント遷移が予測される。 ゼロでない変形では、トータルスピンはTQRMの唯一の保存量として現れる。 3部結合が非ゼロのままである限り、基底状態において超放射能が優位に立つことが判明した。 我々は、TQRMのBraak $\mathcal{G}$-functionを解析的に導き、固有スペクトルを得る。 TQRMは、必要となる三部結合とTQRM内の単体相互作用が自然に存在する、リドバーグイオン量子シミュレーターで実現可能である。 我々の研究は、TQRMとスピンと運動の自由度における新しい相関関係と絡み合いを探求し、創出する機会を開く。

We investigate a tripartite quantum Rabi model (TQRM) wherein a bosonic mode concurrently couples to two spin-$1/2$ particles through a spin-spin interaction, resulting in a spin-spin-boson coupling -- a departure from conventional quantum Rabi models featuring bipartite spin-boson couplings. The symmetries of the TQRM depend on the detuning parameter, representing the energy difference between the spin states. At zero detuning a parity symmetry renders the TQRM reducible to a quantum Rabi model. A subradiant to superradiant transition in the groundstate is predicted as the tripartite coupling strength increases. For non-zero detuning the total spin emerges as the sole conserved quantity in the TQRM. It is found that superradiance prevails in the groundstate as long as the tripartite coupling remains non-zero. We derive the Braak $\mathcal{G}$-function of the TQRM analytically, with which the eigenspectra are obtained. The TQRM can be realized in a viable trapped Rydberg ion quantum simulator, where the required tripartite couplings and single body interactions in the TQRM are naturally present. Our study opens opportunities to explore and create novel correlations and entanglement in the spin and motional degrees of freedoms with the TQRM.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-01
# 制約された前駆体による再生

Restoration by Generation with Constrained Priors ( http://arxiv.org/abs/2312.17161v2 )

ライセンス: Link先を確認
Zheng Ding, Xuaner Zhang, Zhuowen Tu, Zhihao Xia, (参考訳) 拡散モデルの固有生成力は、入力画像によく似た生成空間内で最適な高品質な画像を見つけることを目的とした画像復元作業に適している。 入力画像にノイズを付加して復調し、復調させることで、画像復元のための事前学習拡散モデルを適用する方法を提案する。 本手法は,生成モデルの空間に制約を加える必要があるという観察に基づいている。 この制約を入力画像の特徴を捉えたアンカー画像の集合を用いて生成モデルを微調整することで行う。 制約された空間では、生成に使用されるサンプリング戦略を利用して画像復元を行うことができる。 我々は,過去の手法に対して評価を行い,アイデンティティと画像品質の保存において,複数の実世界の復元データセット上で優れた性能を示す。 また、パーソナライズされた復元の重要かつ実践的な応用を実証し、パーソナライズされたアルバムをアンカーイメージとして使用し、生成空間を制約する。 このアプローチにより、従来の作業ではできなかった高周波の詳細を正確に保存する結果が得られます。 プロジェクトWebページ: https://gen2res.github.io

The inherent generative power of denoising diffusion models makes them well-suited for image restoration tasks where the objective is to find the optimal high-quality image within the generative space that closely resembles the input image. We propose a method to adapt a pretrained diffusion model for image restoration by simply adding noise to the input image to be restored and then denoise. Our method is based on the observation that the space of a generative model needs to be constrained. We impose this constraint by finetuning the generative model with a set of anchor images that capture the characteristics of the input image. With the constrained space, we can then leverage the sampling strategy used for generation to do image restoration. We evaluate against previous methods and show superior performances on multiple real-world restoration datasets in preserving identity and image quality. We also demonstrate an important and practical application on personalized restoration, where we use a personal album as the anchor images to constrain the generative space. This approach allows us to produce results that accurately preserve high-frequency details, which previous works are unable to do. Project webpage: https://gen2res.github.io.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-01
# ヒューリスティックスの進化:大規模言語モデルを用いた効率的な自動アルゴリズム設計を目指して

Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model ( http://arxiv.org/abs/2401.02051v3 )

ライセンス: Link先を確認
Fei Liu, Xialiang Tong, Mingxuan Yuan, Xi Lin, Fu Luo, Zhenkun Wang, Zhichao Lu, Qingfu Zhang, (参考訳) ヒューリスティックスは複雑な探索問題や最適化問題に広く用いられている。 しかしながら、ヒューリスティックスのマニュアルデザインは、しばしば非常に精力的に行われ、豊富な作業経験と知識を必要とする。 本稿では,Large Language Models (LLM) とEvolutionary Computation (EC) を併用した自動ヒューリスティックデザイン(AHD)の進化的パラダイムであるEoHを提案する。 EoHは、自然言語におけるヒューリスティックス(ヒューリスティックス)の思想を表現している。 その後、LLMによって実行可能なコードに変換される。 進化的探索フレームワークにおける思考とコードの両方の進化は、高性能なヒューリスティックを生成するのに非常に効果的かつ効果的である。 3つの広く研究されている組合せ最適化ベンチマーク問題の実験により、EoHは手作りヒューリスティックスやFunSearchを含む最近のAHD手法よりも優れていることが示された。 特に、計算予算の少ないEoHによるヒューリスティック(LCMへのクエリ数)は、オンラインビンパッキング問題において、広く使われている手作りのベースラインアルゴリズムよりも大幅に優れている。

Heuristics are widely used for dealing with complex search and optimization problems. However, manual design of heuristics can be often very labour extensive and requires rich working experience and knowledge. This paper proposes Evolution of Heuristic (EoH), a novel evolutionary paradigm that leverages both Large Language Models (LLMs) and Evolutionary Computation (EC) methods for Automatic Heuristic Design (AHD). EoH represents the ideas of heuristics in natural language, termed thoughts. They are then translated into executable codes by LLMs. The evolution of both thoughts and codes in an evolutionary search framework makes it very effective and efficient for generating high-performance heuristics. Experiments on three widely studied combinatorial optimization benchmark problems demonstrate that EoH outperforms commonly used handcrafted heuristics and other recent AHD methods including FunSearch. Particularly, the heuristic produced by EoH with a low computational budget (in terms of the number of queries to LLMs) significantly outperforms widely-used human hand-crafted baseline algorithms for the online bin packing problem.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-01
# 批判批判

The Critique of Critique ( http://arxiv.org/abs/2401.04518v2 )

ライセンス: Link先を確認
Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei Liu, (参考訳) 批判は、モデル生成コンテンツの質を評価するための自然言語記述として、LLMの訓練、評価、洗練において重要な役割を担っている。 しかし、批判の質を評価する体系的な方法が欠落している。 本稿では,特定の定量化基準を構築するメタクリティカルと呼ばれる批判の批判の先駆者となる。 信頼性の高い評価結果を得るために,よりきめ細かな批判を記述した原子情報ユニット(AIU)を提案する。 MetaCritiqueは、スコア全体のAIUの判断を集約する。 さらに、MetaCritiqueは、各判断における複雑な推論のための自然言語の理論的根拠を提供する。 最後に,16の公開データセットを対象とした4つのタスクを対象としたメタ評価データセットを構築した。 実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。 本稿では,(1)メタクリティークが判断した優れた批判は,既存のLCMの整合性を高める可能性を示唆する,(2)オープンソース批判モデルのリーダーボードは,事実性の問題に一般的に悩まされていること,(3)関連するコードとデータはhttps://github.com/GAIR-NLP/MetaCritiqueで公開されており,(4)PyPIのAPIとAppendix Cのドキュメントにより,利用者による評価を便利に行うことができる。

Critique, as a natural language description for assessing the quality of model-generated content, has played a vital role in the training, evaluation, and refinement of LLMs. However, a systematic method to evaluate the quality of critique is lacking. In this paper, we pioneer the critique of critique, termed MetaCritique, which builds specific quantification criteria. To achieve a reliable evaluation outcome, we propose Atomic Information Units (AIUs), which describe the critique in a more fine-grained manner. MetaCritique aggregates each AIU's judgment for the overall score. Moreover, MetaCritique delivers a natural language rationale for the intricate reasoning within each judgment. Lastly, we construct a meta-evaluation dataset covering 4 tasks across 16 public datasets involving human-written and LLM-generated critiques. Experiments demonstrate that MetaCritique can achieve near-human performance. Our study can facilitate future research in LLM critiques based on our following observations and released resources: (1) superior critiques judged by MetaCritique can lead to better refinements, indicating that it can potentially enhance the alignment of existing LLMs; (2) the leaderboard of critique models reveals that open-source critique models commonly suffer from factuality issues; (3) relevant code and data are publicly available at https://github.com/GAIR-NLP/MetaCritique to support deeper exploration; (4) an API at PyPI with the usage documentation in Appendix C allows users to assess the critique conveniently.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-01
# 非エルミートランダム行列の普遍的ハードエッジ統計

Universal hard-edge statistics of non-Hermitian random matrices ( http://arxiv.org/abs/2401.05044v2 )

ライセンス: Link先を確認
Zhenyu Xiao, Ryuichi Shindou, Kohei Kawabata, (参考訳) ランダム行列理論は、量子カオス系に固有のスペクトル相関を理解する強力なツールである。 非エルミート確率行列論の様々な応用にもかかわらず、対称性の役割は完全に確立されている。 ここでは、スペクトル起源に関するレベル統計(ハードエッジ統計)に対する対称性の影響を包括的に調査し、スペクトル統計の分類を拡張して、非エルミート確率行列の38種類の対称性クラスをすべて包含する。 この分類では、スペクトルのバルクのレベル統計と異なるハードエッジ統計を特徴とする28の対称性クラスを識別し、さらにアルトランド=ジルンバウアー=_0$分類という2つのグループに分類する。 すべての対称性のクラスについて普遍的なハードエッジ統計を計測する定量的測度を導入し、解明する。 さらに、広範な数値計算により、2次および多体リンドブラディアンや非エルミート的ハミルトニアンを含む様々な対称性の様々な開量子系を研究する。 これらの系は, ランダム行列と同一の強辺統計値を示し, 起点近傍のアンサンブル平均スペクトル分布は, ランダム行列の挙動に即した創発対称性を示すことを示した。 この結果は、非エルミート確率行列理論の包括的理解を確立し、量子カオスや開量子系における欠如を検出するのに有用である。

Random matrix theory is a powerful tool for understanding spectral correlations inherent in quantum chaotic systems. Despite diverse applications of non-Hermitian random matrix theory, the role of symmetry remains to be fully established. Here, we comprehensively investigate the impact of symmetry on the level statistics around the spectral origin -- hard-edge statistics -- and expand the classification of spectral statistics to encompass all the 38 symmetry classes of non-Hermitian random matrices. Within this classification, we discern 28 symmetry classes characterized by distinct hard-edge statistics from the level statistics in the bulk of spectra, which are further categorized into two groups, namely the Altland-Zirnbauer$_0$ classification and beyond. We introduce and elucidate quantitative measures capturing the universal hard-edge statistics for all the symmetry classes. Furthermore, through extensive numerical calculations, we study various open quantum systems in different symmetry classes, including quadratic and many-body Lindbladians, as well as non-Hermitian Hamiltonians. We show that these systems manifest the same hard-edge statistics as random matrices and that their ensemble-average spectral distributions around the origin exhibit emergent symmetry conforming to the random-matrix behavior. Our results establish a comprehensive understanding of non-Hermitian random matrix theory and are useful in detecting quantum chaos or its absence in open quantum systems.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-01
# 大規模言語モデルは時間的推論を学習できる

Large Language Models Can Learn Temporal Reasoning ( http://arxiv.org/abs/2401.06853v4 )

ライセンス: Link先を確認
Siheng Xiong, Ali Payani, Ramana Kompella, Faramarz Fekri, (参考訳) 大きな言語モデル(LLM)は顕著な推論能力を示しているが、欠陥や不正確さがないわけではない。 近年の研究では、これらの制限を緩和する様々な方法が紹介されている。 特に、時間的推論(TR)は、多種多様な時間的概念と複雑な時間的論理に依存しているため、LLMにとって重要な課題である。 本稿では,言語ベースTRに向けた新しいフレームワークであるTG-LLMを提案する。 元の文脈を推論する代わりに、TRの学習を促進する潜在表現である時間グラフ(TG)を採用する。 完全制御可能で、最小限の監視を必要とする合成データセット(TGQA)は、このテキストからTGへの翻訳タスクにおいて、微調整のLLMのために構築される。 実験では,データセット上で学習したTG翻訳の能力が,他のTRタスクやベンチマークに転送可能であることを確認した。 それに加えて、私たちはLLMにChain-of-Thought(CoT)ブートストラップとグラフデータ拡張を通じて、意図的にTGを推論するように教えています。 有用性と多様性のバランスを保っているこれらの戦略は,バニラのCoT蒸留よりも信頼性が高く,最終結果が得られた。

While large language models (LLMs) have demonstrated remarkable reasoning capabilities, they are not without their flaws and inaccuracies. Recent studies have introduced various methods to mitigate these limitations. Temporal reasoning (TR), in particular, presents a significant challenge for LLMs due to its reliance on diverse temporal concepts and intricate temporal logic. In this paper, we propose TG-LLM, a novel framework towards language-based TR. Instead of reasoning over the original context, we adopt a latent representation, temporal graph (TG) that enhances the learning of TR. A synthetic dataset (TGQA), which is fully controllable and requires minimal supervision, is constructed for fine-tuning LLMs on this text-to-TG translation task. We confirmed in experiments that the capability of TG translation learned on our dataset can be transferred to other TR tasks and benchmarks. On top of that, we teach LLM to perform deliberate reasoning over the TGs via Chain-of-Thought (CoT) bootstrapping and graph data augmentation. We observed that those strategies, which maintain a balance between usefulness and diversity, bring more reliable CoTs and final results than the vanilla CoT distillation.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-01
# MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識性評価のための総合ベンチマーク

MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception ( http://arxiv.org/abs/2401.07529v3 )

ライセンス: Link先を確認
Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang, (参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、視覚知覚と理解において例外的な能力を示している。 しかし、これらのモデルは幻覚に悩まされ、AIシステムとしての信頼性が制限される。 これらの幻覚の一部は、モデルがイメージから理解でき、知覚できないことを理解するのに苦労しているためである、と我々は信じている。 その重要性にもかかわらず、MLLMのこの側面は以前の研究で見過ごされてきた。 本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。 そこで我々はまず,MLLMが画像について知っていること,知らないことを定義するための知識四分法を提案する。 本稿では,MLLM(MM-SAP)に対する自己認識の自己認識性(Self-Awareness in Perception for MLLMs)という新しいベンチマークを提案する。 MM-SAPを多種多様なMLLMに適用し、その自己認識の包括的分析と詳細な洞察を提供する。 実験の結果,現在のMLLMは自己認識能力に限界があることが明らかとなり,信頼性の高いMLLMの開発に欠かせない領域であることが示唆された。 コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。

Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in visual perception and understanding. However, these models also suffer from hallucinations, which limit their reliability as AI systems. We believe that these hallucinations are partially due to the models' struggle with understanding what they can and cannot perceive from images, a capability we refer to as self-awareness in perception. Despite its importance, this aspect of MLLMs has been overlooked in prior studies. In this paper, we aim to define and evaluate the self-awareness of MLLMs in perception. To do this, we first introduce the knowledge quadrant in perception, which helps define what MLLMs know and do not know about images. Using this framework, we propose a novel benchmark, the Self-Awareness in Perception for MLLMs (MM-SAP), specifically designed to assess this capability. We apply MM-SAP to a variety of popular MLLMs, offering a comprehensive analysis of their self-awareness and providing detailed insights. The experiment results reveal that current MLLMs possess limited self-awareness capabilities, pointing to a crucial area for future advancement in the development of trustworthy MLLMs. Code and data are available at https://github.com/YHWmz/MM-SAP.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-01
# フェデレート・アンラーニング:安定性と公正性の観点から

Federated Unlearning: a Perspective of Stability and Fairness ( http://arxiv.org/abs/2402.01276v4 )

ライセンス: Link先を確認
Jiaqi Shao, Tao Lin, Xuanyu Cao, Bing Luo, (参考訳) 本稿では,フェデレーション付きアンラーニング(FU)の多面的結果とデータ不均一性について考察する。 我々は,FU評価の重要な指標を紹介し,検証,グローバル安定性,局所公正性に着目し,固有のトレードオフについて検討する。 さらに、最適化フレームワークを用いて、データ不均一性による未学習プロセスを定式化する。 我々の重要な貢献は、FUにおけるトレードオフに関する包括的な理論的分析であり、FUに対するデータ不均一性の影響に関する洞察を提供する。 これらの知見を生かして,これらのトレードオフを管理するためのFU機構を提案し,FU機構のさらなる発展を導いた。 我々は、我々のFUメカニズムがトレードオフを効果的にバランスし、理論分析から得られた洞察を実証する実験的な検証を行った。

This paper explores the multifaceted consequences of federated unlearning (FU) with data heterogeneity. We introduce key metrics for FU assessment, concentrating on verification, global stability, and local fairness, and investigate the inherent trade-offs. Furthermore, we formulate the unlearning process with data heterogeneity through an optimization framework. Our key contribution lies in a comprehensive theoretical analysis of the trade-offs in FU and provides insights into data heterogeneity's impacts on FU. Leveraging these insights, we propose FU mechanisms to manage the trade-offs, guiding further development for FU mechanisms. We empirically validate that our FU mechanisms effectively balance trade-offs, confirming insights derived from our theoretical analysis.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-01
# 潜在表現の多元写像

Mapping the Multiverse of Latent Representations ( http://arxiv.org/abs/2402.01514v2 )

ライセンス: Link先を確認
Jeremy Wayland, Corinna Coupette, Bastian Rieck, (参考訳) マルチバース分析による機械学習の信頼性と堅牢性への懸念に対処するために,我々は最近,潜在表現に依存する機械学習モデルのマルチバースをマッピングするための原則的フレームワークであるPRESTOを紹介した。 このようなモデルは広く採用されているが、その埋め込みの多様性は理解されていないままであり、不要な複雑さと信頼できない表現をもたらす。 我々のフレームワークは、多種多様な機械学習手法、(ハイパー)パラメータ構成、データセットの組み合わせから生じる潜伏空間を特徴付けるために、永続的ホモロジーを使用し、それぞれの(異なる)相似性と分布に関する統計的理由を測ることができる。 理論的にも実証的にも,我々のパイプラインは遅延表現のコレクションの望ましい特性を保ち,感度解析や異常な埋め込みの検出,あるいはハイパーパラメータ探索空間の効率的かつ効率的なナビゲーションに利用することができる。

Echoing recent calls to counter reliability and robustness concerns in machine learning via multiverse analysis, we present PRESTO, a principled framework for mapping the multiverse of machine-learning models that rely on latent representations. Although such models enjoy widespread adoption, the variability in their embeddings remains poorly understood, resulting in unnecessary complexity and untrustworthy representations. Our framework uses persistent homology to characterize the latent spaces arising from different combinations of diverse machine-learning methods, (hyper)parameter configurations, and datasets, allowing us to measure their pairwise (dis)similarity and statistically reason about their distributions. As we demonstrate both theoretically and empirically, our pipeline preserves desirable properties of collections of latent representations, and it can be leveraged to perform sensitivity analysis, detect anomalous embeddings, or efficiently and effectively navigate hyperparameter search spaces.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-01
# グラフ機械学習理論における今後の方向性

Future Directions in the Theory of Graph Machine Learning ( http://arxiv.org/abs/2402.02287v2 )

ライセンス: Link先を確認
Christopher Morris, Nadav Dym, Haggai Maron, İsmail İlkan Ceylan, Fabrizio Frasca, Ron Levie, Derek Lim, Michael Bronstein, Martin Grohe, Stefanie Jegelka, (参考訳) グラフ上の機械学習、特にグラフニューラルネットワーク(GNN)の使用は、生命から社会、エンジニアリング科学に至るまで、幅広い分野にわたるグラフデータの提供により、関心が高まっている。 その実用的成功にもかかわらず、GNNの特性に関する理論的理解は非常に不完全である。 近年の理論的進歩は主にGNNの粗粒度表現力の解明に焦点が当てられ、主に組合せ技術を用いている。 しかし、これらの研究は、特に確率的一階最適化手法で訓練された場合のGNNの一般化挙動の理解において、実践と完全に一致しない。 本稿では、グラフ機械学習コミュニティが、表現力、一般化、最適化の相互作用をより深く理解することに焦点を当て、グラフ機械学習のバランスのとれた理論の開発に注意を向ける必要があることを論じる。

Machine learning on graphs, especially using graph neural networks (GNNs), has seen a surge in interest due to the wide availability of graph data across a broad spectrum of disciplines, from life to social and engineering sciences. Despite their practical success, our theoretical understanding of the properties of GNNs remains highly incomplete. Recent theoretical advancements primarily focus on elucidating the coarse-grained expressive power of GNNs, predominantly employing combinatorial techniques. However, these studies do not perfectly align with practice, particularly in understanding the generalization behavior of GNNs when trained with stochastic first-order optimization techniques. In this position paper, we argue that the graph machine learning community needs to shift its attention to developing a balanced theory of graph machine learning, focusing on a more thorough understanding of the interplay of expressive power, generalization, and optimization.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-01
# Transolver: 一般測地におけるPDEのための高速変圧器ソルバー

Transolver: A Fast Transformer Solver for PDEs on General Geometries ( http://arxiv.org/abs/2402.02366v2 )

ライセンス: Link先を確認
Haixu Wu, Huakun Luo, Haowen Wang, Jianmin Wang, Mingsheng Long, (参考訳) 変換器は様々な分野において多くのマイルストーンをパワーアップし、最近偏微分方程式(PDE)の解法として応用されている。 しかしながら、PDEは通常、複雑な幾何学を持つ大規模メッシュに離散化されているため、トランスフォーマーが大量の個々の点から直接複雑な物理的相関を捉えることは困難である。 表面的および非弱視的メッシュを超えて、より基本的な考え方に基づいてTransolverを提示する。 具体的には、離散化された領域をフレキシブルな形状の一連の学習可能なスライスに適応的に分割する新しい物理注意法を提案する。 スライスから符号化された物理認識トークンに注意を向けることにより、Transovlerは複雑な幾何学の下で複雑な物理的相関を効果的に捉えることができ、また、内因的幾何学的一般モデリング能力を持つソルバを有効活用し、線形複雑度で効率的に計算することができる。 Transolverは6つの標準ベンチマークに対して22%の相対的な利得で一貫した最先端を実現し、自動車や翼の設計を含む大規模産業シミュレーションにも優れている。 コードはhttps://github.com/thuml/Transolver.comから入手できる。

Transformers have empowered many milestones across various fields and have recently been applied to solve partial differential equations (PDEs). However, since PDEs are typically discretized into large-scale meshes with complex geometries, it is challenging for Transformers to capture intricate physical correlations directly from massive individual points. Going beyond superficial and unwieldy meshes, we present Transolver based on a more foundational idea, which is learning intrinsic physical states hidden behind discretized geometries. Specifically, we propose a new Physics-Attention to adaptively split the discretized domain into a series of learnable slices of flexible shapes, where mesh points under similar physical states will be ascribed to the same slice. By calculating attention to physics-aware tokens encoded from slices, Transovler can effectively capture intricate physical correlations under complex geometrics, which also empowers the solver with endogenetic geometry-general modeling capacity and can be efficiently computed in linear complexity. Transolver achieves consistent state-of-the-art with 22% relative gain across six standard benchmarks and also excels in large-scale industrial simulations, including car and airfoil designs. Code is available at https://github.com/thuml/Transolver.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-01
# tnGPS:Large Language Models (LLMs)による未知のテンソルネットワーク構造探索アルゴリズムの発見

tnGPS: Discovering Unknown Tensor Network Structure Search Algorithms via Large Language Models (LLMs) ( http://arxiv.org/abs/2402.02456v2 )

ライセンス: Link先を確認
Junhua Zeng, Chao Li, Zhun Sun, Qibin Zhao, Guoxu Zhou, (参考訳) テンソルネットワークは非常に高次元表現に適しているが、テンソルネットワーク構造探索(TN-SS)と呼ばれるモデル選択は難しい問題である。 いくつかの研究がTN-SSをターゲットにしているが、既存のアルゴリズムのほとんどは手作業によるヒューリスティックで、性能は悪く、次元と局所収束の呪いに悩まされている。 そこで本研究では,大規模言語モデル(LLM)を用いて,新たなTN-SSアルゴリズムを自動検出し,人間の関与を代替する方法について検討する。 人間の研究者がどのように研究を革新するかを観察することによって、共通のワークフローをモデル化し、tnGPSと呼ばれる自動アルゴリズム発見フレームワークを提案する。 提案するフレームワークは、LCMに反復的な改良と拡張を通じて新しいTN-SSアルゴリズムを生成するよう指示する精巧なプロンプトパイプラインである。 実験結果から, tnGPSにより検出されたアルゴリズムは, 現在の最先端手法と比較して, ベンチマークにおいて優れた性能を示した。

Tensor networks are efficient for extremely high-dimensional representation, but their model selection, known as tensor network structure search (TN-SS), is a challenging problem. Although several works have targeted TN-SS, most existing algorithms are manually crafted heuristics with poor performance, suffering from the curse of dimensionality and local convergence. In this work, we jump out of the box, studying how to harness large language models (LLMs) to automatically discover new TN-SS algorithms, replacing the involvement of human experts. By observing how human experts innovate in research, we model their common workflow and propose an automatic algorithm discovery framework called tnGPS. The proposed framework is an elaborate prompting pipeline that instruct LLMs to generate new TN-SS algorithms through iterative refinement and enhancement. The experimental results demonstrate that the algorithms discovered by tnGPS exhibit superior performance in benchmarks compared to the current state-of-the-art methods.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-01
# 位置: 大規模言語モデルが時系列分析について何を教えてくれるか

Position: What Can Large Language Models Tell Us about Time Series Analysis ( http://arxiv.org/abs/2402.02713v2 )

ライセンス: Link先を確認
Ming Jin, Yifan Zhang, Wei Chen, Kexin Zhang, Yuxuan Liang, Bin Yang, Jindong Wang, Shirui Pan, Qingsong Wen, (参考訳) 時系列解析は、様々な現実世界のシステムや応用に固有の複雑さを理解するのに不可欠である。 大規模言語モデル(LLM)は近年大きな進歩を遂げているが、時系列解析機能を備えた人工知能(AGI)の開発はまだ初期段階にある。 既存の時系列モデルはドメイン知識と広範囲なモデルチューニングに大きく依存しており、主に予測タスクに重点を置いている。 本稿では,現在のLCMは時系列解析に革命をもたらす可能性があり,それによって効率的な意思決定が促進され,より普遍的な時系列解析インテリジェンスへと進むことを論じる。 このような進歩は、時系列のモダリティスイッチングや質問応答など、幅広い可能性を解き放つ可能性がある。 研究者や実践者は、時系列分析の進歩におけるLLMの可能性を認識し、これらの取り組みに対する信頼の必要性を強調する。 さらに,既存のLCM技術と時系列解析のシームレスな統合について詳述し,今後の研究に期待できる道筋を概説する。

Time series analysis is essential for comprehending the complexities inherent in various realworld systems and applications. Although large language models (LLMs) have recently made significant strides, the development of artificial general intelligence (AGI) equipped with time series analysis capabilities remains in its nascent phase. Most existing time series models heavily rely on domain knowledge and extensive model tuning, predominantly focusing on prediction tasks. In this paper, we argue that current LLMs have the potential to revolutionize time series analysis, thereby promoting efficient decision-making and advancing towards a more universal form of time series analytical intelligence. Such advancement could unlock a wide range of possibilities, including time series modality switching and question answering. We encourage researchers and practitioners to recognize the potential of LLMs in advancing time series analysis and emphasize the need for trust in these related efforts. Furthermore, we detail the seamless integration of time series analysis with existing LLM technologies and outline promising avenues for future research.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-01
# 現代ホップフィールドモデルの計算極限について:細粒度複素度解析

On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis ( http://arxiv.org/abs/2402.04520v5 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Thomas Lin, Zhao Song, Han Liu, (参考訳) 本稿では,最近のホップフィールドモデルにおけるメモリ検索力学の計算限界について,微粒化複雑性解析から検討する。 我々の重要な貢献は、パターンのノルムに基づく全ての近代ホプフィールドモデルの効率における相転移の挙動を特徴づけることである。 具体的には、入力クエリパターンとメモリパターンのノルムに対する上限基準を確立する。 この基準の下には、Strong Exponential Time hypothesis (SETH) を仮定して、現代のホップフィールドモデルの準四分法的(効率的な)変種が存在する。 この理論を実証するために、効率的な基準が成立すると、低ランク近似を用いた現代のホップフィールドモデルの効率的な構成の形式的な例を示す。 これには計算時間に対する低い境界の導出が含まれ、記憶されたメモリパターンの$\max\{#、入力クエリシーケンス$\}$の長さで線形にスケールする。 さらに,メモリ検索誤差と指数的メモリ容量を有界に証明する。

We investigate the computational limits of the memory retrieval dynamics of modern Hopfield models from the fine-grained complexity analysis. Our key contribution is the characterization of a phase transition behavior in the efficiency of all possible modern Hopfield models based on the norm of patterns. Specifically, we establish an upper bound criterion for the norm of input query patterns and memory patterns. Only below this criterion, sub-quadratic (efficient) variants of the modern Hopfield model exist, assuming the Strong Exponential Time Hypothesis (SETH). To showcase our theory, we provide a formal example of efficient constructions of modern Hopfield models using low-rank approximation when the efficient criterion holds. This includes a derivation of a lower bound on the computational time, scaling linearly with $\max\{$# of stored memory patterns, length of input query sequence$\}$. In addition, we prove its memory retrieval error bound and exponential memory capacity.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-01
# 2段階強化学習とRLHFのための原則的罰則に基づく法則

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF ( http://arxiv.org/abs/2402.06886v3 )

ライセンス: Link先を確認
Han Shen, Zhuoran Yang, Tianyi Chen, (参考訳) 最近、多くの機械学習タスクにバイレベル最適化が適用されている。 しかし、それらの応用は教師付き学習環境に限定されており、そこでは良性構造を持つ静的目的関数が考慮されている。 しかし、インセンティブ設計、逆強化学習(RL)、人間からのフィードバック(RLHF)といった二段階問題は、しばしば、単純な静的な対象構造を超えた動的対象関数としてモデル化され、既存の二段階解を使用する上で重大な課題が生じる。 この新たな二段階問題に対処するために, ペナルティ定式化のレンズによる二段階RL問題の解法として, 第一原理的アルゴリズムフレームワークを導入する。 本稿では,問題景観とそのペナルティベース(政治)勾配アルゴリズムについて理論的研究を行う。 シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。

Bilevel optimization has been recently applied to many machine learning tasks. However, their applications have been restricted to the supervised learning setting, where static objective functions with benign structures are considered. But bilevel problems such as incentive design, inverse reinforcement learning (RL), and RL from human feedback (RLHF) are often modeled as dynamic objective functions that go beyond the simple static objective structures, which pose significant challenges of using existing bilevel solutions. To tackle this new class of bilevel problems, we introduce the first principled algorithmic framework for solving bilevel RL problems through the lens of penalty formulation. We provide theoretical studies of the problem landscape and its penalty-based (policy) gradient algorithms. We demonstrate the effectiveness of our algorithms via simulations in the Stackelberg Markov game, RL from human feedback and incentive design.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-01
# 戦略的環境における学習モデル選択の理解

Understanding Model Selection For Learning In Strategic Environments ( http://arxiv.org/abs/2402.07588v3 )

ライセンス: Link先を確認
Tinashe Handina, Eric Mazumdar, (参考訳) より大規模な機械学習モデルのデプロイは、モデルクラスが最適化されるほど$\unicode{x2013}$に最適化され、さらに$\unicode{x2013}$にアクセスできるデータが増えれば、パフォーマンスが向上する、というコンセンサスを反映している。 モデルがさまざまな現実世界のシナリオにデプロイされるとき、それらは必然的に戦略的環境に直面します。 本研究では,モデル間の相互作用と戦略的相互作用が,平衡における性能とモデルクラスの表現率の関係にどのように影響するか,という自然問題について考察する。 戦略的相互作用は従来のビュー$\unicode{x2013}$を破る可能性がある。つまり、モデルクラスが(無限のデータであっても)大きくなるにつれて、パフォーマンスが必ずしも単調に改善されるとは限らない。 戦略回帰,戦略分類,マルチエージェント強化学習など,いくつかの文脈において,この結果がもたらす意味を示す。 特に、これらの各設定は、より表現力の低いモデルクラスを最適化することで、より厳密な均衡結果が得られるブレースのパラドックスのような現象を許容することを示す。 これらの事例から,エージェントがゲーム内のアクションセットとして使用するさまざまなモデルクラスを選択しようとするゲームにおいて,モデル選択のための新しいパラダイムを提案する。

The deployment of ever-larger machine learning models reflects a growing consensus that the more expressive the model class one optimizes over$\unicode{x2013}$and the more data one has access to$\unicode{x2013}$the more one can improve performance. As models get deployed in a variety of real-world scenarios, they inevitably face strategic environments. In this work, we consider the natural question of how the interplay of models and strategic interactions affects the relationship between performance at equilibrium and the expressivity of model classes. We find that strategic interactions can break the conventional view$\unicode{x2013}$meaning that performance does not necessarily monotonically improve as model classes get larger or more expressive (even with infinite data). We show the implications of this result in several contexts including strategic regression, strategic classification, and multi-agent reinforcement learning. In particular, we show that each of these settings admits a Braess' paradox-like phenomenon in which optimizing over less expressive model classes allows one to achieve strictly better equilibrium outcomes. Motivated by these examples, we then propose a new paradigm for model selection in games wherein an agent seeks to choose amongst different model classes to use as their action set in a game.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-01
# アンカーベース大規模言語モデル

Anchor-based Large Language Models ( http://arxiv.org/abs/2402.07616v3 )

ライセンス: Link先を確認
Jianhui Pang, Fanghua Ye, Derek Fai Wong, Xin He, Wanshun Chen, Longyue Wang, (参考訳) 大規模言語モデル(LLM)は、主にデコーダのみのトランスフォーマーアーキテクチャを採用しており、コンテキスト情報を提供し、冗長な計算を避けるために、歴史的トークンのキー/値情報の保持を必要とする。 しかし、これらのLLMのかなりのサイズとパラメータボリュームは、大量のGPUメモリを必要とする。 このメモリ需要は入力テキストの長さとともに増大し、情報保存と処理のより効率的な方法が緊急に必要となる。 本研究では,アンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。 このアプローチにより、LLMはシーケンス情報をアンカートークンに圧縮し、キー/値キャッシュを削減し、推論効率を向上させる。 質問応答ベンチマークの実験では、AnLLMsも同様の精度を維持し、最大99%のキー/値キャッシュの削減と最大3.5倍の高速推論を実現している。 精度の小さな妥協にもかかわらず、AnSAN技術を用いたAnLLMの資源利用と計算効率の大幅な向上は、実用的LLM応用の可能性を強調した。

Large language models (LLMs) predominantly employ decoder-only transformer architectures, necessitating the retention of keys/values information for historical tokens to provide contextual information and avoid redundant computation. However, the substantial size and parameter volume of these LLMs require massive GPU memory. This memory demand increases with the length of the input text, leading to an urgent need for more efficient methods of information storage and processing. This study introduces Anchor-based LLMs (AnLLMs), which utilize an innovative anchor-based self-attention network (AnSAN) and also an anchor-based inference strategy. This approach enables LLMs to compress sequence information into an anchor token, reducing the keys/values cache and enhancing inference efficiency. Experiments on question-answering benchmarks reveal that AnLLMs maintain similar accuracy levels while achieving up to 99% keys/values cache reduction and up to 3.5 times faster inference. Despite a minor compromise in accuracy, the substantial enhancements of AnLLMs employing the AnSAN technique in resource utilization and computational efficiency underscore their potential for practical LLM applications.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-01
# 線形二次制御における政策グラディエントの不必要バイアス:初期状態に対する外挿

Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States ( http://arxiv.org/abs/2402.07875v2 )

ライセンス: Link先を確認
Noam Razin, Yotam Alexander, Edo Cohen-Karlik, Raja Giryes, Amir Globerson, Nadav Cohen, (参考訳) 現代の機械学習では、モデルは様々な方法でトレーニングデータに適合することが多く、そのうちのいくつかは目に見えない(テスト)データでうまく機能する。 このような場合、勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。 この暗黙のバイアスは教師あり学習において広く研究されたが、最適制御(強化学習)では理解されていない。 そこで、勾配降下によるシステムに適用された制御器の学習はポリシー勾配と呼ばれ、学習した制御器が未知の初期状態に外挿する程度が重要な問題である。 本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。 基本線形二次レギュレータ (LQR) 問題に着目し, トレーニングに含まれた初期状態から考えると, システムによって誘導される探索の程度によって外挿の程度が決まることを確かめる。 実験は我々の理論を裏付け、システムが非線形でコントローラがニューラルネットワークであるLQRを超えた問題に関する結論を示す。 実世界の最適制御は、トレーニングする初期状態の情報選択方法を開発することにより、大幅に改善される可能性があると仮定する。

In modern machine learning, models can often fit training data in numerous ways, some of which perform well on unseen (test) data, while others do not. Remarkably, in such cases gradient descent frequently exhibits an implicit bias that leads to excellent performance on unseen data. This implicit bias was extensively studied in supervised learning, but is far less understood in optimal control (reinforcement learning). There, learning a controller applied to a system via gradient descent is known as policy gradient, and a question of prime importance is the extent to which a learned controller extrapolates to unseen initial states. This paper theoretically studies the implicit bias of policy gradient in terms of extrapolation to unseen initial states. Focusing on the fundamental Linear Quadratic Regulator (LQR) problem, we establish that the extent of extrapolation depends on the degree of exploration induced by the system when commencing from initial states included in training. Experiments corroborate our theory, and demonstrate its conclusions on problems beyond LQR, where systems are non-linear and controllers are neural networks. We hypothesize that real-world optimal control may be greatly improved by developing methods for informed selection of initial states to train on.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-01
# Lumos : シーンテキスト認識によるマルチモーダルLLMの活用

Lumos : Empowering Multimodal LLMs with Scene Text Recognition ( http://arxiv.org/abs/2402.08017v2 )

ライセンス: Link先を確認
Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar, (参考訳) 本稿では,テキスト理解機能を備えたマルチモーダル質問応答システムLumosを紹介する。 LumosのコアとなるのはScene Text Recognition (STR)コンポーネントで、一対一の視点画像からテキストを抽出し、その出力はマルチモーダル大言語モデル(MM-LLM)への入力を増やすのに使用される。 Lumosの開発中に、STRの品質、全体的なレイテンシ、モデル推論に関する多くの課題に直面しました。 本稿では,これらの課題を掘り下げ,これらの障害を克服するためのシステムアーキテクチャ,設計選択,モデリング技術について議論する。 また、各コンポーネントに対して包括的な評価を行い、高品質かつ効率性を示します。

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-01
# 半密度検出器は局所的特徴のマッチングに優れているか?

Are Semi-Dense Detector-Free Methods Good at Matching Local Features? ( http://arxiv.org/abs/2402.08671v3 )

ライセンス: Link先を確認
Matthieu Vilain, Rémi Giraud, Hugo Germain, Guillaume Bourmaud, (参考訳) LoFTRのようなセミセンス検出器フリーアプローチ(SDF)は、現在最も人気のある画像マッチング手法の一つである。 SDF法は2つの画像間の対応性を確立するために訓練されているが、それらの性能は相対的なポーズ推定指標を用いてほぼ独占的に評価されている。 このように、対応を確立する能力と、推定されたポーズの質との関係は、今のところほとんど注目されていない。 本論文は、このリンクを研究する最初の試みである。 まず、新しく構造化された注目型画像マッチングアーキテクチャ(SAM)を提案する。 2つのデータセット(MegaDepth と HPatches)に反直感的な結果を示すことができる。一方 SAM はポーズ/ホログラフィー推定の指標で SDF メソッドよりも優れているか,あるいは同等である。 次に,マッチング精度の計算をテクスチャ化された領域に制限することを提案する。 以上の結果から,テクスチャ領域における正確な対応性を確立する能力と,推定されたポーズ/ホモグラフィーの精度との間には,強い相関性があることが示唆された。 私たちのコードは利用可能になります。

Semi-dense detector-free approaches (SDF), such as LoFTR, are currently among the most popular image matching methods. While SDF methods are trained to establish correspondences between two images, their performances are almost exclusively evaluated using relative pose estimation metrics. Thus, the link between their ability to establish correspondences and the quality of the resulting estimated pose has thus far received little attention. This paper is a first attempt to study this link. We start with proposing a novel structured attention-based image matching architecture (SAM). It allows us to show a counter-intuitive result on two datasets (MegaDepth and HPatches): on the one hand SAM either outperforms or is on par with SDF methods in terms of pose/homography estimation metrics, but on the other hand SDF approaches are significantly better than SAM in terms of matching accuracy. We then propose to limit the computation of the matching accuracy to textured regions, and show that in this case SAM often surpasses SDF methods. Our findings highlight a strong correlation between the ability to establish accurate correspondences in textured regions and the accuracy of the resulting estimated pose/homography. Our code will be made available.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-01
# SLEB: 冗長性検証によるLLMのストリーム化と変圧器ブロックの除去

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks ( http://arxiv.org/abs/2402.09025v3 )

ライセンス: Link先を確認
Jiwon Song, Kyungseok Oh, Taesu Kim, Hyungjun Kim, Yulhwa Kim, Jae-Joon Kim, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。 しかし、それらの多数のパラメータは、実践的なデプロイに重大な課題を生じさせる。 LLMのサイズと複雑さを減らすことを目的とした技術であるPruningは、ネットワークから冗長なコンポーネントを取り除くことで潜在的なソリューションを提供する。 プルーニングの約束にもかかわらず、既存の手法は、かなりエンドツーエンドのLSM推論スピードアップを達成するのに苦労することが多い。 本稿では、冗長なトランスブロックを排除し、LCMを合理化するための新しいアプローチであるSLEBを紹介する。 LLMは隣接するブロックの出力間に高い類似性を有するブロックレベルの冗長性を示すため、我々は変圧器ブロックをプルーニングの基本単位として選択する。 この選択により、LLMの処理速度を効果的に向上できる。 実験結果から,SLEBはLLM推論を高速化し,高いパープレキシティと精度を維持しつつ,従来のLLMプルーニング法よりも優れており,SLEBはLLMの効率を高めるための有望な技術であることが示された。 コードは、https://github.com/jiwonsong-dev/SLEB.comで入手できる。

Large language models (LLMs) have proven to be highly effective across various natural language processing tasks. However, their large number of parameters poses significant challenges for practical deployment. Pruning, a technique aimed at reducing the size and complexity of LLMs, offers a potential solution by removing redundant components from the network. Despite the promise of pruning, existing methods often struggle to achieve substantial end-to-end LLM inference speedup. In this paper, we introduce SLEB, a novel approach designed to streamline LLMs by eliminating redundant transformer blocks. We choose the transformer block as the fundamental unit for pruning, because LLMs exhibit block-level redundancy with high similarity between the outputs of neighboring blocks. This choice allows us to effectively enhance the processing speed of LLMs. Our experimental results demonstrate that SLEB outperforms previous LLM pruning methods in accelerating LLM inference while also maintaining superior perplexity and accuracy, making SLEB as a promising technique for enhancing the efficiency of LLMs. The code is available at: https://github.com/jiwonsong-dev/SLEB.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-01
# PaLM2-VAdapter: プログレッシブ適応型言語モデル

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter ( http://arxiv.org/abs/2402.10896v2 )

ライセンス: Link先を確認
Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang, (参考訳) 本稿では,凍結した視覚エンコーダと大規模言語モデル(LLM)を効果的に橋渡しできる言語モデルについて述べる。 視覚エンコーダとLCMの基本的なアーキテクチャと事前学習方法が広く研究されているが、視覚言語アダプタのアーキテクチャとトレーニング戦略は近年の成果によって大きく異なる。 我々の研究は、最先端のPerceiver Resamplerアーキテクチャを徹底的に調査し、強力なベースラインを構築しています。 しかし,認識器リサンプラーとの視覚言語アライメントは,直接監督が欠如しているため,収束が遅く,スケーラビリティが制限されている。 この問題に対処するため,我々は段階的に整列した言語モデルを視覚言語アダプタとして用いたPaLM2-VAdapterを提案する。 提案手法は, より高速な収束, 性能向上, 拡張性の向上を実証的に示す。 VQA(Visual Question Answering)と画像とビデオのキャプションタスクによる広範囲な実験により、我々のモデルは最先端の視覚的理解とマルチモーダル推論能力を示すことが示された。 特に,本手法は,最先端の大規模視覚言語モデルよりも30~70%少ないパラメータでこれらの進歩を達成し,大幅な効率向上を図っている。

This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models (LLMs). While the fundamental architecture and pre-training methods of vision encoders and LLMs have been extensively studied, the architecture and training strategy of vision-language adapters vary significantly across recent works. Our research undertakes a thorough exploration of the state-of-the-art perceiver resampler architecture and builds a strong baseline. However, we observe that the vision-language alignment with perceiver resampler exhibits slow convergence and limited scalability with a lack of direct supervision. To address this issue, we propose PaLM2-VAdapter, employing a progressively aligned language model as the vision-language adapter. Compared to the strong baseline with perceiver resampler, our method empirically shows faster convergence, higher performance, and stronger scalability. Extensive experiments across various Visual Question Answering (VQA) and captioning tasks on both images and videos demonstrate that our model exhibits state-of-the-art visual understanding and multi-modal reasoning capabilities. Notably, our method achieves these advancements with 30~70% fewer parameters than the state-of-the-art large vision-language models, marking a significant efficiency improvement.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-01
# 私の言葉を話せば、私はより良く学ぶ: LLM生成された応答を持つ微調整大言語モデルの上層的性能を理解する

I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated Responses ( http://arxiv.org/abs/2402.11192v2 )

ライセンス: Link先を確認
Xuan Ren, Biao Wu, Lingqiao Liu, (参考訳) 大型言語モデル(LLM)をLLMで生成した応答で微調整すると、人間で生成した応答よりも良い結果が得られることがしばしばある。 我々は、なぜこのようなことが起こるのかを理解するために、徹底的な調査を行っている。 これらの事例は、単にLLM生成内容のより詳細な性質によるものであるという一般的な信念とは対照的に、本研究では、LLMは本来、LLM生成応答とより「親しみやすい」ものである、という別の要因を特定した。 この親密さは微調整の前に低い難易度によって証明される。 我々は,この「親しみ」の影響を理解するために一連の実験を設計し,この「親しみ」が学習性能に大きく影響することを明らかにする。 LLM生成応答によるトレーニングは、パフォーマンスを高めるだけでなく、特定のタスクを微調整した後、他のタスクにおけるモデルの能力を維持するのにも役立ちます。

This paper explores an intriguing observation: fine-tuning a large language model (LLM) with responses generated by a LLM often yields better results than using responses generated by humans. We conduct an in-depth investigation to understand why this occurs. Contrary to the common belief that these instances is simply due to the more detailed nature of LLM-generated content, our study identifies another contributing factor: an LLM is inherently more "familiar" with LLM generated responses. This familiarity is evidenced by lower perplexity before fine-tuning. We design a series of experiments to understand the impact of the "familiarity" and our conclusion reveals that this "familiarity" significantly impacts learning performance. Training with LLM-generated responses not only enhances performance but also helps maintain the model's capabilities in other tasks after fine-tuning on a specific task.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-01
# 部分フィードバックによる公平な分類:探索に基づくデータ収集アプローチ

Fair Classification with Partial Feedback: An Exploration-Based Data Collection Approach ( http://arxiv.org/abs/2402.11338v2 )

ライセンス: Link先を確認
Vijay Keswani, Anay Mehrotra, L. Elisa Celis, (参考訳) 多くの予測的文脈(例えば信用貸与)において、真の結果は過去に肯定的に分類されたサンプルに対してのみ観察される。 これらの過去の観測は、将来の予測を行う分類器のための訓練データセットを形成する。 しかし、そのようなトレーニングデータセットには、過去に否定的に分類されたサンプルの結果に関する情報が欠けており、誤分類に繋がる可能性がある。 本稿では、利用可能なデータを用いて分類器を訓練し、それ以外は無視されるであろうサブ集団に関する結果データを集めるための探索戦略のファミリーを伴うアプローチを提案する。 いかなる探索戦略に対しても、アプローチは(1)全てのサブポピュレーションが探索され、(2)偽陽性の分数だけが有界であること、(3)訓練された分類器が `desired'' の分類器に収束することを保証する。 適切な探索戦略は文脈依存であり、学習保証を改善し、文脈固有のグループフェアネス特性を符号化するために選択することができる。 実世界のデータセットの評価は、このアプローチが収集された結果データの品質を一貫して向上し、予測ユーティリティをわずかに削減するだけで、すべてのグループの真の正の比率を向上することを示している。

In many predictive contexts (e.g., credit lending), true outcomes are only observed for samples that were positively classified in the past. These past observations, in turn, form training datasets for classifiers that make future predictions. However, such training datasets lack information about the outcomes of samples that were (incorrectly) negatively classified in the past and can lead to erroneous classifiers. We present an approach that trains a classifier using available data and comes with a family of exploration strategies to collect outcome data about subpopulations that otherwise would have been ignored. For any exploration strategy, the approach comes with guarantees that (1) all sub-populations are explored, (2) the fraction of false positives is bounded, and (3) the trained classifier converges to a ``desired'' classifier. The right exploration strategy is context-dependent; it can be chosen to improve learning guarantees and encode context-specific group fairness properties. Evaluation on real-world datasets shows that this approach consistently boosts the quality of collected outcome data and improves the fraction of true positives for all groups, with only a small reduction in predictive utility.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-01
# 長期連続予測のためのトラクターメモリ:カオス的視点

Attractor Memory for Long-Term Time Series Forecasting: A Chaos Perspective ( http://arxiv.org/abs/2402.11463v3 )

ライセンス: Link先を確認
Jiaxi Hu, Yuehong Hu, Wei Chen, Ming Jin, Shirui Pan, Qingsong Wen, Yuxuan Liang, (参考訳) 長期間の時系列予測(LTSF)タスクでは、離散時系列は連続力学系に由来すると認識され、それらの動的構造をモデル化しようとするモデルが増えている。 実世界のデータのカオス性を認識し、カオス理論をLTSFに組み込んで、未知の高次元カオス力学系からの観測として実世界の時系列を知覚する。 アトラオスは、非パラメトリック位相空間再構成とマルチスケール動的メモリユニットを用いて、歴史的力学構造を記憶し、周波数を拡大した局所進化戦略によって予測する。 詳細な理論的分析と豊富な経験的証拠は、Attraosが主流のLTSFデータセットやカオスデータセットにおいて、PatchTSTと比較してたったの12分の1のパラメータで、LTSFメソッドよりも優れていることを一貫して示している。

In long-term time series forecasting (LTSF) tasks, an increasing number of models have acknowledged that discrete time series originate from continuous dynamic systems and have attempted to model their dynamical structures. Recognizing the chaotic nature of real-world data, our model, \textbf{\textit{Attraos}}, incorporates chaos theory into LTSF, perceiving real-world time series as observations from unknown high-dimensional chaotic dynamic systems. Under the concept of attractor invariance, Attraos utilizes non-parametric Phase Space Reconstruction embedding and the proposed multi-scale dynamic memory unit to memorize historical dynamics structure and predicts by a frequency-enhanced local evolution strategy. Detailed theoretical analysis and abundant empirical evidence consistently show that Attraos outperforms various LTSF methods on mainstream LTSF datasets and chaotic datasets with only one-twelfth of the parameters compared to PatchTST.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-01
# SIBO:パラメータ効率の良いファインチューニングのための簡易ブースタ

SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2402.11896v2 )

ライセンス: Link先を確認
Zhihao Wen, Jie Zhang, Yuan Fang, (参考訳) 大規模言語モデル(LLM)のパラメータを微調整するには、かなりの計算能力と拡張時間が必要である。 パラメータ効率細調整(PEFT)技術の最近の進歩として、アダプタチューニング(Adapter tuning)やLoRA(LoRA)は、これらのLLMのパラメータのごく一部しか調整できない。 同時に、過度なスムース化の問題により、これらのトランスフォーマーベースのLCMの有効性が低下し、下流タスクにおける準最適性能が低下することが指摘されている。 本稿では,初期残余を注入することによってPEFTを増強するSIBOについて述べる。 SIBOは、過度なスムーシングを緩和し、性能を向上させるために、最先端のPEFT技術に容易に拡張できる。 22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。

Fine-tuning all parameters of large language models (LLMs) necessitates substantial computational power and extended time. Latest advancements in parameter-efficient fine-tuning (PEFT) techniques, such as Adapter tuning and LoRA, allow for adjustments to only a minor fraction of the parameters of these LLMs. Concurrently, it has been noted that the issue of over-smoothing diminishes the effectiveness of these Transformer-based LLMs, resulting in suboptimal performances in downstream tasks. In this paper, we present SIBO, which is a SImple BOoster to enhance PEFT, by injecting an initial residual. SIBO is straightforward and readily extensible to a range of state-of-the-art PEFT techniques to alleviate over-smoothing and enhance performance. Extensive experiments on 22 benchmark datasets demonstrate that SIBO significantly enhances the performance of various strong baselines, achieving up to 15.7% and 23.5% improvement over existing PEFT methods on the arithmetic and commonsense reasoning tasks, respectively.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-01
# SimPro: リアルタイム型半教師付き学習を目指すシンプルな確率的フレームワーク

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning ( http://arxiv.org/abs/2402.13505v3 )

ライセンス: Link先を確認
Chaoqun Du, Yizeng Han, Gao Huang, (参考訳) 半教師付き学習の最近の進歩は、ラベル付きデータの不均衡に対処しながら、ラベル付きデータのクラス分布が未知であり、潜在的にミスマッチしているという、より現実的で難しい課題に焦点が当てられている。 この領域における現在のアプローチは、ラベルのないデータのクラス分布に関する厳密な仮定を前提としており、したがってモデルの適応性は特定の分布範囲に限られる。 本研究では,ラベルなしデータの分布に関する前提に頼らない,高度に適応可能なフレームワークをSimProとして提案する。 我々のフレームワークは確率論的モデルに基づいており、条件と限界のクラス分布のモデリングを明示的に分離することにより、期待最大化(EM)アルゴリズムを革新的に洗練する。 この分離は、最大化フェーズにおけるクラス分布推定のための閉形式解を容易にし、ベイズ分類器の定式化につながる。 ベイズ分類器は、予想フェーズにおける擬ラベルの品質を高める。 注目すべきなのは、SimProフレームワークには理論的保証だけでなく、実装も簡単であることだ。 さらに,評価の範囲を広げる2つの新しいクラス分布を導入する。 本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。 私たちのコードはhttps://github.com/LeapLabTHU/SimProで利用可能です。

Recent advancements in semi-supervised learning have focused on a more realistic yet challenging task: addressing imbalances in labeled data while the class distribution of unlabeled data remains both unknown and potentially mismatched. Current approaches in this sphere often presuppose rigid assumptions regarding the class distribution of unlabeled data, thereby limiting the adaptability of models to only certain distribution ranges. In this study, we propose a novel approach, introducing a highly adaptable framework, designated as SimPro, which does not rely on any predefined assumptions about the distribution of unlabeled data. Our framework, grounded in a probabilistic model, innovatively refines the expectation-maximization (EM) algorithm by explicitly decoupling the modeling of conditional and marginal class distributions. This separation facilitates a closed-form solution for class distribution estimation during the maximization phase, leading to the formulation of a Bayes classifier. The Bayes classifier, in turn, enhances the quality of pseudo-labels in the expectation phase. Remarkably, the SimPro framework not only comes with theoretical guarantees but also is straightforward to implement. Moreover, we introduce two novel class distributions broadening the scope of the evaluation. Our method showcases consistent state-of-the-art performance across diverse benchmarks and data distribution scenarios. Our code is available at https://github.com/LeapLabTHU/SimPro.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-01
# 大マルジン半空間の再現可能な学習

Replicable Learning of Large-Margin Halfspaces ( http://arxiv.org/abs/2402.13857v2 )

ライセンス: Link先を確認
Alkis Kalavasis, Amin Karbasi, Kasper Green Larsen, Grigoris Velegkas, Felix Zhou, (参考訳) 大規模半空間を学習する問題に対して,効率的な複製可能なアルゴリズムを提供する。 その結果,Impagliazzo,Lei,Pitassi,Sorrell[STOC,2022]のアルゴリズムが改良された。 本研究では, 多項式時間で動作し, 固有であり, サンプルの複雑さをImpagliazzo et al[2022] が達成した手法と比較して厳密に改善した, このタスクのための第一次元独立レプリカブルアルゴリズムを設計する。 さらに、我々の最初のアルゴリズムは、精度パラメータ$\epsilon$に対して最適なサンプル複雑性を持つ。 また、SGDに基づくレプリカブルアルゴリズムを設計し、いくつかのパラメータのレギュレーションにおいて、最初のアルゴリズムよりもサンプリングと時間の複雑さが向上する。 多項式時間アルゴリズムの要求とは別に、Bun, Gaboardi, Hopkins, Impagliazzo, Lei, Pitassi, Sorrell, and Sivakumar [STOC, 2023] のDP-to-Replicability reduction を用いて、差分パラメータ$\tau$に対してサンプル複雑性を改善した大マージンハーフスペースに対するレプリカブルなアルゴリズムを得る方法を示す。 次に,従来の3つのアルゴリズムのすべてに比較して,1/\tau^{2}$で実行時間を指数関数的に改善したアルゴリズムを設計する。

We provide efficient replicable algorithms for the problem of learning large-margin halfspaces. Our results improve upon the algorithms provided by Impagliazzo, Lei, Pitassi, and Sorrell [STOC, 2022]. We design the first dimension-independent replicable algorithms for this task which runs in polynomial time, is proper, and has strictly improved sample complexity compared to the one achieved by Impagliazzo et al. [2022] with respect to all the relevant parameters. Moreover, our first algorithm has sample complexity that is optimal with respect to the accuracy parameter $\epsilon$. We also design an SGD-based replicable algorithm that, in some parameters' regimes, achieves better sample and time complexity than our first algorithm. Departing from the requirement of polynomial time algorithms, using the DP-to-Replicability reduction of Bun, Gaboardi, Hopkins, Impagliazzo, Lei, Pitassi, Sorrell, and Sivakumar [STOC, 2023], we show how to obtain a replicable algorithm for large-margin halfspaces with improved sample complexity with respect to the margin parameter $\tau$, but running time doubly exponential in $1/\tau^2$ and worse sample complexity dependence on $\epsilon$ than one of our previous algorithms. We then design an improved algorithm with better sample complexity than all three of our previous algorithms and running time exponential in $1/\tau^{2}$.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-01
# 背景雑音と歪みに対処したオーディオフィンガープリント精度の向上

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges ( http://arxiv.org/abs/2402.13957v2 )

ライセンス: Link先を確認
Navin Kamuni, Sathishkumar Chintala, Naveen Kunchakuri, Jyothi Swaroop Arlagadda Narasimharaju, Venkat Kumar, (参考訳) Shazamのような先駆者たちによるオーディオフィンガープリントは、デジタル音声認識を変革した。 しかし、既存のシステムは困難条件下での精度に苦しむため、適用範囲は限られている。 本研究では,AIとMLを統合した音声フィンガープリントアルゴリズムを提案する。 Dejavu Projectの基礎の上に構築されたこの研究は、様々な背景ノイズと歪みを伴う実世界のシナリオシミュレーションを強調している。 信号処理はデジャヴのモデルの中心であり、高速フーリエ変換、スペクトログラム、ピーク抽出を含む。 コンステレーション」の概念と指紋ハッシュは、ユニークな歌の識別を可能にする。 性能評価は、5秒の音声入力で100%精度を証明し、予測可能なマッチング速度を効率よく示すシステムを示す。 ストレージ分析は、実用的な実装のための重要な宇宙速度トレードオフを強調している。 本研究は音声フィンガープリントの適応性を向上し,様々な環境や応用における課題に対処する。

Audio fingerprinting, exemplified by pioneers like Shazam, has transformed digital audio recognition. However, existing systems struggle with accuracy in challenging conditions, limiting broad applicability. This research proposes an AI and ML integrated audio fingerprinting algorithm to enhance accuracy. Built on the Dejavu Project's foundations, the study emphasizes real-world scenario simulations with diverse background noises and distortions. Signal processing, central to Dejavu's model, includes the Fast Fourier Transform, spectrograms, and peak extraction. The "constellation" concept and fingerprint hashing enable unique song identification. Performance evaluation attests to 100% accuracy within a 5-second audio input, with a system showcasing predictable matching speed for efficiency. Storage analysis highlights the critical space-speed trade-off for practical implementation. This research advances audio fingerprinting's adaptability, addressing challenges in varied environments and applications.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-01
# CriticBench: 批判と正しい推論のためのLLMのベンチマーク

CriticBench: Benchmarking LLMs for Critique-Correct Reasoning ( http://arxiv.org/abs/2402.14809v4 )

ライセンス: Link先を確認
Zicheng Lin, Zhibin Gou, Tian Liang, Ruilin Luo, Haowei Liu, Yujiu Yang, (参考訳) 大規模言語モデル(LLM)がそれらの推論を批判し、洗練する能力は、評価、フィードバックのプロビジョニング、自己改善において非常に重要である。 本稿では,LCMの様々なタスクにおける推論を批判・修正する能力を評価するための総合的なベンチマークであるCriticBenchを紹介する。 CriticBenchは数学、常識、記号、コーディング、アルゴリズムの5つの推論領域を含んでいる。 15のデータセットをコンパイルし、3つのLLMファミリーからのレスポンスを組み込む。 CriticBenchを用いて、GQC推論(GQC推論)の生成、批評、修正における17個のLLMの性能を評価し、評価する。 以上の結果から,(1)GQC能力の線形関係,(2)改善能力の顕著な向上,(2)論理指向タスクの補正性の向上,(3)モデルサイズの増加に伴って低下するGQC知識の不整合,(4)より弱いモデルの方がより弱いモデルに好適なモデル間クオリティクアリングのダイナミクス,などが明らかになった。 LLMの微妙な批判的正しい推論に対するこれらの洞察が、LCM批判と自己改善のさらなる研究を促進することを願っている。

The ability of Large Language Models (LLMs) to critique and refine their reasoning is crucial for their application in evaluation, feedback provision, and self-improvement. This paper introduces CriticBench, a comprehensive benchmark designed to assess LLMs' abilities to critique and rectify their reasoning across a variety of tasks. CriticBench encompasses five reasoning domains: mathematical, commonsense, symbolic, coding, and algorithmic. It compiles 15 datasets and incorporates responses from three LLM families. Utilizing CriticBench, we evaluate and dissect the performance of 17 LLMs in generation, critique, and correction reasoning, i.e., GQC reasoning. Our findings reveal: (1) a linear relationship in GQC capabilities, with critique-focused training markedly enhancing performance; (2) a task-dependent variation in correction effectiveness, with logic-oriented tasks being more amenable to correction; (3) GQC knowledge inconsistencies that decrease as model size increases; and (4) an intriguing inter-model critiquing dynamic, where stronger models are better at critiquing weaker ones, while weaker models can surprisingly surpass stronger ones in their self-critique. We hope these insights into the nuanced critique-correct reasoning of LLMs will foster further research in LLM critique and self-improvement.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-01
# 欠測データに基づく構造学習のための最適輸送

Optimal Transport for Structure Learning Under Missing Data ( http://arxiv.org/abs/2402.15255v2 )

ライセンス: Link先を確認
Vy Vo, He Zhao, Trung Le, Edwin V. Bonilla, Dinh Phung, (参考訳) 欠落データの存在下での因果発見はニワトリと卵のジレンマを引き起こす。 真の因果構造を復元することが目的であるが、頑健な計算では変数間の因果関係を考慮し、あるいは好ましくは変数間の因果関係を考慮する必要がある。 不足した値を既存の計算手法で埋め込んだ後、その完全なデータに構造学習を適用することは、経験的に準最適であることが示される。 この問題に対処するために,最適なトランスポートに基づく欠落データから因果構造を学習するためのスコアベースアルゴリズムを提案する。 この最適輸送視点は、期待の最大化に基づいて支配的なスコアベースのアプローチから分岐する。 構造学習を密度適合問題として定式化し、観測されたデータ分布と最小ワッサーシュタイン距離の分布を誘導する因果モデルを求める。 我々のフレームワークは,ほとんどのシミュレーションや実データ設定において,競合する手法よりも効果的に真の因果グラフを復元する。 実証的な証拠はまた、我々のアプローチの優れたスケーラビリティと、既製の因果発見手法を完全なデータに組み込む柔軟性を示している。

Causal discovery in the presence of missing data introduces a chicken-and-egg dilemma. While the goal is to recover the true causal structure, robust imputation requires considering the dependencies or, preferably, causal relations among variables. Merely filling in missing values with existing imputation methods and subsequently applying structure learning on the complete data is empirically shown to be sub-optimal. To address this problem, we propose a score-based algorithm for learning causal structures from missing data based on optimal transport. This optimal transport viewpoint diverges from existing score-based approaches that are dominantly based on expectation maximization. We formulate structure learning as a density fitting problem, where the goal is to find the causal model that induces a distribution of minimum Wasserstein distance with the observed data distribution. Our framework is shown to recover the true causal graphs more effectively than competing methods in most simulations and real-data settings. Empirical evidence also shows the superior scalability of our approach, along with the flexibility to incorporate any off-the-shelf causal discovery methods for complete data.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-01
# 永続的ホモロジーによるグラフポーリングの強化

Boosting Graph Pooling with Persistent Homology ( http://arxiv.org/abs/2402.16346v2 )

ライセンス: Link先を確認
Chaolong Ying, Xinjian Zhao, Tianshu Yu, (参考訳) 近年,グラフニューラルネットワーク(GNN)に永続的ホモロジー(PH)を統合することで,表現力の強化が進んでいる。 しかし、GNN層にPH機能を鼻で接続すると、解釈可能性の低い限界改善が得られる。 本稿では,PHの濾過操作が自然にグラフプーリングを切断的に整列させるという観察に動機づけられた,グローバルなトポロジ的不変性をプーリング層に注入する新しいメカニズムについて検討する。 このような方法で、粗いグラフ内のメッセージパッシングは、永続的なプールトポロジに沿って動作し、パフォーマンスが向上する。 実験では,このメカニズムをグラフプーリング手法の集合に適用し,いくつかの一般的なデータセットに対して一貫した,実質的なパフォーマンス向上を観察し,その適用性と柔軟性を実証した。

Recently, there has been an emerging trend to integrate persistent homology (PH) into graph neural networks (GNNs) to enrich expressive power. However, naively plugging PH features into GNN layers always results in marginal improvement with low interpretability. In this paper, we investigate a novel mechanism for injecting global topological invariance into pooling layers using PH, motivated by the observation that filtration operation in PH naturally aligns graph pooling in a cut-off manner. In this fashion, message passing in the coarsened graph acts along persistent pooled topology, leading to improved performance. Experimentally, we apply our mechanism to a collection of graph pooling methods and observe consistent and substantial performance gain over several popular datasets, demonstrating its wide applicability and flexibility.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-01
# オープンストリートビュー画像を用いた都市環境の人間の知覚収集のための市民科学ツールキット

A citizen science toolkit to collect human perceptions of urban environments using open street view images ( http://arxiv.org/abs/2403.00174v3 )

ライセンス: Link先を確認
Matthew Danish, SM Labib, Britta Ricker, Marco Helbich, (参考訳) ストリートビュー画像(SVI)は、研究(環境評価、緑地識別、土地被覆分類など)に有用なデータソースである。 商用SVIは利用可能だが、そのようなプロバイダは通常、研究に必要なコピーや再利用を制限している。 オープンなSVIデータセットは、Mapillaryのような制約の少ないソースから容易に利用できるが、画像の不均一性のため、かなりの事前処理、フィルタリング、慎重な品質チェックが必要になる。 本稿では,これらの画像に写っている道路の人間の知覚調査に使用される,自動ダウンロード,処理,収穫,フィルタリングの効率的な方法を提案する。 我々は,アムステルダム(オランダ)を事例として,オープンソースの再利用可能なSVI準備とスマートフォンフレンドリーな知覚サーベイソフトウェアを実演する。 市民科学のアプローチを用いて, 様々な基準で評価された331名, 22,637名を対象に調査を行った。 我々のソフトウェアは、将来の再利用と再現性のために、パブリックリポジトリに公開しました。

Street View Imagery (SVI) is a valuable data source for studies (e.g., environmental assessments, green space identification or land cover classification). While commercial SVI is available, such providers commonly restrict copying or reuse in ways necessary for research. Open SVI datasets are readily available from less restrictive sources, such as Mapillary, but due to the heterogeneity of the images, these require substantial preprocessing, filtering, and careful quality checks. We present an efficient method for automated downloading, processing, cropping, and filtering open SVI, to be used in a survey of human perceptions of the streets portrayed in these images. We demonstrate our open-source reusable SVI preparation and smartphone-friendly perception-survey software with Amsterdam (Netherlands) as the case study. Using a citizen science approach, we collected from 331 people 22,637 ratings about their perceptions for various criteria. We have published our software in a public repository for future re-use and reproducibility.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-01
# 語彙的意味的変化検出のための意味的距離距離の学習手法

A Semantic Distance Metric Learning approach for Lexical Semantic Change Detection ( http://arxiv.org/abs/2403.00226v3 )

ライセンス: Link先を確認
Taichi Aida, Danushka Bollegala, (参考訳) 単語の時間的意味変化を検出することは、時間に敏感な予測をしなければならない様々なNLPアプリケーションにとって重要なタスクである。 Lexical Semantic Change Detection (SCD)タスクは、与えられたターゲット語である$w$が2つの異なるテキストコーパス、$C_1$と$C_2$の間で意味を変えるかどうかを予測する。 そこで本研究では,既存のWord-in-Context(WiC)データセットを用いた教師付き2段階SCD手法を提案する。 最初の段階では、ターゲット語である$w$に対して、コーパスから選択した所定の文で$w$の意味を表す2つの感覚認識エンコーダを学習する。 次に、第2段階において、ターゲット語の意味表現を、C_1$ と$C_2$ のすべての事象に対して比較する感覚認識距離計量を学習する。 SCDのための複数のベンチマークデータセットの実験結果から,提案手法が複数の言語で高い性能を達成できることが示唆された。 さらに,従来の距離関数を持つ感覚認識エンコーダと比較して,WiCベンチマークの大幅な改善を実現している。 ソースコードはhttps://github.com/LivNLP/svp-sdml で公開されている。

Detecting temporal semantic changes of words is an important task for various NLP applications that must make time-sensitive predictions. Lexical Semantic Change Detection (SCD) task involves predicting whether a given target word, $w$, changes its meaning between two different text corpora, $C_1$ and $C_2$. For this purpose, we propose a supervised two-staged SCD method that uses existing Word-in-Context (WiC) datasets. In the first stage, for a target word $w$, we learn two sense-aware encoders that represent the meaning of $w$ in a given sentence selected from a corpus. Next, in the second stage, we learn a sense-aware distance metric that compares the semantic representations of a target word across all of its occurrences in $C_1$ and $C_2$. Experimental results on multiple benchmark datasets for SCD show that our proposed method achieves strong performance in multiple languages. Additionally, our method achieves significant improvements on WiC benchmarks compared to a sense-aware encoder with conventional distance functions. Source code is available at https://github.com/LivNLP/svp-sdml .
翻訳日:2024-06-04 16:18:27 公開日:2024-06-01
# RT-H: 言語を用いたアクション階層

RT-H: Action Hierarchies Using Language ( http://arxiv.org/abs/2403.01823v2 )

ライセンス: Link先を確認
Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh, (参考訳) 言語は複雑な概念を消化可能なピースに分解する方法を提供する。 ロボット模倣学習における最近の研究は、与えられた視覚的観察と言語で指定されたハイレベルなタスクを予測する言語条件付きポリシーを用いている。 これらの手法は自然言語の構造を利用して、マルチタスクデータセットで意味論的に類似したタスク(例えば、"pick coke can" や "pick an apple" など)間でデータを共有する。 しかし、タスクが意味的に多様になるにつれて(例えば、"pick coke can" や "pour cup" など)、タスク間のデータ共有が難しくなるため、ハイレベルなタスクをアクションにマップする方法を学ぶには、より多くのデモデータが必要である。 タスクとアクションをブリッジするために、私たちの洞察はロボットに行動の言語を教え、よりきめ細かい「腕を前進させる」というフレーズで低レベルの動作を記述することです。 これらの言語の動きをタスクとアクションの中間ステップとして予測すると、ポリシーは、一見異なるタスク間で低レベルの動作の共有構造を学習せざるを得なくなる。 さらに、言語動作に条件付けされたポリシーは、人間が特定した言語動作によって実行中に容易に修正できる。 これにより、人間の言語介入から学ぶことのできるフレキシブルなポリシーの新しいパラダイムが可能になる。 我々の手法RT-Hは、まず言語の動きを予測することを学習し、それと高レベルなタスクを条件に、あらゆる段階で視覚的コンテキストを用いて行動を予測する。 RT-Hは、この言語行動階層を利用して、マルチタスクデータセットを効果的にタップすることで、より堅牢で柔軟なポリシーを学ぶ。 これらの方針は、言語介入に応答するだけでなく、遠隔操作による介入から学ぶ方法や優れた手法からも学べることを示す。 私たちのWebサイトとビデオはhttps://rt-hierarchy.github.io.comにある。

Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-01
# FedHCDR:ハイパーグラフ信号デカップリングによるクロスドメイン勧告

FedHCDR: Federated Cross-Domain Recommendation with Hypergraph Signal Decoupling ( http://arxiv.org/abs/2403.02630v3 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Lin Zhong, Xu Yang, Jiyuan Feng, Yunqing Feng, Qing Liao, (参考訳) 近年,複数のドメインのユーザデータを用いて推薦性能を向上させるクロスドメインレコメンデーション (CDR) が注目されている。 しかし、現在のCDRメソッドでは、ドメイン間でユーザデータを共有する必要があるため、GDPR(General Data Protection Regulation)に違反する。 その結果,Federated Cross-Domain Recommendation (FedCDR) には多くのアプローチが提案されている。 それでも、異なる領域にわたるデータの異質性は、フェデレート学習の全体的なパフォーマンスに必然的に影響を及ぼす。 本研究では,ハイパーグラフ信号デカップリングを用いた新しいFederated Cross-Domain RecommendationフレームワークであるFedHCDRを提案する。 具体的には、ドメイン間のデータ不均一性に対処するため、ハイパーグラフ信号デカップリング(HSD)と呼ばれるアプローチを導入し、ユーザ機能をドメイン排他的およびドメイン共有機能に分離する。 このアプローチでは、高パスと低パスのハイパーグラフフィルタを用いて、ドメイン排他的およびドメイン共有されたユーザ表現を分離する。 さらに、ユーザハイパーグラフを摂動させることにより、ドメイン共有ユーザ関係情報の学習を強化するために、ハイパーグラフコントラスト学習(HCL)モジュールを考案する。 3つの実世界のシナリオで実施された大規模な実験は、FedHCDRが既存のベースラインを著しく上回ることを示した。

In recent years, Cross-Domain Recommendation (CDR) has drawn significant attention, which utilizes user data from multiple domains to enhance the recommendation performance. However, current CDR methods require sharing user data across domains, thereby violating the General Data Protection Regulation (GDPR). Consequently, numerous approaches have been proposed for Federated Cross-Domain Recommendation (FedCDR). Nevertheless, the data heterogeneity across different domains inevitably influences the overall performance of federated learning. In this study, we propose FedHCDR, a novel Federated Cross-Domain Recommendation framework with Hypergraph signal decoupling. Specifically, to address the data heterogeneity across domains, we introduce an approach called hypergraph signal decoupling (HSD) to decouple the user features into domain-exclusive and domain-shared features. The approach employs high-pass and low-pass hypergraph filters to decouple domain-exclusive and domain-shared user representations, which are trained by the local-global bi-directional transfer algorithm. In addition, a hypergraph contrastive learning (HCL) module is devised to enhance the learning of domain-shared user relationship information by perturbing the user hypergraph. Extensive experiments conducted on three real-world scenarios demonstrate that FedHCDR outperforms existing baselines significantly.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-01
# SplAgger: メタ強化学習のための分割集約

SplAgger: Split Aggregation for Meta-Reinforcement Learning ( http://arxiv.org/abs/2403.03020v3 )

ライセンス: Link先を確認
Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon Whiteson, (参考訳) 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。 Meta-RLはこのようなエージェントを直接学習することでこれを実現する。 ブラックボックスメソッドは、オフザシェルフシーケンスモデルをエンドツーエンドでトレーニングすることで実現している。 対照的に、タスク推論手法は、通常、タスク推論を可能にするように設計された異なる目的とシーケンスモデルを用いて、未知のタスク上の後続分布を明示的に推論する。 近年の研究では、タスク推論手法は高い性能には必要ないことが示されている。 しかし,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。 本稿では,タスク推論シーケンスモデルが依然として有用であることを示す。 特に、マルコフ特性により、タスク後続がデータの順序に依存しないという事実を生かして、置換不変なアグリゲーションを持つシーケンスモデルについて検討する。 タスク推論目的を使わずに、置換不変配列モデルの利点を実証的に確認する。 しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。 そこで,SplAggerを提案する。このSplAggerは,連続制御およびメモリ環境において評価されたすべてのベースラインより優れ,両世界の長所を達成するために,置換変種と不変成分の両方を用いる。 コードはhttps://github.com/jacooba/hyper.comで提供されている。

A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. Black box methods do so by training off-the-shelf sequence models end-to-end. By contrast, task inference methods explicitly infer a posterior distribution over the unknown task, typically using distinct objectives and sequence models designed to enable task inference. Recent work has shown that task inference methods are not necessary for strong performance. However, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present evidence that task inference sequence models are indeed still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines evaluated on continuous control and memory environments. Code is provided at https://github.com/jacooba/hyper.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-01
# 量子モンテカルロによる分配関数の計算法

Reweight-annealing method for calculating the value of partition function via quantum Monte Carlo ( http://arxiv.org/abs/2403.08642v4 )

ライセンス: Link先を確認
Yi-Ming Ding, Jun-Song Sun, Nvsen Ma, Gaopei Pan, Chen Cheng, Zheng Yan, (参考訳) 分割関数、自由エネルギー、熱エントロピー計算の効率的かつ正確なアルゴリズムは、統計物理学や量子多体物理学において非常に重要である。 ここでは、量子モンテカルロフレームワーク内のバイアスのない低技術バリアアルゴリズムについて述べる。 従来の比熱積分法やWang-Landauサンプリング法と比較すると,エントロピーのサブリード係数のより正確な結果が得られる。 この方法は古典的モンテカルロシミュレーションと量子的モンテカルロシミュレーションの両方で広く利用でき、コンピュータ上で容易に並列化できる。

Efficient and accurate algorithm for partition function, free energy and thermal entropy calculations is of great significance in statistical physics and quantum many-body physics. Here we present an unbiased but low-technical-barrier algorithm within the quantum Monte Carlo framework, which has exceptionally high accuracy and no systemic error. Compared with the conventional specific heat integral method and Wang-Landau sampling algorithm, our method can obtain a much more accurate result of the sub-leading coefficient of the entropy. This method can be widely used in both classical and quantum Monte Carlo simulations and is easy to be parallelized on computer.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-01
# マルコフサンプリングによる分散TD($λ$)のワンショット平均化

One-Shot Averaging for Distributed TD($λ$) Under Markov Sampling ( http://arxiv.org/abs/2403.08896v2 )

ライセンス: Link先を確認
Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky, (参考訳) 我々は,各エージェントが同一のマルコフ決定プロセスのコピーを持っているが,各エージェントが対応するマルコフ連鎖から遷移を独立してサンプリングする,強化学習のための分散セットアップを考える。 この設定では、ターゲット精度が十分小さい場合、$N$エージェントがポリシーをN$倍高速に評価できるという意味で、ポリシー評価の一般的な方法のファミリーであるTD($\lambda$)の線形高速化が達成できることを示す。 このスピードアップは、エージェントがTD($\lambda$)を実行し、Markovが個別にサンプリングし、最終ステップ後にのみ結果を平均する手順である ``one shot averaging'' によって達成される。 これにより、以前の作業と比較して線形スピードアップを達成するのに必要な通信量が大幅に削減される。

We consider a distributed setup for reinforcement learning, where each agent has a copy of the same Markov Decision Process but transitions are sampled from the corresponding Markov chain independently by each agent. We show that in this setting, we can achieve a linear speedup for TD($\lambda$), a family of popular methods for policy evaluation, in the sense that $N$ agents can evaluate a policy $N$ times faster provided the target accuracy is small enough. Notably, this speedup is achieved by ``one shot averaging,'' a procedure where the agents run TD($\lambda$) with Markov sampling independently and only average their results after the final step. This significantly reduces the amount of communication required to achieve a linear speedup relative to previous work.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-01
# SpikeReveal:スパイクストリームでリアルタイムのBlurry入力からテンポラルシーケンスをアンロック

SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams ( http://arxiv.org/abs/2403.09486v4 )

ライセンス: Link先を確認
Kang Chen, Shiyan Chen, Jiyuan Zhang, Baoyue Zhang, Yajing Zheng, Tiejun Huang, Zhaofei Yu, (参考訳) 鮮明な画像列をぼやけた入力から再構成することは、捉えたシーンに対する洞察を高めるのに不可欠であり、画像に埋め込まれた時間的特徴が限られているため、重要な課題となる。 最大4万Hzの速度でサンプリングするスパイクカメラは、運動の特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。 それにもかかわらず、既存の手法は教師付き学習パラダイムに陥り、合成トレーニングデータドメインから分岐する実世界のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。 さらに, 実際のシーンと本質的に異なる動き解析補間に基づいて生成した画像によって再構成画像の品質を抑え, 実時間シナリオにおけるこれらの手法の一般化能力に影響を及ぼす。 これらの課題に対処するために、スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。 我々のアプローチは、スパイクストリーム、ぼやけた画像、およびそれに対応するシャープシーケンス間の理論的関係を探索するスパイク誘導型デブロアリングモデルの定式化から始まる。 そこで我々は,デブロアリングモデルで発生するスパイクノイズや空間分解能のミスマッチの問題を緩和する,自己教師型カスケードフレームワークを開発した。 知識蒸留と再ブルーリング損失を伴って,明度とテクスチャの整合性を有する高品質なシーケンスを生成する軽量デブルーネットワークを設計する。 実世界および合成データセットのスパイクを用いた定量的および定性的な実験により、提案フレームワークの優れた一般化が検証された。 私たちのコード、データ、トレーニングされたモデルは、 \url{https://github.com/chenkang455/S-SDM}で利用可能になります。

Reconstructing a sequence of sharp images from the blurry input is crucial for enhancing our insights into the captured scene and poses a significant challenge due to the limited temporal features embedded in the image. Spike cameras, sampling at rates up to 40,000 Hz, have proven effective in capturing motion features and beneficial for solving this ill-posed problem. Nonetheless, existing methods fall into the supervised learning paradigm, which suffers from notable performance degradation when applied to real-world scenarios that diverge from the synthetic training data domain. Moreover, the quality of reconstructed images is capped by the generated images based on motion analysis interpolation, which inherently differs from the actual scene, affecting the generalization ability of these methods in real high-speed scenarios. To address these challenges, we propose the first self-supervised framework for the task of spike-guided motion deblurring. Our approach begins with the formulation of a spike-guided deblurring model that explores the theoretical relationships among spike streams, blurry images, and their corresponding sharp sequences. We subsequently develop a self-supervised cascaded framework to alleviate the issues of spike noise and spatial-resolution mismatching encountered in the deblurring model. With knowledge distillation and re-blurring loss, we further design a lightweight deblur network to generate high-quality sequences with brightness and texture consistency with the original input. Quantitative and qualitative experiments conducted on our real-world and synthetic datasets with spikes validate the superior generalization of the proposed framework. Our code, data and trained models will be available at \url{https://github.com/chenkang455/S-SDM}.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-01
# ガウス過程による選好と選択から学ぶチュートリアル

A tutorial on learning from preferences and choices with Gaussian Processes ( http://arxiv.org/abs/2403.11782v4 )

ライセンス: Link先を確認
Alessio Benavoli, Dario Azzimonti, (参考訳) 推奨モデリングは、経済学、決定理論、機械学習、統計学の交差点にある。 個人の好みを理解し、どのように選択するかを理解することで、期待にぴったり合う製品を構築することができ、幅広い領域にわたってより効率的でパーソナライズされたアプリケーションを実現することができます。 本チュートリアルの目的は,ガウス的プロセス(GP)による嗜好学習のための包括的で包括的な枠組みを提示し,理性原理(経済学や意思決定理論など)を学習プロセスにシームレスに組み込む方法を示すことである。 このフレームワークは、確率関数を適切に調整することにより、ランダムなユーティリティモデル、識別の限界、およびオブジェクトとラベルの両方に矛盾する複数のユーティリティを持つシナリオを含む嗜好学習モデルの構築を可能にする。 このチュートリアルは、既存の文献の特定のギャップに対処する新しいGPベースのモデルを同時に導入しながら、確立された研究の上に構築されている。

Preference modelling lies at the intersection of economics, decision theory, machine learning and statistics. By understanding individuals' preferences and how they make choices, we can build products that closely match their expectations, paving the way for more efficient and personalised applications across a wide range of domains. The objective of this tutorial is to present a cohesive and comprehensive framework for preference learning with Gaussian Processes (GPs), demonstrating how to seamlessly incorporate rationality principles (from economics and decision theory) into the learning process. By suitably tailoring the likelihood function, this framework enables the construction of preference learning models that encompass random utility models, limits of discernment, and scenarios with multiple conflicting utilities for both object- and label-preference. This tutorial builds upon established research while simultaneously introducing some novel GP-based models to address specific gaps in the existing literature.
翻訳日:2024-06-04 15:47:27 公開日:2024-06-01
# Consistency Modelは拡散逆問題に対する効果的な後部サンプル近似である

Consistency Model is an Effective Posterior Sample Approximation for Diffusion Inverse Solvers ( http://arxiv.org/abs/2403.12063v2 )

ライセンス: Link先を確認
Tongda Xu, Ziran Zhu, Jian Li, Dailan He, Yuanyuan Wang, Ming Sun, Ling Li, Hongwei Qin, Yan Wang, Jingjing Liu, Ya-Qin Zhang, (参考訳) Diffusion Inverse Solvers (DIS) は条件分布 $p_{\theta}(X_0|y)$、事前定義された拡散モデル $p_{\theta}(X_0)$、演算子 $f(\cdot)$、未知の画像 $x'_0$ から導出される測定 $y=f(x'_0)$ からサンプルとして設計されている。 既存のDisdisは、$f(\cdot)$を、$p_{\theta}(X_0|X_t)$から引き出された近似後部サンプルで評価することで条件スコア関数を推定する。 しかし、ほとんどの先行近似は、画像分布の支持に関係しない可能性がある後続の手段に依存しており、結果として、真の画像の出現から逸脱する可能性がある。 このようなサポート外サンプルは、特にニューラルネットワークの場合、演算子$f(\cdot)$のパフォーマンスを著しく低下させる可能性がある。 本稿では,画像分布の支持下で有効なサンプルを生成することを保証し,ニューラルネットワークベースの演算子$f(\cdot)$との整合性を向上する後方近似の新しい手法を提案する。 確率フロー正規微分方程式 (PF-ODE) の初期値 $x_t$ の解が有効な後続サンプル $p_{\theta}(X_0|X_t=x_t)$ を得ることを示した。 本研究は, PF-ODE から蒸留した Consistency Model (CM) を後部サンプリングに適用する。 さらに、CMのみを用いて、新しいdisファミリーを設計する。 より広範な実験により,提案手法は,ニューラルネットワーク演算子$f(\cdot)$(eg, in semantic segmentation)に対するdisの有効性を著しく向上させることを示した。 さらに,本実験では,新しいCMベースの逆解析手法の有効性を実証した。 ソースコードは補足材料に提供される。

Diffusion Inverse Solvers (DIS) are designed to sample from the conditional distribution $p_{\theta}(X_0|y)$, with a predefined diffusion model $p_{\theta}(X_0)$, an operator $f(\cdot)$, and a measurement $y=f(x'_0)$ derived from an unknown image $x'_0$. Existing DIS estimate the conditional score function by evaluating $f(\cdot)$ with an approximated posterior sample drawn from $p_{\theta}(X_0|X_t)$. However, most prior approximations rely on the posterior means, which may not lie in the support of the image distribution, thereby potentially diverge from the appearance of genuine images. Such out-of-support samples may significantly degrade the performance of the operator $f(\cdot)$, particularly when it is a neural network. In this paper, we introduces a novel approach for posterior approximation that guarantees to generate valid samples within the support of the image distribution, and also enhances the compatibility with neural network-based operators $f(\cdot)$. We first demonstrate that the solution of the Probability Flow Ordinary Differential Equation (PF-ODE) with an initial value $x_t$ yields an effective posterior sample $p_{\theta}(X_0|X_t=x_t)$. Based on this observation, we adopt the Consistency Model (CM), which is distilled from PF-ODE, for posterior sampling. Furthermore, we design a novel family of DIS using only CM. Through extensive experiments, we show that our proposed method for posterior sample approximation substantially enhance the effectiveness of DIS for neural network operators $f(\cdot)$ (e.g., in semantic segmentation). Additionally, our experiments demonstrate the effectiveness of the new CM-based inversion techniques. The source code is provided in the supplementary material.
翻訳日:2024-06-04 15:47:27 公開日:2024-06-01
# シャン:3次元パラメトリック誘導による制御可能で一貫性のある人間の画像アニメーション

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance ( http://arxiv.org/abs/2403.14781v2 )

ライセンス: Link先を確認
Shenhao Zhu, Junming Leo Chen, Zuozhuo Dai, Qingkun Su, Yinghui Xu, Xun Cao, Yao Yao, Hao Zhu, Siyu Zhu, (参考訳) 本研究では,3次元人間のパラメトリックモデルを潜伏拡散フレームワーク内で活用し,カーレントヒト生成技術における形状アライメントと動き誘導を強化することにより,人間の画像アニメーションの方法論を提案する。 この手法は、SMPL(Skinned Multi-Person Linear)モデルを3次元人間のパラメトリックモデルとして利用し、身体形状とポーズの統一表現を確立する。 これにより、ソースビデオから複雑な人間の幾何学的特徴と運動特性を正確に捉えることができる。 具体的には,SMPL配列から得られた描画深度画像,正規マップ,意味マップを骨格に基づく動作誘導とともに組み込んで,包括的3次元形状と詳細なポーズ特性を持つ潜伏拡散モデルへの条件を充実させる。 自己アテンション機構を統合した多層移動融合モジュールを用いて空間領域における形状と動き潜伏表現を融合する。 人間の3次元パラメトリックモデルを動作誘導として表現することにより、基準画像と音源映像の動きの間に人体のパラメトリック形状アライメントを行うことができる。 ベンチマークデータセットで実施された実験的評価は、ポーズと形状のバリエーションを正確にキャプチャする高品質な人間のアニメーションを生成する方法の優れた能力を示している。 さらに,本手法は,提案したWildデータセットに対して,より優れた一般化能力を示す。 プロジェクトページ: https://fudan-generative-vision.github.io/champ.com

In this study, we introduce a methodology for human image animation by leveraging a 3D human parametric model within a latent diffusion framework to enhance shape alignment and motion guidance in curernt human generative techniques. The methodology utilizes the SMPL(Skinned Multi-Person Linear) model as the 3D human parametric model to establish a unified representation of body shape and pose. This facilitates the accurate capture of intricate human geometry and motion characteristics from source videos. Specifically, we incorporate rendered depth images, normal maps, and semantic maps obtained from SMPL sequences, alongside skeleton-based motion guidance, to enrich the conditions to the latent diffusion model with comprehensive 3D shape and detailed pose attributes. A multi-layer motion fusion module, integrating self-attention mechanisms, is employed to fuse the shape and motion latent representations in the spatial domain. By representing the 3D human parametric model as the motion guidance, we can perform parametric shape alignment of the human body between the reference image and the source video motion. Experimental evaluations conducted on benchmark datasets demonstrate the methodology's superior ability to generate high-quality human animations that accurately capture both pose and shape variations. Furthermore, our approach also exhibits superior generalization capabilities on the proposed in-the-wild dataset. Project page: https://fudan-generative-vision.github.io/champ.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-01
# 拡散特徴の集約によるオブジェクトポス推定

Object Pose Estimation via the Aggregation of Diffusion Features ( http://arxiv.org/abs/2403.18791v2 )

ライセンス: Link先を確認
Tianfu Wang, Guosheng Hu, Hongguang Wang, (参考訳) 画像からオブジェクトのポーズを推定することは3Dシーン理解の重要な課題であり、最近のアプローチでは、非常に大きなベンチマークで有望な結果を示している。 しかしながら、これらのメソッドは、目に見えないオブジェクトを扱う際に、大幅なパフォーマンス低下を経験します。 画像特徴の限定的な一般化性から生じると我々は信じている。 この問題に対処するために、我々は拡散モデル、例えば安定拡散(Stable Diffusion)の特徴を詳細に分析する。 この分析に基づいて、オブジェクトのポーズ推定にこれらの拡散機能を革新的に導入する。 そこで本研究では,異なる粒度の拡散特性を効果的に捕捉・集約し,オブジェクトのポーズ推定の一般化性を大幅に向上する3つのアーキテクチャを提案する。 提案手法は,3つのベンチマークデータセット,LM,O-LM,T-LESSに対して,最先端の手法よりもかなり優れている。 特に,本手法は,従来の未確認オブジェクトに対して98.2%対93.5%,未確認O-LMでは85.9%対76.3%,未確認O-LMでは98.2%対93.5%と高い精度を達成し,本手法の強い一般化性を示した。 私たちのコードはhttps://github.com/Tianfu18/diff-feats-poseでリリースされています。

Estimating the pose of objects from images is a crucial task of 3D scene understanding, and recent approaches have shown promising results on very large benchmarks. However, these methods experience a significant performance drop when dealing with unseen objects. We believe that it results from the limited generalizability of image features. To address this problem, we have an in-depth analysis on the features of diffusion models, e.g. Stable Diffusion, which hold substantial potential for modeling unseen objects. Based on this analysis, we then innovatively introduce these diffusion features for object pose estimation. To achieve this, we propose three distinct architectures that can effectively capture and aggregate diffusion features of different granularity, greatly improving the generalizability of object pose estimation. Our approach outperforms the state-of-the-art methods by a considerable margin on three popular benchmark datasets, LM, O-LM, and T-LESS. In particular, our method achieves higher accuracy than the previous best arts on unseen objects: 98.2% vs. 93.5% on Unseen LM, 85.9% vs. 76.3% on Unseen O-LM, showing the strong generalizability of our method. Our code is released at https://github.com/Tianfu18/diff-feats-pose.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-01
# CHAIN:リプシッツ連続性によるデータ効率GANの一般化の促進

CHAIN: Enhancing Generalization in Data-Efficient GANs via lipsCHitz continuity constrAIned Normalization ( http://arxiv.org/abs/2404.00521v4 )

ライセンス: Link先を確認
Yao Ni, Piotr Koniusz, (参考訳) GAN(Generative Adversarial Networks)は画像生成を著しく進歩させるが、その性能は豊富なトレーニングデータに大きく依存する。 限られたデータを持つシナリオでは、GANは差別者の過度な適合と不安定なトレーニングに苦労することが多い。 バッチ正規化(BN)は、一般化と訓練安定性の向上で知られているが、データ効率のよいGANの識別器としてはほとんど使われていない。 我々の研究は、BNの重大な欠陥、すなわち集中とスケーリングの段階における勾配爆発の傾向を特定することで、このギャップに対処する。 この問題に対処するために、従来の中心ステップをゼロ平均正規化に置き換え、スケーリングステップにリプシッツ連続性制約を統合するCHAIN(lipsCHitz continuity constrAIned Normalization)を提案する。 CHAINは、正常化および非正規化特徴を適応的に補間することにより、GANトレーニングをさらに強化し、判別器の過剰適合を効果的に回避する。 我々の理論解析は、CHAINが潜伏特徴と重みの勾配を減少させ、GANトレーニングの安定性と一般化を向上する効果を確固たるものにしている。 実証的な証拠が我々の理論を支持している。 CHAINは、CIFAR-10/100、ImageNet、5つのローショット、7つの高解像度のショットイメージデータセット上のデータ制限シナリオにおいて、最先端の結果を達成する。 コード:https://github.com/MaxwellYaoNi/CHAIN

Generative Adversarial Networks (GANs) significantly advanced image generation but their performance heavily depends on abundant training data. In scenarios with limited data, GANs often struggle with discriminator overfitting and unstable training. Batch Normalization (BN), despite being known for enhancing generalization and training stability, has rarely been used in the discriminator of Data-Efficient GANs. Our work addresses this gap by identifying a critical flaw in BN: the tendency for gradient explosion during the centering and scaling steps. To tackle this issue, we present CHAIN (lipsCHitz continuity constrAIned Normalization), which replaces the conventional centering step with zero-mean regularization and integrates a Lipschitz continuity constraint in the scaling step. CHAIN further enhances GAN training by adaptively interpolating the normalized and unnormalized features, effectively avoiding discriminator overfitting. Our theoretical analyses firmly establishes CHAIN's effectiveness in reducing gradients in latent features and weights, improving stability and generalization in GAN training. Empirical evidence supports our theory. CHAIN achieves state-of-the-art results in data-limited scenarios on CIFAR-10/100, ImageNet, five low-shot and seven high-resolution few-shot image datasets. Code: https://github.com/MaxwellYaoNi/CHAIN
翻訳日:2024-06-04 15:37:39 公開日:2024-06-01
# Voice EHR: 健康のためのマルチモーダルオーディオデータの導入

Voice EHR: Introducing Multimodal Audio Data for Health ( http://arxiv.org/abs/2404.01620v2 )

ライセンス: Link先を確認
James Anibal, Hannah Huth, Ming Li, Lindsey Hazen, Yen Minh Lam, Hang Nguyen, Phuc Hong, Michael Kleinman, Shelley Ost, Christopher Jackson, Laura Sprabery, Cheran Elangovan, Balaji Krishnaiah, Lee Akst, Ioan Lina, Iqbal Elyazar, Lenny Ekwati, Stefan Jansen, Richard Nduwayezu, Charisse Garcia, Jeffrey Plum, Jacqueline Brenner, Miranda Song, Emily Ricotta, David Clifton, C. Louise Thwaites, Yael Bensoussan, Bradford Wood, (参考訳) オーディオデータに基づいてトレーニングされた大規模なAIモデルは、患者を迅速に分類し、医療上の意思決定を強化し、早期発見を通じて結果を改善する可能性がある。 既存の技術は、高所得の英語圏で高価な記録装置を使用する限られたデータセットに依存している。 これにより、オーディオデータが大きな影響を与える可能性のある、リソース制約のある高ボリューム設定へのデプロイメントが困難になる。 本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。 このアプリケーションは最終的に、従来の音声/呼吸機能、音声パターン、意味のある言語から健康の複雑なバイオマーカーを含む音声電子健康記録(ボイスEHR)を出力し、単調な臨床データセットの典型的な制限を補う。 本報告では、グローバルな作業のためのパートナーのコンソーシアムを紹介し、データ収集に使用されるアプリケーションを紹介し、音声AIのスケーラビリティと多様性を向上するために、インフォメーション音声EHRの可能性を示す。

Large AI models trained on audio data may have the potential to rapidly classify patients, enhancing medical decision-making and potentially improving outcomes through early detection. Existing technologies depend on limited datasets using expensive recording equipment in high-income, English-speaking countries. This challenges deployment in resource-constrained, high-volume settings where audio data may have a profound impact. This report introduces a novel data type and a corresponding collection system that captures health data through guided questions using only a mobile/web application. This application ultimately results in an audio electronic health record (voice EHR) which may contain complex biomarkers of health from conventional voice/respiratory features, speech patterns, and language with semantic meaning - compensating for the typical limitations of unimodal clinical datasets. This report introduces a consortium of partners for global work, presents the application used for data collection, and showcases the potential of informative voice EHR to advance the scalability and diversity of audio AI.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-01
# BruSLeAttack: クエリ効率の良いスコアベースのブラックボックススパース攻撃

BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack ( http://arxiv.org/abs/2404.05311v2 )

ライセンス: Link先を確認
Viet Quoc Vo, Ehsan Abbasnejad, Damith C. Ranasinghe, (参考訳) モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。 スパース攻撃は、最小数のl0境界摂動を発見し、入力をモデル化し、敵の例や間違ったモデル決定を作成することを目的としている。 しかし、ブラックボックスモデルに対するクエリベースの高密度攻撃とは対照的に、スコアベースの設定でクエリに対して信頼性スコア情報を提供するモデルであっても、スパース対逆摂動を構築することは簡単ではない。 なぜなら、そのような攻撃が原因であるからである。 i) NPハード問題,及び 二 識別不能な検索空間 この問題に対するBruSLeAttackアルゴリズムを新たに開発し,より高速(よりクエリ効率のよい)ベイズアルゴリズムを提案する。 Google Cloud Visionで実証された機械学習・アズ・ア・サービス(MLaaS)に対する攻撃デモや、敵のトレーニング体制の堅牢性テスト、最近のブラックボックス攻撃に対する防御など、幅広い攻撃評価を行います。 提案した攻撃スケールは、異なるモデルアーキテクチャにわたるImageNetなどの標準的なコンピュータビジョンタスクにおいて、最先端の攻撃成功率とクエリ効率を達成する。 アーティファクトとDIY攻撃サンプルはGitHubで入手可能です。 重要なことは、我々の作業はモデルの脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。

We study the unique, less-well understood problem of generating sparse adversarial samples simply by observing the score-based replies to model queries. Sparse attacks aim to discover a minimum number-the l0 bounded-perturbations to model inputs to craft adversarial examples and misguide model decisions. But, in contrast to query-based dense attack counterparts against black-box models, constructing sparse adversarial perturbations, even when models serve confidence score information to queries in a score-based setting, is non-trivial. Because, such an attack leads to i) an NP-hard problem; and ii) a non-differentiable search space. We develop the BruSLeAttack-a new, faster (more query-efficient) Bayesian algorithm for the problem. We conduct extensive attack evaluations including an attack demonstration against a Machine Learning as a Service (MLaaS) offering exemplified by Google Cloud Vision and robustness testing of adversarial training regimes and a recent defense against black-box attacks. The proposed attack scales to achieve state-of-the-art attack success rates and query efficiency on standard computer vision tasks such as ImageNet across different model architectures. Our artefacts and DIY attack samples are available on GitHub. Importantly, our work facilitates faster evaluation of model vulnerabilities and raises our vigilance on the safety, security and reliability of deployed systems.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-01
# UAVローカライゼーションのためのエッジ検出とニューラルネットワークの活用

Leveraging edge detection and neural networks for better UAV localization ( http://arxiv.org/abs/2404.06207v3 )

ライセンス: Link先を確認
Theo Di Piazza, Enric Meinhardt-Llopis, Gabriele Facciolo, Benedicte Bascle, Corentin Abgrall, Jean-Clement Devaux, (参考訳) グローバルナビゲーション衛星システム(GNSS)を欠いた環境下で無人航空機(UAV)をジオローカライズするための新しい手法を提案する。 現在の最先端技術では、オフラインで訓練されたエンコーダを使用して、UAVの現在のビューのベクトル表現(埋め込み)を生成し、それと、Geo-Referencedイメージの事前計算による埋め込みを比較して、UAVの位置を決定する。 そこで本研究では,画像の前処理によるエッジ抽出により,季節や照明の変動に対するロバスト性を示すことにより,これらの手法の性能を著しく向上できることを実証する。 さらに,エッジの利用により,方向と高度の不正確さに対するレジリエンスが向上することが確認された。 さらに,ローカライゼーションのための信頼性基準を導入する。 我々の発見は合成実験によって裏付けられている。

We propose a novel method for geolocalizing Unmanned Aerial Vehicles (UAVs) in environments lacking Global Navigation Satellite Systems (GNSS). Current state-of-the-art techniques employ an offline-trained encoder to generate a vector representation (embedding) of the UAV's current view, which is then compared with pre-computed embeddings of geo-referenced images to determine the UAV's position. Here, we demonstrate that the performance of these methods can be significantly enhanced by preprocessing the images to extract their edges, which exhibit robustness to seasonal and illumination variations. Furthermore, we establish that utilizing edges enhances resilience to orientation and altitude inaccuracies. Additionally, we introduce a confidence criterion for localization. Our findings are substantiated through synthetic experiments.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-01
# 機械学習に頼ったリソースの割り当てはランダムにすべき

Scarce Resource Allocations That Rely On Machine Learning Should Be Randomized ( http://arxiv.org/abs/2404.08592v2 )

ライセンス: Link先を確認
Shomik Jain, Kathleen Creel, Ashia Wilson, (参考訳) アルゴリズムフェアネスの伝統的な決定論的概念とは対照的に、機械学習を用いて不足資源を割当するにはランダム性を必要とすることが多い、と本論文は主張する。 個人がソーシャルグッズや機会を割り当てなければならないという主張を、より適切に考慮する確率的手続きを提案することによって、なぜ、いつ、どのようにランダム化するかに対処する。

Contrary to traditional deterministic notions of algorithmic fairness, this paper argues that fairly allocating scarce resources using machine learning often requires randomness. We address why, when, and how to randomize by proposing stochastic procedures that more adequately account for all of the claims that individuals have to allocations of social goods or opportunities.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-01
# 協調フィルタリングに適合する大規模言語モデル: 効率的なLLMベースのレコメンダシステム

Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System ( http://arxiv.org/abs/2404.11343v2 )

ライセンス: Link先を確認
Sein Kim, Hongseok Kang, Seungyoon Choi, Donghyun Kim, Minchul Yang, Chanyoung Park, (参考訳) 協調フィルタリング推薦システム (CF-RecSys) は, ソーシャルメディアやeコマースプラットフォーム上でのユーザエクスペリエンス向上に成功している。 しかし, CF-RecSysは, 疎密なユーザとイテムの相互作用を伴うコールドシナリオで苦労しているため, 事前学習したモダリティエンコーダとLarge Language Models(LLMs)に基づくユーザ/イテム(例えばテキストや画像)のモダリティ情報の活用に重点を置いている。 寒冷なシナリオでは有効であるが, 協調的な知識の欠如により, 温暖なシナリオ下では, 単純な協調フィルタリングモデルが不十分であることがわかった。 本研究では, コールドシナリオだけでなく, ウォームシナリオにおいても優れる, A-LLMRec と呼ばれる全周 LLM ベースの効率的なレコメンダシステムを提案する。 我々の基本的な考え方は、LLMが事前訓練されたCF-RecSysに含まれる協調的な知識を直接活用することで、LLMの創発的能力と、すでに最先端のCF-RecSysによって訓練されている高品質なユーザ/イテム埋め込みを共同で活用できるようにすることである。 このアプローチは、(1)モデルに依存しない、既存のCF-RecSysとの統合を可能にする、(2)効率の2つの利点をもたらす。 さまざまな実世界のデータセットに関する広範な実験は、コールド/ウォーム、少数ショット、コールドユーザー、クロスドメインシナリオなど、さまざまなシナリオにおいてA-LLMRecの優位性を実証している。 推薦タスクの他に、お気に入りのジャンル予測タスクを実行することで協調的な知識の理解に基づいて、自然言語出力を生成するA-LLMRecの可能性を示す。 私たちのコードはhttps://github.com/ghdtjr/A-LLMRecで利用可能です。

Collaborative filtering recommender systems (CF-RecSys) have shown successive results in enhancing the user experience on social media and e-commerce platforms. However, as CF-RecSys struggles under cold scenarios with sparse user-item interactions, recent strategies have focused on leveraging modality information of user/items (e.g., text or images) based on pre-trained modality encoders and Large Language Models (LLMs). Despite their effectiveness under cold scenarios, we observe that they underperform simple traditional collaborative filtering models under warm scenarios due to the lack of collaborative knowledge. In this work, we propose an efficient All-round LLM-based Recommender system, called A-LLMRec, that excels not only in the cold scenario but also in the warm scenario. Our main idea is to enable an LLM to directly leverage the collaborative knowledge contained in a pre-trained state-of-the-art CF-RecSys so that the emergent ability of the LLM as well as the high-quality user/item embeddings that are already trained by the state-of-the-art CF-RecSys can be jointly exploited. This approach yields two advantages: (1) model-agnostic, allowing for integration with various existing CF-RecSys, and (2) efficiency, eliminating the extensive fine-tuning typically required for LLM-based recommenders. Our extensive experiments on various real-world datasets demonstrate the superiority of A-LLMRec in various scenarios, including cold/warm, few-shot, cold user, and cross-domain scenarios. Beyond the recommendation task, we also show the potential of A-LLMRec in generating natural language outputs based on the understanding of the collaborative knowledge by performing a favorite genre prediction task. Our code is available at https://github.com/ghdtjr/A-LLMRec .
翻訳日:2024-06-04 15:18:10 公開日:2024-06-01
# ニューラルフロー拡散モデル:改良された拡散モデルのための学習可能な前方プロセス

Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling ( http://arxiv.org/abs/2404.12940v2 )

ライセンス: Link先を確認
Grigory Bartosh, Dmitry Vetrov, Christian A. Naesseth, (参考訳) 従来の拡散モデルは一般に固定前方過程に依存し、潜在変数上の複素境界分布を暗黙的に定義する。 これはしばしば、生成的軌跡を学習する際の逆過程のタスクを複雑にし、拡散モデルに対するコストのかかる推論をもたらす。 これらの制約に対処するため,我々は,標準ガウスを超えて幅広い前方プロセスをサポートすることで拡散モデルを強化する新しいフレームワークであるNeural Flow Diffusion Models (NFDM)を導入する。 また,前処理を学習するための新しいパラメータ化手法を提案する。 筆者らのフレームワークは, エンド・ツー・エンドでシミュレーション不要な最適化を目標とし, 負の対数線上の変分上限を効果的に最小化する。 実験によりNFDMの強い性能が実証された。 さらに,NFDMが生成力学を学習する能力,例えば決定論的直線軌跡などの特性について検討し,この枠組みが2つの分布間の橋梁の学習にどのように適用されるかを示す。 この結果は、NFDMの汎用性と幅広い応用の可能性を示している。

Conventional diffusion models typically relies on a fixed forward process, which implicitly defines complex marginal distributions over latent variables. This can often complicate the reverse process' task in learning generative trajectories, and results in costly inference for diffusion models. To address these limitations, we introduce Neural Flow Diffusion Models (NFDM), a novel framework that enhances diffusion models by supporting a broader range of forward processes beyond the standard Gaussian. We also propose a novel parameterization technique for learning the forward process. Our framework provides an end-to-end, simulation-free optimization objective, effectively minimizing a variational upper bound on the negative log-likelihood. Experimental results demonstrate NFDM's strong performance, evidenced by state-of-the-art likelihood estimation. Furthermore, we investigate NFDM's capacity for learning generative dynamics with specific characteristics, such as deterministic straight lines trajectories, and demonstrate how the framework may be adopted for learning bridges between two distributions. The results underscores NFDM's versatility and its potential for a wide range of applications.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-01
# DMesh: 差別化可能なメッシュ表現

DMesh: A Differentiable Mesh Representation ( http://arxiv.org/abs/2404.13445v2 )

ライセンス: Link先を確認
Sanghyun Son, Matheus Gadelha, Yang Zhou, Zexiang Xu, Ming C. Lin, Yi Zhou, (参考訳) 一般的な3次元三角形メッシュに対して微分可能表現 DMesh を提案する。 DMeshはメッシュの幾何学情報と接続情報の両方を考慮する。 我々の設計では、まず、重み付きデラウネー三角測量(WDT)に基づいて領域をコンパクトにテセルレートする凸テトラヘドラの集合を取得し、テトラヘドラ上の三角形の面を選択して最終メッシュを定義する。 我々は、WDTに基づいて、実際の表面に存在する顔の確率を微分可能な方法で定式化する。 これにより、DMeshは様々なトポロジのメッシュを微分可能な方法で表現することができ、勾配に基づく最適化を用いて、ポイントクラウドやマルチビューイメージなど、さまざまな観測の下でメッシュを再構築することができる。 ソースコードと全文は、https://sonsang.github.io/dmesh-project.orgで入手できる。

We present a differentiable representation, DMesh, for general 3D triangular meshes. DMesh considers both the geometry and connectivity information of a mesh. In our design, we first get a set of convex tetrahedra that compactly tessellates the domain based on Weighted Delaunay Triangulation (WDT), and select triangular faces on the tetrahedra to define the final mesh. We formulate probability of faces to exist on the actual surface in a differentiable manner based on the WDT. This enables DMesh to represent meshes of various topology in a differentiable way, and allows us to reconstruct the mesh under various observations, such as point cloud and multi-view images using gradient-based optimization. The source code and full paper is available at: https://sonsang.github.io/dmesh-project.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-01
# 時間的大域的テキスト知識に基づくビデオ文の理解

Video sentence grounding with temporally global textual knowledge ( http://arxiv.org/abs/2404.13611v2 )

ライセンス: Link先を確認
Cai Chen, Runzhong Zhang, Jianjun Gao, Kejun Wu, Kim-Hui Yap, Yi Wang, (参考訳) 時間的な文の接地には、自然言語クエリによるビデオモーメントの検索が含まれる。 既存の多くの研究は、与えられたビデオと時間的局所化クエリを直接組み込んで、異なるモダリティ間の固有のドメインギャップを見渡している。 本稿では,同じビデオクエリ対から得られた広範にグローバルなテキスト知識を含む擬似クエリ機能を用いて,ドメインギャップのブリッジ化を強化し,マルチモーダル特徴間の類似度を高める。 具体的には,PIN(Pseudo-query Intermediary Network)を提案する。 その後、学習可能なプロンプトを用いて擬似クエリの知識をカプセル化し、それらをテキストエンコーダとマルチモーダル融合モジュールに伝播させ、視覚と言語間の特徴的アライメントをさらに強化し、時間的グラウンドリングを改善する。 Charades-STAおよびActivityNet-Captionsデータセットで実施された大規模な実験により,本手法の有効性が示された。

Temporal sentence grounding involves the retrieval of a video moment with a natural language query. Many existing works directly incorporate the given video and temporally localized query for temporal grounding, overlooking the inherent domain gap between different modalities. In this paper, we utilize pseudo-query features containing extensive temporally global textual knowledge sourced from the same video-query pair, to enhance the bridging of domain gaps and attain a heightened level of similarity between multi-modal features. Specifically, we propose a Pseudo-query Intermediary Network (PIN) to achieve an improved alignment of visual and comprehensive pseudo-query features within the feature space through contrastive learning. Subsequently, we utilize learnable prompts to encapsulate the knowledge of pseudo-queries, propagating them into the textual encoder and multi-modal fusion module, further enhancing the feature alignment between visual and language for better temporal grounding. Extensive experiments conducted on the Charades-STA and ActivityNet-Captions datasets demonstrate the effectiveness of our method.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-01
# 帰属的データ拡張によるモデルレジリエンス向上

Boosting Model Resilience via Implicit Adversarial Data Augmentation ( http://arxiv.org/abs/2404.16307v2 )

ライセンス: Link先を確認
Xiaoling Zhou, Wei Ye, Zhemg Lee, Rui Xie, Shikun Zhang, (参考訳) データ拡張は、トレーニングデータの強化と多様化において重要な役割を果たす。 それでも、さまざまな学習シナリオ、特に固有のデータバイアスのあるシナリオにおいて、モデルパフォーマンスを継続的に改善するのは難しい。 そこで本研究では,各試料の固有特性に合わせた学習困難度を適応的に調整し,対向的および対向的摂動分布を組み込むことにより,試料の深い特徴を増大させることを提案する。 そこで我々は,増補されたコピーの数が無限に増加するにつれて,サロゲート損失関数の最適化が近似されることを理論的に明らかにした。 この知見は,この新たな損失を伴って分類器を最適化するメタラーニングベースのフレームワークを開発し,明示的な拡張過程を回避しながら拡張の効果を導入することにつながる。 長い尾学習、一般化された長い尾学習、ノイズのあるラベル学習、サブポピュレーションシフト学習という4つの一般的なバイアス付き学習シナリオにまたがる広範な実験を行った。 実験結果から,本手法は常に最先端の性能を達成し,適用性の向上を図っている。

Data augmentation plays a pivotal role in enhancing and diversifying training data. Nonetheless, consistently improving model performance in varied learning scenarios, especially those with inherent data biases, remains challenging. To address this, we propose to augment the deep features of samples by incorporating their adversarial and anti-adversarial perturbation distributions, enabling adaptive adjustment in the learning difficulty tailored to each sample's specific characteristics. We then theoretically reveal that our augmentation process approximates the optimization of a surrogate loss function as the number of augmented copies increases indefinitely. This insight leads us to develop a meta-learning-based framework for optimizing classifiers with this novel loss, introducing the effects of augmentation while bypassing the explicit augmentation process. We conduct extensive experiments across four common biased learning scenarios: long-tail learning, generalized long-tail learning, noisy label learning, and subpopulation shift learning. The empirical results demonstrate that our method consistently achieves state-of-the-art performance, highlighting its broad adaptability.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-01
# 高次元不均一処理効果評価のためのPareto-Smoothed Weighting

Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2404.17483v5 )

ライセンス: Link先を確認
Yoichi Chikahara, Kansei Ushiyama, (参考訳) 高次元の特徴属性を用いて、個人間での不均一な治療効果を推定することへの関心が高まっている。 このような高次元不均一処理効果推定における高い性能を達成することは、この設定では、一部の特徴がサンプル選択バイアスを誘導するのに対し、他の特徴は潜在的な結果の予測をしないため、通常である。 このような予測的特徴情報を失うのを避けるため、既存の手法では逆確率重み付け(IPW)を用いて特徴表現を個別に学習する。 しかし、数値的に不安定なIPW重みのため、これらの手法は有限サンプル設定下での推定バイアスに悩まされる。 重み付き表現学習による数値的ロバストな推定器を開発するために,極度の重み値をエンドツーエンドに置き換える微分可能なパレート平滑化フレームワークを提案する。 提案手法は, 従来の重み付け方式を含む既存手法よりも優れていることを示す。 私たちのコードはhttps://github.com/ychika/DPSW.comで利用可能です。

There is a growing interest in estimating heterogeneous treatment effects across individuals using their high-dimensional feature attributes. Achieving high performance in such high-dimensional heterogeneous treatment effect estimation is challenging because in this setup, it is usual that some features induce sample selection bias while others do not but are predictive of potential outcomes. To avoid losing such predictive feature information, existing methods learn separate feature representations using inverse probability weighting (IPW). However, due to their numerically unstable IPW weights, these methods suffer from estimation bias under a finite sample setup. To develop a numerically robust estimator by weighted representation learning, we propose a differentiable Pareto-smoothed weighting framework that replaces extreme weight values in an end-to-end fashion. Our experimental results show that by effectively correcting the weight values, our proposed method outperforms the existing ones, including traditional weighting schemes. Our code is available at https://github.com/ychika/DPSW.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-01
# 生活予測のための時間的・不均一グラフニューラルネットワーク

Temporal and Heterogeneous Graph Neural Network for Remaining Useful Life Prediction ( http://arxiv.org/abs/2405.04336v2 )

ライセンス: Link先を確認
Zhihao Wen, Yuan Fang, Pengcheng Wei, Fayao Liu, Zhenghua Chen, Min Wu, (参考訳) RUL(Predicting Remaining Useful Life)は、様々な相互関連センサーを含む産業システムの予後と健康管理において重要な役割を担っている。 このようなシステムからの時系列センサデータの一定のストリームが与えられたとき、深層学習モデルはこれらのデータの複雑で非線形な時間的依存関係を特定することに成功している。 個々のセンサの時間的依存に加えて、空間的依存はこれらのセンサの間に重要な相関関係として現れ、時間的空間的関係を記述する時間的グラフによって自然にモデル化することができる。 しかし、既存の研究の大半は、時間情報の喪失につながる粗い粒度のアプローチである、この時間グラフの離散的なスナップショットの取得に頼っている。 さらに, 異種センサの多様性を考えると, 時間センサグラフにおけるRUL予測にそのような固有な異種性を活用することが重要である。 センサの相互結合グラフにおける時間的・空間的関係のニュアンスと異種特性を捉えるため,THGNN(Temporal and Heterogeneous Graph Neural Networks)と呼ばれる新しいモデルを導入する。 具体的には、THGNNは近隣ノードの履歴データを収集し、センサデータのストリーム内の時間的ダイナミクスと空間的相関をきめ細かな方法で正確に捉える。 さらに、センサタイプの多様性に対処するために、FiLM(Feature-wise Linear Modulation)を活用し、データソースの不均一性を学ぶためのモデルの能力を大幅に改善する。 最後に,本手法の有効性を総合実験により検証した。 実験の結果,N-CMAPSSデータセットに顕著な進歩が見られ,最先端手法に対する2つの評価基準の点で最大19.2%,31.6%の改善が達成された。

Predicting Remaining Useful Life (RUL) plays a crucial role in the prognostics and health management of industrial systems that involve a variety of interrelated sensors. Given a constant stream of time series sensory data from such systems, deep learning models have risen to prominence at identifying complex, nonlinear temporal dependencies in these data. In addition to the temporal dependencies of individual sensors, spatial dependencies emerge as important correlations among these sensors, which can be naturally modelled by a temporal graph that describes time-varying spatial relationships. However, the majority of existing studies have relied on capturing discrete snapshots of this temporal graph, a coarse-grained approach that leads to loss of temporal information. Moreover, given the variety of heterogeneous sensors, it becomes vital that such inherent heterogeneity is leveraged for RUL prediction in temporal sensor graphs. To capture the nuances of the temporal and spatial relationships and heterogeneous characteristics in an interconnected graph of sensors, we introduce a novel model named Temporal and Heterogeneous Graph Neural Networks (THGNN). Specifically, THGNN aggregates historical data from neighboring nodes to accurately capture the temporal dynamics and spatial correlations within the stream of sensor data in a fine-grained manner. Moreover, the model leverages Feature-wise Linear Modulation (FiLM) to address the diversity of sensor types, significantly improving the model's capacity to learn the heterogeneity in the data sources. Finally, we have validated the effectiveness of our approach through comprehensive experiments. Our empirical findings demonstrate significant advancements on the N-CMAPSS dataset, achieving improvements of up to 19.2% and 31.6% in terms of two different evaluation metrics over state-of-the-art methods.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-01
# 表面符号に対する効率的なソフトアウトプットデコーダ

Efficient soft-output decoders for the surface code ( http://arxiv.org/abs/2405.07433v2 )

ライセンス: Link先を確認
Nadine Meister, Christopher A. Pattison, John Preskill, (参考訳) エラーシンドローム(ソフトアウトプットデコーダ)に条件付けられた論理的故障の確率を推定するデコーダは、フォールトトレラントな量子メモリと計算のオーバーヘッドコストを削減できる。 本研究では,最小重みマッチングとUnion-Findデコーダから導かれる表面コードに対して,効率的なソフトアウトプットデコーダを構築する。 内部符号が曲面符号であり,外部符号が高レートの量子低密度パリティチェック符号である連結スキームである階層符号(hierarchical code)の性能を向上させることができることを示す。 あるいは、ソフトアウトプット復号法は、論理誤差の確率が耐え難いため破棄すべき動作をフラグ付けすることで、フォールトトレラント回路サンプリングの信頼性を向上させることができる。

Decoders that provide an estimate of the probability of a logical failure conditioned on the error syndrome ("soft-output decoders") can reduce the overhead cost of fault-tolerant quantum memory and computation. In this work, we construct efficient soft-output decoders for the surface code derived from the Minimum-Weight Perfect Matching and Union-Find decoders. We show that soft-output decoding can improve the performance of a "hierarchical code," a concatenated scheme in which the inner code is the surface code, and the outer code is a high-rate quantum low-density parity-check code. Alternatively, the soft-output decoding can improve the reliability of fault-tolerant circuit sampling by flagging those runs that should be discarded because the probability of a logical error is intolerably large.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-01
# 分散高次元量子回帰:推定効率と回復支援

Distributed High-Dimensional Quantile Regression: Estimation Efficiency and Support Recovery ( http://arxiv.org/abs/2405.07552v3 )

ライセンス: Link先を確認
Caixing Wang, Ziliang Shen, (参考訳) 本稿では,高次元線形量子化レグレッションのための分散推定とサポートリカバリに着目した。 量子回帰は、外れ値とデータ不均一性に対するロバスト性に対する最小二乗回帰に対する一般的な代替ツールである。 しかし、チェックロス関数の非滑らかさは、分散環境での計算と理論の両方に大きな課題をもたらす。 これらの問題に対処するため、元の量子レグレッションを最小二乗最適化に変換する。 二重平滑化アプローチを適用することで、エラー項と共変量の間の制約的な独立な仮定を伴わずに、ニュートン型分散アプローチを拡張した。 効率的なアルゴリズムを開発し、高い計算と通信効率を享受する。 理論的には、提案した分散推定器は、一定回数の繰り返しの後、ほぼ円の収束率と高いサポート回復精度を達成する。 合成例と実データを用いた大規模実験により,提案手法の有効性がさらに示された。

In this paper, we focus on distributed estimation and support recovery for high-dimensional linear quantile regression. Quantile regression is a popular alternative tool to the least squares regression for robustness against outliers and data heterogeneity. However, the non-smoothness of the check loss function poses big challenges to both computation and theory in the distributed setting. To tackle these problems, we transform the original quantile regression into the least-squares optimization. By applying a double-smoothing approach, we extend a previous Newton-type distributed approach without the restrictive independent assumption between the error term and covariates. An efficient algorithm is developed, which enjoys high computation and communication efficiency. Theoretically, the proposed distributed estimator achieves a near-oracle convergence rate and high support recovery accuracy after a constant number of iterations. Extensive experiments on synthetic examples and a real data application further demonstrate the effectiveness of the proposed method.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-01
# DINO 1.5: Open-Set Object Detection の "Edge" を推進

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection ( http://arxiv.org/abs/2405.10300v2 )

ライセンス: Link先を確認
Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang, (参考訳) 本稿では, IDEA Research が開発した高度なオープンセットオブジェクト検出モデルである Grounding DINO 1.5 について紹介する。 スイートには2つのモデルが含まれている: Grounding DINO 1.5 Pro、幅広いシナリオにわたるより強力な一般化機能のために設計された高性能モデル、Grounding DINO 1.5 Edge、エッジデプロイを必要とする多くのアプリケーションで要求される高速な速度に最適化された効率的なモデル。 Grounding DINO 1.5 Proモデルは、モデルアーキテクチャをスケールアップし、拡張されたビジョンバックボーンを統合し、トレーニングデータセットをグラウンドアノテーションで2000万以上のイメージに拡張することで、よりリッチなセマンティック理解を実現することで、前バージョンを進化させた。 Grounding DINO 1.5 Edgeモデルは、機能スケールを縮小した効率性のために設計されたが、同じ包括的なデータセットでトレーニングすることで堅牢な検出能力を維持している。 実験的な結果は、グラウンディングDINO 1.5 ProモデルがCOCO検出ベンチマークで54.3 AP、LVIS最小のゼロショット転送ベンチマークで55.7 APに達し、オープンセットオブジェクト検出のための新しいレコードが設定されたことにより、グラウンディングDINO 1.5の有効性を示す。 さらに、Grounding DINO 1.5 EdgeモデルはTensorRTで最適化されると75.2 FPSの速度を実現し、LVIS-minivalベンチマークで36.2 APのゼロショット性能を実現し、エッジコンピューティングのシナリオにより適している。 APIを使ったモデル例とデモがhttps://github.com/IDEA-Research/Grounding-DINO-1.5-APIで公開される。

This paper introduces Grounding DINO 1.5, a suite of advanced open-set object detection models developed by IDEA Research, which aims to advance the "Edge" of open-set object detection. The suite encompasses two models: Grounding DINO 1.5 Pro, a high-performance model designed for stronger generalization capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an efficient model optimized for faster speed demanded in many applications requiring edge deployment. The Grounding DINO 1.5 Pro model advances its predecessor by scaling up the model architecture, integrating an enhanced vision backbone, and expanding the training dataset to over 20 million images with grounding annotations, thereby achieving a richer semantic understanding. The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced feature scales, maintains robust detection capabilities by being trained on the same comprehensive dataset. Empirical results demonstrate the effectiveness of Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot transfer benchmark, setting new records for open-set object detection. Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT, achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP on the LVIS-minival benchmark, making it more suitable for edge computing scenarios. Model examples and demos with API will be released at https://github.com/IDEA-Research/Grounding-DINO-1.5-API
翻訳日:2024-06-04 14:39:00 公開日:2024-06-01
# 粒子周りの真空エネルギー

Vacuum energy around particles ( http://arxiv.org/abs/2405.10409v2 )

ライセンス: Link先を確認
Danilo T. Alves, (参考訳) 量子真空の励起による粒子の生成は1969年に予測された。 ここでは、実粒子に加えて、動的空洞における量子真空の励起も、これらの粒子の周囲に一定の正の真空エネルギーを発生させる可能性があることを考察する。 自由空間内を移動している単一ミラーが真空状態にある場合、ミラーからフィールドに移動するすべてのエネルギーは実粒子に変換されるが、一方、第1のミラーで空洞を形成する第2の静的ミラーを考えると、第1のミラーの同じ動きは実際の粒子に変換されるエネルギーが少なくなり、その差はこれらの粒子の周りの正の真空エネルギーに変換される。

The creation of particles by the excitation of the quantum vacuum in a cavity with a moving mirror was predicted in 1969. Here, we investigate that, in addition to real particles, the excitation of the quantum vacuum in a dynamical cavity can also result in the creation of a certain amount of positive vacuum energy around these particles. We show that while in the case of a single mirror moving in a free space, with the field in the vacuum state, all the energy transferred from the mirror to the field is converted into real particles, on the other hand, when considering a second and static mirror forming a cavity with the first, the same movement of the first mirror can lead to less energy being converted into real particles, with the difference being converted into positive vacuum energy around these particles.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-01
# ガウススプラッティングとGoogle Earth画像を用いた3次元都市景観復元と点雲密度化

Enhanced 3D Urban Scene Reconstruction and Point Cloud Densification using Gaussian Splatting and Google Earth Imagery ( http://arxiv.org/abs/2405.11021v2 )

ライセンス: Link先を確認
Kyle Gao, Dening Lu, Hongjie He, Linlin Xu, Jonathan Li, (参考訳) 3次元都市景観の再構築とモデリングは、遠隔センシングにおいて重要な研究領域であり、学術、商業、産業、行政における多くの応用がある。 ビュー合成モデルの最近の進歩は、2次元画像のみから光リアルな3D再構成を促進する。 Google Earthの画像を活用することで、ウォータールー大学を中心としたウォータールー地域の3次元ガウス散乱モデルを構築し、我々のベンチマークで示した神経放射場に基づく従来の3次元ビュー合成結果よりもはるかに高いビュー合成結果を得ることができる。 さらに,3次元ガウス散乱モデルから抽出した3次元点雲を用いてシーンの3次元形状を復元し,大規模都市景観の3次元幾何と光リアル照明の両方を3次元ガウス散乱により再構成した。

3D urban scene reconstruction and modelling is a crucial research area in remote sensing with numerous applications in academia, commerce, industry, and administration. Recent advancements in view synthesis models have facilitated photorealistic 3D reconstruction solely from 2D images. Leveraging Google Earth imagery, we construct a 3D Gaussian Splatting model of the Waterloo region centered on the University of Waterloo and are able to achieve view-synthesis results far exceeding previous 3D view-synthesis results based on neural radiance fields which we demonstrate in our benchmark. Additionally, we retrieved the 3D geometry of the scene using the 3D point cloud extracted from the 3D Gaussian Splatting model which we benchmarked against our Multi- View-Stereo dense reconstruction of the scene, thereby reconstructing both the 3D geometry and photorealistic lighting of the large-scale urban scene through 3D Gaussian Splatting
翻訳日:2024-06-04 14:39:00 公開日:2024-06-01
# XCAT-3.0:CTスキャンから得られた個人化デジタル双生児の総合ライブラリ

XCAT-3.0: A Comprehensive Library of Personalized Digital Twins Derived from CT Scans ( http://arxiv.org/abs/2405.11133v2 )

ライセンス: Link先を確認
Lavsen Dahal, Mobina Ghojoghnejad, Dhrubajyoti Ghosh, Yubraj Bhandari, David Kim, Fong Chi Ho, Fakrul Islam Tushar, Sheng Luoa, Kyle J. Lafata, Ehsan Abadi, Ehsan Samei, Joseph Y. Lo, W. Paul Segars, (参考訳) VIT(Virtual Imaging Trials)は、医療画像技術の評価に費用効率が高くスケーラブルなアプローチを提供する。 実際の患者解剖学と生理学を模倣する計算幻覚は、VITにおいて中心的な役割を果たす。 しかし、現在の計算ファントムのライブラリは、特にサンプルサイズと多様性の点で制限に直面している。 異なる患者群にまたがる画像技術の正確な評価は, 人口ハマーの表現が不十分である。 伝統的に、ファントムは手作業によるセグメンテーションによって作られており、それは手間と時間を要する作業であり、ファントム図書館の拡張を妨げる。 本研究では,4種類の深層学習セグメンテーションモデルと3種類の自動臓器セグメンテーション品質制御を用いたリアルな計算ファントムモデリングの枠組みを提案する。 140以上の構造を持つ2500以上の計算ファントムが、詳細な解剖学的モデリングに対する洗練されたアプローチを実証している。 Phantomは、VoxelizedおよびSurface Meshフォーマットの両方で利用できる。 このフレームワークは、現実的なCT画像を生成するために、社内のCTスキャナーで集約される。 このフレームワークは、仮想画像治験を推進し、医療画像技術の総合的かつ信頼性の高い評価を促進する可能性がある。 Phantomsはhttps://cvit.duke.edu/resources/、コード、モデルの重み付け、サンプルCTイメージはhttps://xcat-3.github.ioで入手できる。

Virtual Imaging Trials (VIT) offer a cost-effective and scalable approach for evaluating medical imaging technologies. Computational phantoms, which mimic real patient anatomy and physiology, play a central role in VIT. However, the current libraries of computational phantoms face limitations, particularly in terms of sample size and diversity. Insufficient representation of the population hampers accurate assessment of imaging technologies across different patient groups. Traditionally, phantoms were created by manual segmentation, which is a laborious and time-consuming task, impeding the expansion of phantom libraries. This study presents a framework for realistic computational phantom modeling using a suite of four deep learning segmentation models, followed by three forms of automated organ segmentation quality control. Over 2500 computational phantoms with up to 140 structures illustrating a sophisticated approach to detailed anatomical modeling are released. Phantoms are available in both voxelized and surface mesh formats. The framework is aggregated with an in-house CT scanner simulator to produce realistic CT images. The framework can potentially advance virtual imaging trials, facilitating comprehensive and reliable evaluations of medical imaging technologies. Phantoms may be requested at https://cvit.duke.edu/resources/, code, model weights, and sample CT images are available at https://xcat-3.github.io.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-01
# 多言語アラビアデータセットにおける対話者間の合意を予測した方言のレベルの推定

Estimating the Level of Dialectness Predicts Interannotator Agreement in Multi-dialect Arabic Datasets ( http://arxiv.org/abs/2405.11282v2 )

ライセンス: Link先を確認
Amr Keleg, Walid Magdy, Sharon Goldwater, (参考訳) 多方言アラビア語データセットの注釈付けでは、アラビア語話者のプールにランダムにサンプルを割り当てることが一般的である。 最近の分析では、高品質なデータセットを構築するために、方言のサンプルをそれぞれの方言の母語話者にルーティングすることを推奨している。 しかし、サンプルの方言を自動的に識別するのは困難である。 さらに、特定のアラビア方言の母語話者であるアノテーターのプールは少ないかもしれない。 アラビア語のレベル・オブ・ダイアレク性(ALDi)は、文が標準アラビア語からどのように分岐するかを測定する定量的変数として最近導入された。 ランダムにアノテータにサンプルを割り当てる際、特にアノテータが話さない方言で書かれた場合、高いALDiスコアのサンプルはラベル付けが難しいと仮定する。 本研究では,ALDiスコアとアノテータの合意との関係を,各文分類タスクのサンプルアノテーションを生かした15の公開データセットで分析して検証する。 11の仮説を裏付ける強い証拠が見つかりました。 その結果,それぞれの方言の母語話者に対して高いALDiスコアのルーティングサンプルを優先順位付けすることを推奨した。

On annotating multi-dialect Arabic datasets, it is common to randomly assign the samples across a pool of native Arabic speakers. Recent analyses recommended routing dialectal samples to native speakers of their respective dialects to build higher-quality datasets. However, automatically identifying the dialect of samples is hard. Moreover, the pool of annotators who are native speakers of specific Arabic dialects might be scarce. Arabic Level of Dialectness (ALDi) was recently introduced as a quantitative variable that measures how sentences diverge from Standard Arabic. On randomly assigning samples to annotators, we hypothesize that samples of higher ALDi scores are harder to label especially if they are written in dialects that the annotators do not speak. We test this by analyzing the relation between ALDi scores and the annotators' agreement, on 15 public datasets having raw individual sample annotations for various sentence-classification tasks. We find strong evidence supporting our hypothesis for 11 of them. Consequently, we recommend prioritizing routing samples of high ALDi scores to native speakers of each sample's dialect, for which the dialect could be automatically identified at higher accuracies.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-01
# 密度ベース基底集合補正による化学計算の高精度化

Shortcut to Chemically Accurate Quantum Computing via Density-based Basis-set Correction ( http://arxiv.org/abs/2405.11567v2 )

ライセンス: Link先を確認
Diata Traore, Olivier Adjoua, César Feniou, Ioanna-Maria Lygatsika, Yvon Maday, Evgeny Posenitskiy, Kerstin Hammernik, Alberto Peruzzo, Julien Toulouse, Emmanuel Giner, Jean-Philip Piquemal, (参考訳) 量子コンピューティングは、電子構造計算における古典的手法よりも計算上の優位性を約束する。 量子ビット数などの量子資源を最小化しながら化学系の定量的記述にアクセスすることは、現在の量子プロセッサの限られた能力を考えると、重要な課題である。 本稿では, 密度汎関数理論を量子アルゴリズムに統合することにより, 量子計算を化学精度で行うためのショートカットを提案し, 与えられたシステム/ユーザ定義量子ビット予算に特異的に適応する。 このアプローチはベースセット収束を自己整合的に加速し、電子密度、基底状態エネルギー、双極子モーメントのような一階特性を改善する。 また、量子ハードウェア計算に対する古典的、後続的なエネルギー補正としても機能する。 この戦略は、GPUアクセラレーションされた状態ベクトルエミュレーションを使用して32キュービットまで評価される。 我々はCBSフルコンフィグレーション-相互作用参照の化学的精度に4つの系(He, Be, H$_2$, LiH)の基底状態エネルギーを収束させ, H$_8$水素鎖までの様々な分子の二重ゼータ品質を超える精度を体系的に向上させる。 また、CBS限界に達するH$_2$とLiHの解離曲線も得られるが、N$_2$三重結合破壊の挑戦的なシミュレーションでは、最小基底セットのコストでほぼ三重ゼータ品質が得られる。 このハイブリッド戦略により、100以上の論理量子ビットを用いたブルートフォース量子シミュレーションを必要とする定量的な結果が得られるので、合理的な計算資源で現実世界の化学を探索する機会が開ける。

Quantum computing promises a computational advantage over classical methods in electronic-structure calculations, with expected applications in drug design and materials science. Accessing a quantitative description of chemical systems while minimizing quantum resources, such as the number of qubits, is an essential challenge given the limited capabilities of current quantum processors. We provide a shortcut towards quantum computations at chemical accuracy by approaching the complete-basis-set limit (CBS) through integrating density-functional theory into quantum algorithms via density-based basis-set corrections coupled to basis-sets crafted on-the-fly and specifically adapted to a given system/user-defined qubit budget. The approach self-consistently accelerates the basis-set convergence, improving electronic densities, ground-state energies, and first-order properties such as dipole moments. It can also serve as a classical, a posteriori, energy correction to quantum hardware calculations. The strategy is assessed using GPU-accelerated state-vector emulation up to 32 qubits. We converge the ground-state energies of four systems (He, Be, H$_2$, LiH) within chemical accuracy of the CBS full-configuration-interaction reference, while offering a systematic increase of accuracy beyond a double-zeta quality for various molecules up to the H$_8$ hydrogen chain. We also obtain dissociation curves for H$_2$ and LiH that reach the CBS limit whereas for the challenging simulation of the N$_2$ triple-bond breaking, we achieve a near-triple-zeta quality at the cost of a minimal basis-set. This hybrid strategy allows us to obtain quantitative results that would otherwise require brute-force quantum simulations using far more than 100 logical qubits, thereby opening up opportunities to explore real-world chemistry with reasonable computational resources.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-01
# ARAIDA:Analogical Reasoning-Augmented Interactive Data Annotation

ARAIDA: Analogical Reasoning-Augmented Interactive Data Annotation ( http://arxiv.org/abs/2405.11912v2 )

ライセンス: Link先を確認
Chen Huang, Yiping Jin, Ilija Ilievski, Wenqiang Lei, Jiancheng Lv, (参考訳) ヒューマンアノテーションは、かなりの労力を要する時間を要するタスクです。 この問題に対処するために、インタラクティブなデータアノテーションはアノテーションモデルを使用して、人間が承認または修正するように提案する。 しかし、ラベル付き限られたデータで訓練されたアノテーションモデルは、誤った提案を発生させる傾向があるため、追加の人間の修正努力がもたらされる。 この課題に対処するために,対話型データアノテーション設定における自動アノテーション精度を高め,人間の修正の必要性を低減する類似推論に基づくアプローチであるAraidaを提案する。 Araidaは、アノテーションモデルとk-nearest neighbors(KNN)モデルを動的にコーディネートするエラー認識統合戦略で、アノテーションモデルからの予測が不正確であると判断された場合、KNNの予測をより重要視する。 経験的研究は、Araidaが異なるアノテーションタスクやモデルに適応可能であることを示した。 平均すると、バニラのインタラクティブなデータアノテーション手法に比べて、人間の修正作業が11.02%削減される。

Human annotation is a time-consuming task that requires a significant amount of effort. To address this issue, interactive data annotation utilizes an annotation model to provide suggestions for humans to approve or correct. However, annotation models trained with limited labeled data are prone to generating incorrect suggestions, leading to extra human correction effort. To tackle this challenge, we propose Araida, an analogical reasoning-based approach that enhances automatic annotation accuracy in the interactive data annotation setting and reduces the need for human corrections. Araida involves an error-aware integration strategy that dynamically coordinates an annotation model and a k-nearest neighbors (KNN) model, giving more importance to KNN's predictions when predictions from the annotation model are deemed inaccurate. Empirical studies demonstrate that Araida is adaptable to different annotation tasks and models. On average, it reduces human correction labor by 11.02% compared to vanilla interactive data annotation methods.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-01
# STYLE:大規模言語モデルを用いた対話エージェントにおける問合せ質問のドメイン転送性の向上

STYLE: Improving Domain Transferability of Asking Clarification Questions in Large Language Model Powered Conversational Agents ( http://arxiv.org/abs/2405.12059v2 )

ライセンス: Link先を確認
Yue Chen, Chen Huang, Yang Deng, Wenqiang Lei, Dingnan Jin, Jia Liu, Tat-Seng Chua, (参考訳) 対話型検索エンジンに、明確化を問うときの戦略を取り入れることが、各分野においてますます重要になっている。 LLMのコンテキスト理解能力とドメイン固有の知識ソースへのアクセスに起因して、LLMベースの明確化戦略は、ポストホックな方法で様々なドメインへの迅速な移行を特徴とする。 しかし、まだ、目に見えないドメインで有望なパフォーマンスを提供するのに苦労し、効果的なドメイン転送可能性を達成するのに苦労しています。 我々はこの問題を調査する第一歩を踏み出し、既存の手法は様々な領域にまたがる一大戦略を生み出す傾向にあり、検索の有効性は制限される。 そこで本研究では,ドメイン転送性を効果的に実現するために,Styleと呼ばれる新しい手法を提案する。 実験の結果,Styleはドメイン転送性が高く,検索性能は4つの未確認領域で平均約10%向上した。

Equipping a conversational search engine with strategies regarding when to ask clarification questions is becoming increasingly important across various domains. Attributing to the context understanding capability of LLMs and their access to domain-specific sources of knowledge, LLM-based clarification strategies feature rapid transfer to various domains in a post-hoc manner. However, they still struggle to deliver promising performance on unseen domains, struggling to achieve effective domain transferability. We take the first step to investigate this issue and existing methods tend to produce one-size-fits-all strategies across diverse domains, limiting their search effectiveness. In response, we introduce a novel method, called Style, to achieve effective domain transferability. Our experimental results indicate that Style bears strong domain transferability, resulting in an average search performance improvement of ~10% on four unseen domains.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-01
# CLAMBER:大規模言語モデルにおける曖昧な情報要求の同定と明確化のベンチマーク

CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models ( http://arxiv.org/abs/2405.12063v2 )

ライセンス: Link先を確認
Tong Zhang, Peixin Qin, Yang Deng, Chen Huang, Wenqiang Lei, Junhong Liu, Dingnan Jin, Hongru Liang, Tat-Seng Chua, (参考訳) 大規模言語モデル(LLM)は、ユーザ情報のニーズを満たすために使われることが多いが、様々な種類のあいまいさを含むユーザクエリを扱う上での有効性は依然として不明であり、最終的にはユーザの信頼と満足度を損なうことになる。 この目的のために,よく組織化された分類法を用いてLCMを評価するためのベンチマークであるCLAMBERを紹介した。 分類学に基づいて, 様々な既成のLCMの強度, 弱点, 潜在的なリスクを評価するために, 約12Kの高品質なデータを構築した。 以上の結果から,現在のLCMが不明瞭なユーザクエリを識別し,明確化するためには,チェーン・オブ・ソート(CoT)や数発のプロンプトによって強化されていることが示唆された。 これらの技術はLSMの過信を招き、曖昧さの識別において限界的な拡張しか得られない。 さらに、現在のLLMは、紛争解決の欠如と固有の知識の不正確な利用により、質の高い明確な質問を生成するのに不足している。 本稿では,CLAMBERを指導し,積極的かつ信頼性の高いLCMのさらなる研究を促進する。 私たちのデータセットはhttps://github.com/zt991211/CLAMBERで利用可能です。

Large language models (LLMs) are increasingly used to meet user information needs, but their effectiveness in dealing with user queries that contain various types of ambiguity remains unknown, ultimately risking user trust and satisfaction. To this end, we introduce CLAMBER, a benchmark for evaluating LLMs using a well-organized taxonomy. Building upon the taxonomy, we construct ~12K high-quality data to assess the strengths, weaknesses, and potential risks of various off-the-shelf LLMs. Our findings indicate the limited practical utility of current LLMs in identifying and clarifying ambiguous user queries, even enhanced by chain-of-thought (CoT) and few-shot prompting. These techniques may result in overconfidence in LLMs and yield only marginal enhancements in identifying ambiguity. Furthermore, current LLMs fall short in generating high-quality clarifying questions due to a lack of conflict resolution and inaccurate utilization of inherent knowledge. In this paper, CLAMBER presents a guidance and promotes further research on proactive and trustworthy LLMs. Our dataset is available at https://github.com/zt991211/CLAMBER
翻訳日:2024-06-04 14:29:15 公開日:2024-06-01
# キーポイント検出における魚のデータセットのベンチマークと評価基準-養殖養殖における精密魚の形態評価に向けて

Benchmarking Fish Dataset and Evaluation Metric in Keypoint Detection -- Towards Precise Fish Morphological Assessment in Aquaculture Breeding ( http://arxiv.org/abs/2405.12476v2 )

ライセンス: Link先を確認
Weizhen Liu, Jiayu Tan, Guangyu Lan, Ao Li, Dongye Li, Le Zhao, Xiaohui Yuan, Nanqing Dong, (参考訳) 養殖養殖における正確な表現型解析は微妙な形態的表現型の定量化を必要とする。 既存のデータセットは、小さなスケール、限られた種の範囲、魚の体の部分の洗練された複雑な形態的表現型を測定するためのキーポイントの十分なアノテーションといった制限に悩まされている。 このギャップに対処するため、6種の魚種にまたがる23,331の高解像度画像からなる包括的データセットであるFishPhenoKeyを紹介した。 特に、FishPhenoKeyには22の表現型指向アノテーションが含まれており、複雑な形態的表現型をキャプチャすることができる。 また,これらの微妙な形態の微妙な評価により,新しい評価指標であるPMP(Percentage of Measured Phenotype)を提案する。 個々のキーポイント位置の精度を評価するように設計されており、対応するキーポイントを用いて測定された表現型に非常に敏感である。 キーポイント検出精度を向上させるために,キーポイント検出モデルに統合し,生物学的洞察を活用してキーポイントの局所化を洗練できる新しい損失,解剖学的校正正規化(ACR)を提案する。 本研究は,魚の表現型分析における新たな指標を定め,形態的定量化の課題に対処し,持続可能な養殖と遺伝研究のための新たな道を開いた。 データセットとコードはhttps://github.com/WeizhenLiuBioinform/Fish-Phenotype-Detect.comから入手可能です。

Accurate phenotypic analysis in aquaculture breeding necessitates the quantification of subtle morphological phenotypes. Existing datasets suffer from limitations such as small scale, limited species coverage, and inadequate annotation of keypoints for measuring refined and complex morphological phenotypes of fish body parts. To address this gap, we introduce FishPhenoKey, a comprehensive dataset comprising 23,331 high-resolution images spanning six fish species. Notably, FishPhenoKey includes 22 phenotype-oriented annotations, enabling the capture of intricate morphological phenotypes. Motivated by the nuanced evaluation of these subtle morphologies, we also propose a new evaluation metric, Percentage of Measured Phenotype (PMP). It is designed to assess the accuracy of individual keypoint positions and is highly sensitive to the phenotypes measured using the corresponding keypoints. To enhance keypoint detection accuracy, we further propose a novel loss, Anatomically-Calibrated Regularization (ACR), that can be integrated into keypoint detection models, leveraging biological insights to refine keypoint localization. Our contributions set a new benchmark in fish phenotype analysis, addressing the challenges of precise morphological quantification and opening new avenues for research in sustainable aquaculture and genetic studies. Our dataset and code are available at https://github.com/WeizhenLiuBioinform/Fish-Phenotype-Detect.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-01
# エントロピーストップ:ロスエントロピーを用いた教師なしディープ・アウトリア検出

EntropyStop: Unsupervised Deep Outlier Detection with Loss Entropy ( http://arxiv.org/abs/2405.12502v2 )

ライセンス: Link先を確認
Yihong Huang, Yuang Zhang, Liping Wang, Fan Zhang, Xuemin Lin, (参考訳) Unsupervised Outlier Detection (UOD) は重要なデータマイニングタスクである。 ディープラーニングの進歩により、Deep Outlier Detection (OD) は広く関心を集めている。 ほとんどの深い UOD モデルは、通常のデータの分布を学ぶために、クリーンなデータセットにのみ訓練されている。 クリーンなデータセットに頼る代わりに、ラベルのない汚染データセットを直接トレーニングし、検出するアプローチもある。 エンサンブル法は、汚染されたトレーニングセットに対するモデルロバスト性を高めるための優れた解として現れた。 しかし、アンサンブルによりトレーニング時間が大幅に向上する。 本研究では, 未ラベル汚染データセットのトレーニングを中止し, 性能劣化に先立って, トレーニングフェーズにおけるアウトレーヤの影響について検討する。 当初我々は、正常データと異常データを混在させることで、AUCの変動が生じることを指摘した。 ラベルの必要性を回避するため,ロスエントロピー (Loss Entropy) というゼロラベルのエントロピー尺度を提案する。 一方,エントロピー測定値とラベルに基づくAUCとの負の相関を理論的に示す。 これに基づいて、損失エントロピーが最大モデル検出能力を示す場合のトレーニングを停止する自動早期停止アルゴリズムEntropyStopを開発した。 我々はADBench(47個の実データセットを含む)の広範な実験を行い、全体的な結果は、私たちのアプローチによって強化されたAutoEncoder(AE)が、AEのアンサンブルよりも優れたパフォーマンスを達成するだけでなく、トレーニング時間の26%以下の時間も必要であることを示している。 最後に,提案手法を他の深部ODモデルで評価し,その適用可能性について検討した。

Unsupervised Outlier Detection (UOD) is an important data mining task. With the advance of deep learning, deep Outlier Detection (OD) has received broad interest. Most deep UOD models are trained exclusively on clean datasets to learn the distribution of the normal data, which requires huge manual efforts to clean the real-world data if possible. Instead of relying on clean datasets, some approaches directly train and detect on unlabeled contaminated datasets, leading to the need for methods that are robust to such conditions. Ensemble methods emerged as a superior solution to enhance model robustness against contaminated training sets. However, the training time is greatly increased by the ensemble. In this study, we investigate the impact of outliers on the training phase, aiming to halt training on unlabeled contaminated datasets before performance degradation. Initially, we noted that blending normal and anomalous data causes AUC fluctuations, a label-dependent measure of detection accuracy. To circumvent the need for labels, we propose a zero-label entropy metric named Loss Entropy for loss distribution, enabling us to infer optimal stopping points for training without labels. Meanwhile, we theoretically demonstrate negative correlation between entropy metric and the label-based AUC. Based on this, we develop an automated early-stopping algorithm, EntropyStop, which halts training when loss entropy suggests the maximum model detection capability. We conduct extensive experiments on ADBench (including 47 real datasets), and the overall results indicate that AutoEncoder (AE) enhanced by our approach not only achieves better performance than ensemble AEs but also requires under 2\% of training time. Lastly, our proposed metric and early-stopping approach are evaluated on other deep OD models, exhibiting their broad potential applicability.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-01
# BiomedParse: あらゆるものを一度に解析するバイオメディカル基礎モデル

BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once ( http://arxiv.org/abs/2405.12971v2 )

ライセンス: Link先を確認
Theodore Zhao, Yu Gu, Jianwei Yang, Naoto Usuyama, Ho Hin Lee, Tristan Naumann, Jianfeng Gao, Angela Crabtree, Brian Piening, Carlo Bifulco, Mu Wei, Hoifung Poon, Sheng Wang, (参考訳) バイオメディカル画像解析は、細胞生物学、病理学、放射線学、その他多くの生物医学領域における生物医学的な発見の基礎となる。 ホロスティック画像解析は、セグメンテーション、検出、関連するオブジェクトの認識など、相互依存のサブタスクを含む。 そこで本研究では,9つの画像モダリティにまたがる82種類のオブジェクトの分割,検出,認識を共同で行うことができる,画像解析のためのバイオメディカル基礎モデルであるBiomedParseを提案する。 共同学習により、個々のタスクの精度を向上させることができ、ユーザが各オブジェクトのバウンディングボックスを精力的に指定する必要はなく、テキストプロンプトを通じて画像中のすべての関連オブジェクトを分割するといった新しいアプリケーションを可能にすることができる。 我々は、これらのデータセットに付随する手軽に利用可能な自然言語ラベルや記述を活用し、GPT-4を用いて、ノイズの多い非構造化テキスト情報を確立されたバイオメディカルオブジェクトオントロジーと調和させた。 我々は600万枚以上の画像、セグメンテーションマスク、テキスト記述からなる大規模なデータセットを作成しました。 画像セグメンテーションにおいて,BiomedParseは,9つの画像モダリティ(すべて)にまたがる102,855個の画像-マスク-ラベルトリプルに対して,最先端の手法よりも高い精度で適用可能であることを示した。 特定の対象の特定を目的としたオブジェクト検出について、BiomedParseは再び最先端のパフォーマンス、特に不規則な形状のオブジェクト(どこでも)を達成した。 画像内のすべてのオブジェクトとそれらの意味型を同時に識別することを目的としたオブジェクト認識において、BiomedParseは画像内のすべてのバイオメディカルオブジェクト(すべて一度に)を同時にセグメンテーションおよびラベル付けできることを示した。 要約すると、BiomedParseはバイオメディカルイメージ分析のためのオールインワンツールであり、すべての主要なバイオメディカルイメージのセグメンテーション、検出、認識を共同で解決し、効率的で正確な画像ベースのバイオメディカル発見のための道を歩む。

Biomedical image analysis is fundamental for biomedical discovery in cell biology, pathology, radiology, and many other biomedical domains. Holistic image analysis comprises interdependent subtasks such as segmentation, detection, and recognition of relevant objects. Here, we propose BiomedParse, a biomedical foundation model for imaging parsing that can jointly conduct segmentation, detection, and recognition for 82 object types across 9 imaging modalities. Through joint learning, we can improve accuracy for individual tasks and enable novel applications such as segmenting all relevant objects in an image through a text prompt, rather than requiring users to laboriously specify the bounding box for each object. We leveraged readily available natural-language labels or descriptions accompanying those datasets and use GPT-4 to harmonize the noisy, unstructured text information with established biomedical object ontologies. We created a large dataset comprising over six million triples of image, segmentation mask, and textual description. On image segmentation, we showed that BiomedParse is broadly applicable, outperforming state-of-the-art methods on 102,855 test image-mask-label triples across 9 imaging modalities (everything). On object detection, which aims to locate a specific object of interest, BiomedParse again attained state-of-the-art performance, especially on objects with irregular shapes (everywhere). On object recognition, which aims to identify all objects in a given image along with their semantic types, we showed that BiomedParse can simultaneously segment and label all biomedical objects in an image (all at once). In summary, BiomedParse is an all-in-one tool for biomedical image analysis by jointly solving segmentation, detection, and recognition for all major biomedical image modalities, paving the path for efficient and accurate image-based biomedical discovery.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-01
# シグモイドゲーティングは、専門家の混在によるソフトマックスゲーティングよりも有効である

Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts ( http://arxiv.org/abs/2405.13997v2 )

ライセンス: Link先を確認
Huy Nguyen, Nhat Ho, Alessandro Rinaldo, (参考訳) ソフトマックスゲーティング関数は、専門家モデリングの混合において、おそらく最も一般的な選択である。 実際に広く使われているにもかかわらず、ソフトマックスゲーティングは専門家の間で不必要な競争を引き起こす可能性があり、その固有の構造のために表現が崩壊するという望ましくない現象を引き起こす可能性がある。 これに対し, シグモイドゲーティング関数は近年, 代替として提案され, 優れた性能を実現するために実験的に実証されている。 しかし,現在,シグモイドゲーティング機能の厳密な検査は行われていない。 本稿では,シグモイドゲーティングが,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプリング効率を享受していることを理論的に検証する。 その目的に向けて、未知の回帰関数を専門家の混合としてモデル化した回帰フレームワークを検討し、適合する専門家の数が真値よりも大きい場合において、最小二乗推定器の収束率について検討する。 2つのゲーティングレジームが自然に発生し、それぞれが専門家関数の識別可能性条件を定式化し、対応する収束率を導出することを示す。 どちらの場合も、例えば$\mathrm{ReLU}$や$\mathrm{GELU}$のような、一般的に使用される活性化を伴うフィードフォワードネットワークとして定式化された専門家は、ソフトマックスゲーティングよりもシグミドゲーティング下での収束速度が速いことが分かる。 さらに,シグモイドゲーティング関数は,エキスパート推定と同じ誤差に達するためには,ソフトマックスよりも小さいサンプルサイズが必要であり,したがって,より標本効率がよいことを示す。

The softmax gating function is arguably the most popular choice in mixture of experts modeling. Despite its widespread use in practice, softmax gating may lead to unnecessary competition among experts, potentially causing the undesirable phenomenon of representation collapse due to its inherent structure. In response, the sigmoid gating function has been recently proposed as an alternative and has been demonstrated empirically to achieve superior performance. However, a rigorous examination of the sigmoid gating function is lacking in current literature. In this paper, we verify theoretically that sigmoid gating, in fact, enjoys a higher sample efficiency than softmax gating for the statistical task of expert estimation. Towards that goal, we consider a regression framework in which the unknown regression function is modeled as a mixture of experts, and study the rates of convergence of the least squares estimator in the over-specified case in which the number of experts fitted is larger than the true value. We show that two gating regimes naturally arise and, in each of them, we formulate identifiability conditions for the expert functions and derive the corresponding convergence rates. In both cases, we find that experts formulated as feed-forward networks with commonly used activation such as $\mathrm{ReLU}$ and $\mathrm{GELU}$ enjoy faster convergence rates under sigmoid gating than softmax gating. Furthermore, given the same choice of experts, we demonstrate that the sigmoid gating function requires a smaller sample size than its softmax counterpart to attain the same error of expert estimation and, therefore, is more sample efficient.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-01
# 自然言語通信による不完全情報によるゲームにおける人間-エージェント協調

Human-Agent Cooperation in Games under Incomplete Information through Natural Language Communication ( http://arxiv.org/abs/2405.14173v3 )

ライセンス: Link先を確認
Shenghui Chen, Daniel Fried, Ufuk Topcu, (参考訳) 情報非対称性の下で人間と交渉し協力できる自律エージェントを開発することは、自然言語の効果的なコミュニケーションなしでは困難である。 不完全な情報の下で共通の目的を達成するために、2人のプレイヤーが交互にトークンを制御できる共有制御ゲームを導入する。 本ゲームでは,人間を相手とする自律エージェントのポリシー合成問題を定式化する。 そこで本研究では,言語モジュールと計画モジュールからなる通信方式を提案する。 言語モジュールは、自然言語メッセージを有限のフラグの集合、すなわちプレーヤーの意図をキャプチャするために定義されたコンパクトな表現に翻訳する。 計画モジュールはこれらのフラグを利用して,非対称情報集合モンテカルロ木探索とフラグ交換アルゴリズムを用いてポリシーを計算する。 探索型迷路ボードゲームGnomes at Nightをベースとしたテストベッドにおいて,本手法の有効性を検証した。 人体実験の結果、コミュニケーションはプレイヤー間の情報ギャップを狭め、より少ないターンで人間とエージェントの協調効率を高めることが示されている。

Developing autonomous agents that can strategize and cooperate with humans under information asymmetry is challenging without effective communication in natural language. We introduce a shared-control game, where two players collectively control a token in alternating turns to achieve a common objective under incomplete information. We formulate a policy synthesis problem for an autonomous agent in this game with a human as the other player. To solve this problem, we propose a communication-based approach comprising a language module and a planning module. The language module translates natural language messages into and from a finite set of flags, a compact representation defined to capture player intents. The planning module leverages these flags to compute a policy using an asymmetric information-set Monte Carlo tree search with flag exchange algorithm we present. We evaluate the effectiveness of this approach in a testbed based on Gnomes at Night, a search-and-find maze board game. Results of human subject experiments show that communication narrows the information gap between players and enhances human-agent cooperation efficiency with fewer turns.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-01
# TIGER:テキストで指示された3Dガウス検索とコヒーレント編集

TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing ( http://arxiv.org/abs/2405.14455v2 )

ライセンス: Link先を確認
Teng Xu, Jiamin Chen, Peng Chen, Youjia Zhang, Junqing Yu, Wei Yang, (参考訳) シーン内のオブジェクトの編集は、コンピュータビジョンとグラフィックスにおける幅広いアプリケーションで必要とされる重要な機能である。 3Dガウス撮影(3DGS)がシーン表現のフロンティアとして出現するにつれ、3Dガウスシーンの効果的な修正がますます重要になっている。 このプロセスでは、ターゲットオブジェクトを正確に検索し、次に命令に基づいて修正を実行する。 一部では利用可能だが、既存のテクニックは主に検索のためにガウシアンにスパースセマンティクスを組み込んでおり、編集に反復的なデータセット更新パラダイムに依存しており、過度なスムース化や一貫性の問題を招いている。 そこで本研究では,テキストによる3次元ガウス検索と編集のための体系的アプローチであるTIGERを提案する。 3Dガウシアンのためのトップダウン言語基盤アプローチとは対照的に、我々はボトムアップ言語集約戦略を採用し、オープン語彙検索をサポートする高密度言語を組み込んだ3Dガウシアンを生成する。 本稿では2次元画像編集拡散モデルと多視点拡散モデルとを集約したコヒーレントスコア蒸留(CSD)を提案する。 様々な実験において、我々のTIGERは以前の作業よりも一貫性があり、リアルな編集ができることを示した。

Editing objects within a scene is a critical functionality required across a broad spectrum of applications in computer vision and graphics. As 3D Gaussian Splatting (3DGS) emerges as a frontier in scene representation, the effective modification of 3D Gaussian scenes has become increasingly vital. This process entails accurately retrieve the target objects and subsequently performing modifications based on instructions. Though available in pieces, existing techniques mainly embed sparse semantics into Gaussians for retrieval, and rely on an iterative dataset update paradigm for editing, leading to over-smoothing or inconsistency issues. To this end, this paper proposes a systematic approach, namely TIGER, for coherent text-instructed 3D Gaussian retrieval and editing. In contrast to the top-down language grounding approach for 3D Gaussians, we adopt a bottom-up language aggregation strategy to generate a denser language embedded 3D Gaussians that supports open-vocabulary retrieval. To overcome the over-smoothing and inconsistency issues in editing, we propose a Coherent Score Distillation (CSD) that aggregates a 2D image editing diffusion model and a multi-view diffusion model for score distillation, producing multi-view consistent editing with much finer details. In various experiments, we demonstrate that our TIGER is able to accomplish more consistent and realistic edits than prior work.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-01
# Direct3D: 3次元遅延拡散変換器によるスケーラブルな画像から3次元生成

Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer ( http://arxiv.org/abs/2405.14832v2 )

ライセンス: Link先を確認
Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Jingxi Xu, Philip Torr, Xun Cao, Yao Yao, (参考訳) テキストや画像から高品質な3Dアセットを生成することは、主に複雑な幾何学分布をキャプチャできるスケーラブルな3D表現がないために、長年難しかった。 本研究では,マルチビュー拡散モデルやSDS最適化を必要とせず,入力画像にスケーラブルなネイティブ3D生成モデルであるDirect3Dを紹介する。 提案手法は,D3D-VAE (Direct 3D Variational Auto-Encoder) とD3D-DiT (Direct 3D Diffusion Transformer) の2成分からなる。 D3D-VAEは高解像度の3次元形状をコンパクトで連続的な3次元平面空間に効率的に符号化する。 特に,本手法は半連続表面サンプリング手法を用いてデコードされた幾何を直接監督し,画像のレンダリングを監督信号として用いた従来の手法から逸脱する。 D3D-DiTは、符号化された3Dラテントの分布をモデル化し、特に3次元ラテントの3つの特徴マップから位置情報を融合して、大規模3Dデータセットにスケーラブルなネイティブな3D生成モデルを可能にするように設計されている。 さらに,セマンティックおよび画素レベルの画像条件を取り入れた3次元画像生成パイプラインを導入し,提案した条件付き画像入力と整合した3次元形状をモデルで生成する。 広汎な実験により、従来の画像から3Dへのアプローチよりも大規模に事前訓練されたDirect3Dの優位性が示され、生成品質と一般化能力が大幅に向上し、3Dコンテンツ作成のための新たな最先端技術が確立された。 プロジェクトページ: https://nju-3dv.github.io/projects/Direct3D/。

Generating high-quality 3D assets from text and images has long been challenging, primarily due to the absence of scalable 3D representations capable of capturing intricate geometry distributions. In this work, we introduce Direct3D, a native 3D generative model scalable to in-the-wild input images, without requiring a multiview diffusion model or SDS optimization. Our approach comprises two primary components: a Direct 3D Variational Auto-Encoder (D3D-VAE) and a Direct 3D Diffusion Transformer (D3D-DiT). D3D-VAE efficiently encodes high-resolution 3D shapes into a compact and continuous latent triplane space. Notably, our method directly supervises the decoded geometry using a semi-continuous surface sampling strategy, diverging from previous methods relying on rendered images as supervision signals. D3D-DiT models the distribution of encoded 3D latents and is specifically designed to fuse positional information from the three feature maps of the triplane latent, enabling a native 3D generative model scalable to large-scale 3D datasets. Additionally, we introduce an innovative image-to-3D generation pipeline incorporating semantic and pixel-level image conditions, allowing the model to produce 3D shapes consistent with the provided conditional image input. Extensive experiments demonstrate the superiority of our large-scale pre-trained Direct3D over previous image-to-3D approaches, achieving significantly better generation quality and generalization ability, thus establishing a new state-of-the-art for 3D content creation. Project page: https://nju-3dv.github.io/projects/Direct3D/.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-01
# 分布シフト下におけるオープンボキャブラリ基礎物体検出器のロバスト性の検討

Investigating Robustness of Open-Vocabulary Foundation Object Detectors under Distribution Shifts ( http://arxiv.org/abs/2405.14874v2 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Kanjar De, Meenakshi Subhash Chippa, Rajkumar Saini, Marcus Liwicki, (参考訳) Out-Of-Distribution (OOD)の堅牢性の課題は、ディープビジョンモデルをデプロイする上で、依然として重要なハードルである。 オープンボキャブラリオブジェクト検出は、定義済みのカテゴリを超えてオブジェクトを認識し、分類する従来のオブジェクト検出フレームワークの機能を拡張する。 オープン語彙オブジェクト検出におけるOODロバスト性の調査は、これらのモデルの信頼性を高めるために不可欠である。 本研究では,最近のオープンボキャブラリ基礎オブジェクト検出モデルであるOWL-ViT, YOLO World, Grounding DINOのゼロショット機能に関する包括的ロバスト性評価を行った。 分散シフトを含むCOCO-OとCOCO-Cベンチマークで実施された実験は、モデルの堅牢性の課題を浮き彫りにした。 ソースコードはGitHubのリサーチコミュニティで入手することができる。

The challenge of Out-Of-Distribution (OOD) robustness remains a critical hurdle towards deploying deep vision models. Open-vocabulary object detection extends the capabilities of traditional object detection frameworks to recognize and classify objects beyond predefined categories. Investigating OOD robustness in open-vocabulary object detection is essential to increase the trustworthiness of these models. This study presents a comprehensive robustness evaluation of zero-shot capabilities of three recent open-vocabulary foundation object detection models, namely OWL-ViT, YOLO World, and Grounding DINO. Experiments carried out on the COCO-O and COCO-C benchmarks encompassing distribution shifts highlight the challenges of the models' robustness. Source code shall be made available to the research community on GitHub.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-01
# ParamReL: ベイズフローネットワークのプログレッシブエンコードによるパラメータ空間表現の学習

ParamReL: Learning Parameter Space Representation via Progressively Encoding Bayesian Flow Networks ( http://arxiv.org/abs/2405.15268v2 )

ライセンス: Link先を確認
Zhangkai Wu, Xuhui Fan, Jin Li, Zhilin Zhao, Hui Chen, Longbing Cao, (参考訳) 最近提案されたベイズフローネットワーク~(BFN)はパラメータ空間のモデリングにおいて大きな可能性を示し、連続的で離散化された離散データを扱うための統一的な戦略を提供する。 しかし、BFNはパラメータ空間から高レベルのセマンティック表現を学習することはできない。 パラメータ空間に隠された意味表現を学習し、混合型ノイズデータを特徴付ける。 そこで本研究では,パラメータ空間内で動作するParamReLという表現学習フレームワークを提案する。 具体的には、ParamReLは、観測からではなくパラメータから直接潜在意味論を学ぶために、 \emph{self-} エンコーダを提案する。 エンコーダはBFNに統合され、様々な観察形式の表現学習を可能にする。 相互情報用語は、潜在意味論の混乱をさらに促進し、同時に意味的意味論を捉える。 BFNを拡張することでParamReLの条件生成と再構築を図示し、学習パラメータ表現におけるParamReLの上位効果を実験的に検証した。

The recently proposed Bayesian Flow Networks~(BFNs) show great potential in modeling parameter spaces, offering a unified strategy for handling continuous, discretized, and discrete data. However, BFNs cannot learn high-level semantic representation from the parameter space since {common encoders, which encode data into one static representation, cannot capture semantic changes in parameters.} This motivates a new direction: learning semantic representations hidden in the parameter spaces to characterize mixed-typed noisy data. {Accordingly, we propose a representation learning framework named ParamReL, which operates in the parameter space to obtain parameter-wise latent semantics that exhibit progressive structures. Specifically, ParamReL proposes a \emph{self-}encoder to learn latent semantics directly from parameters, rather than from observations. The encoder is then integrated into BFNs, enabling representation learning with various formats of observations. Mutual information terms further promote the disentanglement of latent semantics and capture meaningful semantics simultaneously.} We illustrate {conditional generation and reconstruction} in ParamReL via expanding BFNs, and extensive {quantitative} experimental results demonstrate the {superior effectiveness} of ParamReL in learning parameter representation.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-01
# 画像復元の効率化

Efficient Degradation-aware Any Image Restoration ( http://arxiv.org/abs/2405.15475v2 )

ライセンス: Link先を確認
Eduard Zamfir, Zongwei Wu, Nancy Mehta, Danda Pani Paudel, Yulun Zhang, Radu Timofte, (参考訳) 劣化した低品質インプットから欠落した詳細を再構築することは、大きな課題となる。 画像復元の最近の進歩は、様々な劣化に同時に対処できる大規模モデルの学習の有効性を実証している。 それにもかかわらず、これらの手法は計算オーバーヘッドと複雑な学習パラダイムを導入し、実用性を制限している。 そこで本研究では,低階の学習者(DaLe)を用いた効率的なオールインワン画像復元システムである「textit{DaAIR}」を提案し,多種多様な劣化にまたがる相や微妙なニュアンスを共同でマイニングし,劣化認識の埋め込みを生成する。 モデルキャパシティを入力劣化に動的に割り当てることにより、総合的および特定の学習を統一モデルに統合した効率的な復元器を実現する。 さらに、DaAIRは、計算効率を維持しながら劣化認識を高めるコスト効率の高いパラメータ更新機構を導入している。 5つの画像劣化を総合的に比較すると、DaAIRは最先端のオールインワンモデルと分解特異的モデルの両方に優れており、有効性と実用性が確認されている。 ソースはhttps://eduardzamfir.github.io/daair/で公開されます。

Reconstructing missing details from degraded low-quality inputs poses a significant challenge. Recent progress in image restoration has demonstrated the efficacy of learning large models capable of addressing various degradations simultaneously. Nonetheless, these approaches introduce considerable computational overhead and complex learning paradigms, limiting their practical utility. In response, we propose \textit{DaAIR}, an efficient All-in-One image restorer employing a Degradation-aware Learner (DaLe) in the low-rank regime to collaboratively mine shared aspects and subtle nuances across diverse degradations, generating a degradation-aware embedding. By dynamically allocating model capacity to input degradations, we realize an efficient restorer integrating holistic and specific learning within a unified model. Furthermore, DaAIR introduces a cost-efficient parameter update mechanism that enhances degradation awareness while maintaining computational efficiency. Extensive comparisons across five image degradations demonstrate that our DaAIR outperforms both state-of-the-art All-in-One models and degradation-specific counterparts, affirming our efficacy and practicality. The source will be publicly made available at https://eduardzamfir.github.io/daair/
翻訳日:2024-06-04 14:09:37 公開日:2024-06-01
# 説明可能な分子特性予測:言語モデルによる予測を伴う化学概念の調整

Explainable Molecular Property Prediction: Aligning Chemical Concepts with Predictions via Language Models ( http://arxiv.org/abs/2405.16041v2 )

ライセンス: Link先を確認
Zhenzhong Wang, Zehui Lin, Wanyu Lin, Ming Yang, Minggang Zeng, Kay Chen Tan, (参考訳) 説明可能な分子特性予測を提供することは、薬物発見や物質科学など、多くの科学分野において重要である。 トランスフォーマーに基づく言語モデルは、正確な分子特性予測に大きな可能性を示しているが、化学的に意味のある説明や、分子構造と固有性の関係を忠実に明らかにするものではない。 本研究では,Lamoleと呼ばれる言語モデルに基づく分子特性予測のための新しいフレームワークを開発し,化学概念に整合した説明を提供する。 まず、指定された分子表現(グループSELFIES)を利用し、化学的に意味のある意味論を提供する。 トランスフォーマーのアテンション機構は本質的に入力内の関係を捉えることができるため、注意重みと勾配を結合して機能群相互作用を捉えるための説明を生成する。 次に、化学者のアノテーションに合わせるように説明を明示的に最適化するために、限界的な損失を慎重に作ります。 我々は、データ多様体の接空間と説明が一致できることを証明するために、多様体の仮説を精巧な限界損失で橋渡しし、概念的に整合した説明をもたらす。 6つの変異原性データセットと1つの肝毒性データセットに対する実験結果から、ラモールは同等の分類精度を達成でき、説明精度を14.8%向上させることができる。

Providing explainable molecule property predictions is critical for many scientific domains, such as drug discovery and material science. Though transformer-based language models have shown great potential in accurate molecular property prediction, they neither provide chemically meaningful explanations nor faithfully reveal the molecular structure-property relationships. In this work, we develop a new framework for explainable molecular property prediction based on language models, dubbed as Lamole, which can provide chemical concepts-aligned explanations. We first leverage a designated molecular representation -- the Group SELFIES -- as it can provide chemically meaningful semantics. Because attention mechanisms in Transformers can inherently capture relationships within the input, we further incorporate the attention weights and gradients together to generate explanations for capturing the functional group interactions. We then carefully craft a marginal loss to explicitly optimize the explanations to be able to align with the chemists' annotations. We bridge the manifold hypothesis with the elaborated marginal loss to prove that the loss can align the explanations with the tangent space of the data manifold, leading to concept-aligned explanations. Experimental results over six mutagenicity datasets and one hepatotoxicity dataset demonstrate Lamole can achieve comparable classification accuracy and boost the explanation accuracy by up to 14.8%, being the state-of-the-art in explainable molecular property prediction.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-01
# 層状中間予測による過渡不確かさ

Transitional Uncertainty with Layered Intermediate Predictions ( http://arxiv.org/abs/2405.17494v2 )

ライセンス: Link先を確認
Ryan Benkert, Mohit Prabhushankar, Ghassan AlRegib, (参考訳) 本稿では,単一パス不確実性推定のための特徴工学について論じる。 正確な不確実性推定のために、ニューラルネットワークは不確実性を定量化する特徴空間の差を抽出しなければならない。 これは、ネットワークを横断するデータポイント間の特徴距離を維持する、現在のシングルパスアプローチによって実現される。 初期結果は有望であるが,ネットワーク表現における特徴距離の維持は情報圧縮を頻繁に阻害し,学習目標に反する。 保存された特徴がラベル分布の学習に寄与し、反対に振る舞う場合、出力中の特徴距離を保存することは有益である。 次に、現在のシングルパス推定器の欠点に対処するための簡単なアプローチとして、階層型中間予測(TULIP)を用いた遷移不確実性を提案する。 具体的には、情報層が破壊される前に中間表現から特徴を抽出して特徴保存を行う。 本稿では,その基盤となる保存機構をトランザクショナルな特徴保存と呼ぶ。 TULIPは、標準ベンチマークや、これらの手法が信頼性の低い(不均衡、複雑なアーキテクチャ、医療モダリティ)実践的な環境で、現在のシングルパスメソッドに適合または性能を向上することを示す。

In this paper, we discuss feature engineering for single-pass uncertainty estimation. For accurate uncertainty estimates, neural networks must extract differences in the feature space that quantify uncertainty. This could be achieved by current single-pass approaches that maintain feature distances between data points as they traverse the network. While initial results are promising, maintaining feature distances within the network representations frequently inhibits information compression and opposes the learning objective. We study this effect theoretically and empirically to arrive at a simple conclusion: preserving feature distances in the output is beneficial when the preserved features contribute to learning the label distribution and act in opposition otherwise. We then propose Transitional Uncertainty with Layered Intermediate Predictions (TULIP) as a simple approach to address the shortcomings of current single-pass estimators. Specifically, we implement feature preservation by extracting features from intermediate representations before information is collapsed by subsequent layers. We refer to the underlying preservation mechanism as transitional feature preservation. We show that TULIP matches or outperforms current single-pass methods on standard benchmarks and in practical settings where these methods are less reliable (imbalances, complex architectures, medical modalities).
翻訳日:2024-06-04 13:59:47 公開日:2024-06-01
# Unisolver: PDE-Conditional TransformerはユニバーサルPDEソルバー

Unisolver: PDE-Conditional Transformers Are Universal PDE Solvers ( http://arxiv.org/abs/2405.17527v2 )

ライセンス: Link先を確認
Hang Zhou, Yuezhou Ma, Haixu Wu, Haowen Wang, Mingsheng Long, (参考訳) ディープモデルは、ニューラルPDEソルバとして知られる偏微分方程式(PDE)を解くための有望なツールとして最近登場した。 シミュレーションデータまたは物理情報損失から訓練されたニューラルソルバは、PDEを合理的に解くことができるが、それらは主に特定のPDE(例えば、ある方程式や有限個の係数)の集合に制限される。 このボトルネックは、数値解法に対する大きな優位性として広く認識されているニューラルソルバの一般化性を制限する。 本稿では,多種多様なPDEを事前学習し,多種多様なPDEを条件としたTransformerを活用することで,多種多様なPDEを解くことができるUniversal PDEソルバ(Unisolver)を提案する。 データとパラメータを単純にスケールアップする代わりに、UnisolverはPDE解決プロセスの理論解析から生まれた。 我々の重要な発見は、PDE解は基本的に一連のPDE成分、例えば方程式記号、係数、初期および境界条件の制御下にあることである。 PDE の数学的構造に着想を得て,PDE 成分の完全集合を定義し,それを変換器 PDE ソルバに対する領域ワイド (eg 方程式記号) および点ワイド (eg 境界) 条件として埋め込む。 最近のTransformerの進歩と物理的洞察を統合することで、Unisolverは3つの挑戦的な大規模ベンチマークにおいて、一貫した最先端の結果を達成している。

Deep models have recently emerged as a promising tool to solve partial differential equations (PDEs), known as neural PDE solvers. While neural solvers trained from either simulation data or physics-informed loss can solve the PDEs reasonably well, they are mainly restricted to a specific set of PDEs, e.g. a certain equation or a finite set of coefficients. This bottleneck limits the generalizability of neural solvers, which is widely recognized as its major advantage over numerical solvers. In this paper, we present the Universal PDE solver (Unisolver) capable of solving a wide scope of PDEs by leveraging a Transformer pre-trained on diverse data and conditioned on diverse PDEs. Instead of simply scaling up data and parameters, Unisolver stems from the theoretical analysis of the PDE-solving process. Our key finding is that a PDE solution is fundamentally under the control of a series of PDE components, e.g. equation symbols, coefficients, and initial and boundary conditions. Inspired by the mathematical structure of PDEs, we define a complete set of PDE components and correspondingly embed them as domain-wise (e.g. equation symbols) and point-wise (e.g. boundaries) conditions for Transformer PDE solvers. Integrating physical insights with recent Transformer advances, Unisolver achieves consistent state-of-the-art results on three challenging large-scale benchmarks, showing impressive gains and endowing favorable generalizability and scalability.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-01
# ストリーミングデータを用いた高次元GLMにおける適応デバイアス付きSGD

Adaptive debiased SGD in high-dimensional GLMs with streaming data ( http://arxiv.org/abs/2405.18284v2 )

ライセンス: Link先を確認
Ruijian Han, Lan Luo, Yuanhang Luo, Yuanyuan Lin, Jian Huang, (参考訳) オンライン統計推論は、シーケンシャルに収集されたデータのリアルタイム分析を容易にするため、静的データセットに依存する従来の方法とは異なる。 本稿では,高次元一般化線形モデルにおけるオンライン推論の新しい手法を提案する。 完全データセットアクセスや大次元要約統計ストレージを必要とする既存の手法とは対照的に,本手法は単一パスモードで動作し,時間と空間の複雑さを著しく低減する。 我々の方法論的革新の中核は、動的目的関数に適した適応確率勾配降下アルゴリズムと、新しいオンラインデバイアス処理である。 これにより、動的に変化する損失関数によって生じる最適化誤差を効果的に制御しながら、低次元の要約統計を維持できる。 提案手法は,ADL (Approximated Debiased Lasso) と呼ばれ,有界な個人確率条件の必要性を緩和するだけでなく,数値性能も著しく向上することを示した。 数値実験により,ADL法は様々な共分散行列構造に対して連続的に頑健な性能を示すことを示した。

Online statistical inference facilitates real-time analysis of sequentially collected data, making it different from traditional methods that rely on static datasets. This paper introduces a novel approach to online inference in high-dimensional generalized linear models, where we update regression coefficient estimates and their standard errors upon each new data arrival. In contrast to existing methods that either require full dataset access or large-dimensional summary statistics storage, our method operates in a single-pass mode, significantly reducing both time and space complexity. The core of our methodological innovation lies in an adaptive stochastic gradient descent algorithm tailored for dynamic objective functions, coupled with a novel online debiasing procedure. This allows us to maintain low-dimensional summary statistics while effectively controlling optimization errors introduced by the dynamically changing loss functions. We demonstrate that our method, termed the Approximated Debiased Lasso (ADL), not only mitigates the need for the bounded individual probability condition but also significantly improves numerical performance. Numerical experiments demonstrate that the proposed ADL method consistently exhibits robust performance across various covariance matrix structures.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-01
# ビジョンランゲージモデルの低ランクFew-Shot適応

Low-Rank Few-Shot Adaptation of Vision-Language Models ( http://arxiv.org/abs/2405.18541v2 )

ライセンス: Link先を確認
Maxime Zanella, Ismail Ben Ayed, (参考訳) VLM(Vision-Language Models)の少数の適応の最近の進歩は、目標下流タスクにおいてわずか数個のラベル付きサンプルを犠牲にして、その一般化能力をさらに推し進めている。 しかし、この有望な、既にかなりの数ショットの文献は、主に迅速な学習に焦点を合わせており、より少ない範囲において、パラメータ効率の良いファインチューニング(PEFT)の最近の進歩を見越して、アダプタに焦点をあてている。 さらに、VLMの既存の数発の学習手法は、重い訓練手順と/または慎重に選択されたタスク固有のハイパーパラメータに依存しており、それらの適用性を阻害する可能性がある。 これに対し、VLMのための数ショット学習においてローランド適応(LoRA)を導入し、現在の最先端のプロンプトとアダプタベースのアプローチと比較して、11のデータセットにその可能性を示す。 驚くべきことに、私たちの単純なCLIP-LoRAメソッドは、トレーニング時間を短縮し、すべてのターゲットタスク、すなわち、すべてのデータセットとショット数に同じハイパーパラメータを保持するとともに、大幅に改善されている。 もちろん、我々の驚くべき結果は、迅速な学習とアダプタベースの研究の可能性を否定するものではない。 しかし,本研究の強力なベースラインは,これらの突発性被験者の経過を数発のVLMで評価するのに有効であると考えられた。

Recent progress in the few-shot adaptation of Vision-Language Models (VLMs) has further pushed their generalization capabilities, at the expense of just a few labeled samples within the target downstream task. However, this promising, already quite abundant few-shot literature has focused principally on prompt learning and, to a lesser extent, on adapters, overlooking the recent advances in Parameter-Efficient Fine-Tuning (PEFT). Furthermore, existing few-shot learning methods for VLMs often rely on heavy training procedures and/or carefully chosen, task-specific hyper-parameters, which might impede their applicability. In response, we introduce Low-Rank Adaptation (LoRA) in few-shot learning for VLMs, and show its potential on 11 datasets, in comparison to current state-of-the-art prompt- and adapter-based approaches. Surprisingly, our simple CLIP-LoRA method exhibits substantial improvements, while reducing the training times and keeping the same hyper-parameters in all the target tasks, i.e., across all the datasets and numbers of shots. Certainly, our surprising results do not dismiss the potential of prompt-learning and adapter-based research. However, we believe that our strong baseline could be used to evaluate progress in these emergent subjects in few-shot VLMs.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-01
# 深層学習による経口読解頻度の評価

Deep Learning for Assessment of Oral Reading Fluency ( http://arxiv.org/abs/2405.19426v2 )

ライセンス: Link先を確認
Mithilesh Vaidya, Binaya Kumar Sahoo, Preeti Rao, (参考訳) 読み流しの評価はリテラシープログラムの重要な要素であり、早期教育介入の指導と監視に役立っている。 教員が実施する演習のリソース集約性を考えると,口頭読みの音声記録を操作できる自動ツールの開発は,客観的かつ高度にスケーラブルなソリューションとして魅力的である。 精度、レート、表現力などの複雑な側面は、読み流しの人間の判断を下す。 そこで本研究では,人間専門家がラベル付けした物語テキストの子どもの音声記録の学習データセットのエンドツーエンドモデリングについて検討する。 事前訓練されたwav2vec2.0モデルは、ラベル付きデータの限られた量による課題を軽減する可能性から採用されている。 本報告では, 学習した語彙・音響・韻律的特徴の組込みが, 読み流しの知覚に重要であることを明らかにする。

Reading fluency assessment is a critical component of literacy programmes, serving to guide and monitor early education interventions. Given the resource intensive nature of the exercise when conducted by teachers, the development of automatic tools that can operate on audio recordings of oral reading is attractive as an objective and highly scalable solution. Multiple complex aspects such as accuracy, rate and expressiveness underlie human judgements of reading fluency. In this work, we investigate end-to-end modeling on a training dataset of children's audio recordings of story texts labeled by human experts. The pre-trained wav2vec2.0 model is adopted due its potential to alleviate the challenges from the limited amount of labeled data. We report the performance of a number of system variations on the relevant measures, and also probe the learned embeddings for lexical and acoustic-prosodic features known to be important to the perception of reading fluency.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-01
# LLaMEA:メタヒューリスティックスの自動生成のための大規模言語モデル進化アルゴリズム

LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics ( http://arxiv.org/abs/2405.20132v2 )

ライセンス: Link先を確認
Niki van Stein, Thomas Bäck, (参考訳) GPT-4のような大規模言語モデル(LLM)は、自然言語を理解し、複雑なコードスニペットを生成する能力を示している。 本稿では,アルゴリズムの自動生成と改良にGPTモデルを活用する,新しいLarge Language Model Evolutionary Algorithm (LLaMEA) フレームワークを提案する。 一連の基準とタスク定義(検索空間)が与えられた後、LLaMEAは実行時評価からパフォーマンスメトリクスとフィードバックに基づいてアルゴリズムを反復的に生成し、変更し、選択する。 このフレームワークは、高度な事前の専門知識を必要とせず、最適化されたアルゴリズムを生成するためのユニークなアプローチを提供する。 我々は,このフレームワークを用いて,新しいブラックボックスメタヒューリスティック最適化アルゴリズムを自動生成する方法を示す。 LLaMEAは5次元ブラックボックス最適化ベンチマーク(BBOB)で最先端の最適化アルゴリズム(共分散行列適応進化戦略と微分進化)を上回る複数のアルゴリズムを生成する。 また,テスト関数の10次元および20次元のインスタンスに対して,自動生成プロセス中にそのようなインスタンスは見られないが,競合性能を示す。 その結果,LLMによるアルゴリズムの自動生成と最適化のためのフレームワークの実現可能性を示し,今後の方向性を明らかにした。

Large Language Models (LLMs) such as GPT-4 have demonstrated their ability to understand natural language and generate complex code snippets. This paper introduces a novel Large Language Model Evolutionary Algorithm (LLaMEA) framework, leveraging GPT models for the automated generation and refinement of algorithms. Given a set of criteria and a task definition (the search space), LLaMEA iteratively generates, mutates and selects algorithms based on performance metrics and feedback from runtime evaluations. This framework offers a unique approach to generating optimized algorithms without requiring extensive prior expertise. We show how this framework can be used to generate novel black-box metaheuristic optimization algorithms automatically. LLaMEA generates multiple algorithms that outperform state-of-the-art optimization algorithms (Covariance Matrix Adaptation Evolution Strategy and Differential Evolution) on the five dimensional black box optimization benchmark (BBOB). The algorithms also show competitive performance on the 10- and 20-dimensional instances of the test functions, although they have not seen such instances during the automated generation process. The results demonstrate the feasibility of the framework and identify future directions for automated generation and optimization of algorithms via LLMs.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-01
# S3D:低メモリGPUのためのシンプルで費用効果の高い自己投機的デコード方式

S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs ( http://arxiv.org/abs/2405.20314v2 )

ライセンス: Link先を確認
Wei Zhong, Manasa Bharadwaj, (参考訳) 投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。 しかし、その高速さにもかかわらず、投機的復号法は、ハイエンドデバイスや相当なGPUメモリオーバーヘッドで最適なパフォーマンスを達成することが多い。 メモリの制限と量子化の必要性から、ハイエンドGPUのハイパフォーマンスモデルは最大7倍の速度で低下する可能性がある。 そこで本稿では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。 近年の効率的なオープンソースSDシステムと比較すると,本手法は最小限のアーキテクチャ変更とトレーニングデータを必要としながら,最高のパフォーマンス・メモリ比を達成している。 メモリ効率を活用して、Phi-3をベースとしたより小型で効率的なSDモデルを作成しました。 量子化されたEAGLEモデルよりも1.4倍から2倍高速で、より少ないVRAMを使用しながら半精度で動作する。

Speculative decoding (SD) has attracted a significant amount of research attention due to the substantial speedup it can achieve for LLM inference. However, despite the high speedups they offer, speculative decoding methods often achieve optimal performance on high-end devices or with a substantial GPU memory overhead. Given limited memory and the necessity of quantization, a high-performing model on a high-end GPU can slow down by up to 7 times. To this end, we propose Skippy Simultaneous Speculative Decoding (or S3D), a cost-effective self-speculative SD method based on simultaneous multi-token decoding and mid-layer skipping. When compared against recent effective open-source SD systems, our method has achieved one of the top performance-memory ratios while requiring minimal architecture changes and training data. Leveraging our memory efficiency, we created a smaller yet more effective SD model based on Phi-3. It is 1.4 to 2 times faster than the quantized EAGLE model and operates in half-precision while using less VRAM.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-01
# PrivLM-Bench: 言語モデルのための多レベルプライバシ評価ベンチマーク

PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models ( http://arxiv.org/abs/2311.04044v3 )

ライセンス: Link先を確認
Haoran Li, Dadi Guo, Donghao Li, Wei Fan, Qi Hu, Xin Liu, Chunkit Chan, Duanyi Yao, Yuan Yao, Yangqiu Song, (参考訳) 言語モデル(LM)の急速な開発は、モデルとユーザの両方に前例のないアクセシビリティと利用をもたらす。 一方、強力なLMは、多くの下流NLPタスクに対して最先端のパフォーマンスを達成する。 一方で、データ漏洩の悪意のあるプライバシーリスクを引き起こす可能性のある、制限のないモデルアクセスに対して、ますます多くの注意が払われています。 これらの問題に対処するため、近年の多くの研究で、差分プライバシー(DP)を用いたプライバシー保護言語モデル(PPLM)が提案されている。 残念ながら、異なるDP実装は既存のPPLMと公正な比較を困難にしている。 本稿では,マルチパースペクティブなプライバシ評価ベンチマークであるPrivLM-Benchを紹介し,LMのプライバシリークを経験的かつ直観的に定量化する。 DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。 PrivLM-Benchはまず、多面的なプライバシーの目的を明確に定義している。 次にPrivLM-Benchは、プライベートな微調整を行うための統一パイプラインを構築する。 最後に、PrivLM-Benchは、経験的評価結果として、予め定義されたプライバシー目標を持つLMに対して、既存のプライバシ攻撃を行う。 様々なPPLMのプライバシー漏洩を公平かつ直感的に評価するために,経験的攻撃結果を用いている。 メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。

The rapid development of language models (LMs) brings unprecedented accessibility and usage for both models and users. On the one hand, powerful LMs achieve state-of-the-art performance over numerous downstream NLP tasks. On the other hand, more and more attention is paid to unrestricted model accesses that may bring malicious privacy risks of data leakage. To address these issues, many recent works propose privacy-preserving language models (PPLMs) with differential privacy (DP). Unfortunately, different DP implementations make it challenging for a fair comparison among existing PPLMs. In this paper, we present PrivLM-Bench, a multi-perspective privacy evaluation benchmark to empirically and intuitively quantify the privacy leakage of LMs. Instead of only reporting DP parameters, PrivLM-Bench sheds light on the neglected inference data privacy during actual usage. PrivLM-Bench first clearly defines multi-faceted privacy objectives. Then, PrivLM-Bench constructs a unified pipeline to perform private fine-tuning. Lastly, PrivLM-Bench performs existing privacy attacks on LMs with pre-defined privacy objectives as the empirical evaluation results. The empirical attack results are used to fairly and intuitively evaluate the privacy leakage of various PPLMs. We conduct extensive experiments on three datasets of GLUE for mainstream LMs.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01
# アウト・オブ・ディストリビューション部分ラベル学習

Out-of-distribution Partial Label Learning ( http://arxiv.org/abs/2403.06681v3 )

ライセンス: Link先を確認
Jintao Huang, Yiu-Ming Cheung, Chi-Man Vong, (参考訳) 部分ラベル学習(Partial Label Learning, PLL)は、トレーニングとテストオブジェクトが同じ分布、すなわちクローズドセットシナリオにあるという仮定の下で、不正確なラベルを持つデータからモデル学習に取り組む。 しかしながら、この仮定は、テストデータがout-Of-Distribution (OOD)から来る可能性がある実世界のオープンセットのシナリオには当てはまらない。 これは、新たに提案したPLOODフレームワークが効果的に解決できるOODPLL(Out-Of-Distribution partial Label Learning)と呼ばれる未探索の問題である。 学習段階において,本フレームワークは自己指導型学習戦略を利用して,各対象に対して正と負のサンプルを生成し,それぞれ分布内と外分布内をエミュレートする。 これらの分布の下で、PLL法はOODオブジェクトの識別的特徴を学習することができる。 推論フェーズでは,上記のトレーニングフェーズで確立されたラベル信頼を利用して,実際のラベルをマイニングする新しい部分エネルギー(PE)スコアリング手法が提案されている。 このようにして、PLLにおける不正確なラベリングの問題は、OODオブジェクト検出の大幅な性能向上のために効果的に対処できる。 PLOODは、様々なOODデータセットに対して、CIFAR-10およびCIFAR-100データセット上のSOTA PLLモデルとOODスコアと比較される。 その結果,PLOODフレームワークの有効性を実証し,SOTA PLLモデルより大幅に優れ,現実世界のOODシナリオにおけるPLL問題に対処する上での大幅な進歩を示すことができた。

Partial Label Learning (PLL) tackles model learning from the data with inexact labels under the assumption that training and test objects are in the same distribution, i.e., closed-set scenario. Nevertheless, this assumption does not hold in real-world open-set scenarios where test data may come from Out-Of-Distribution (OOD), resulting in object detection failure and hence significantly compromising the PLL model's security and trustworthiness. This is a previously unexplored problem called Out-Of-Distribution Partial Label Learning (OODPLL) that our newly proposed PLOOD framework can effectively resolve. During the training phase, our framework leverages self-supervised learning strategy to generate positive and negative samples for each object, emulating in and out-of-distributions respectively. Under these distributions, PLL methods can learn discriminative features for OOD objects. In the inference phase, a novel Partial Energy (PE) scoring technique is proposed which leverages the label confidence established during the above training phase to mine the actual labels. In this way, the issue of inexact labeling in PLL can be effectively addressed for significantly better performance in OOD object detection. PLOOD is compared with SOTA PLL models and OOD scores on CIFAR-10 and CIFAR-100 datasets against various OOD datasets. The results demonstrate the effectiveness of our PLOOD framework, significantly outperforming SOTA PLL models and marking a substantial advancement in addressing PLL problems in real-world OOD scenarios.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01
# 正しいか? ランキングがまた変わる: 優先順位データセットの改善のために繰り返しランク付け

Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets ( http://arxiv.org/abs/2405.18952v2 )

ライセンス: Link先を確認
Peter Devine, (参考訳) AIフィードバック(RLAIF)による強化学習(Reinforcement Learning from AI Feedback)による大規模言語モデル(LLMs)のトレーニングは、モデルの出力と人間の好みをより緊密に調整する。 これには、ユーザプロンプトに対する複数の候補応答をランク付けする評価器モデルが含まれる。 しかし、GPT-4のような一般的な評価モデルのランキングには矛盾がある。 そこで我々は,同じ応答を複数回評価し,一貫してランク付けされている応答のみを訓練する,繰り返しランク付け手法を提案する。 62言語で2,714のプロンプトを用いて、7つの上位多言語LLMから応答を生成し、それぞれ5倍のGPT-4をランク付けした。 MT-Bench のチャットベンチマークを6言語で評価した結果,提案手法は利用可能なすべてのプロンプトをトレーニングする標準的な手法よりも優れていた。 我々の研究は、RLAIFデータセット生成における品質対量トレードオフを強調し、データセットの拡張とモデル品質のためのスタック可能な戦略を提供する。

Training Large Language Models (LLMs) with Reinforcement Learning from AI Feedback (RLAIF) aligns model outputs more closely with human preferences. This involves an evaluator model ranking multiple candidate responses to user prompts. However, the rankings from popular evaluator models such as GPT-4 can be inconsistent. We propose the Repeat Ranking method - where we evaluate the same responses multiple times and train only on those responses which are consistently ranked. Using 2,714 prompts in 62 languages, we generated responses from 7 top multilingual LLMs and had GPT-4 rank them five times each. Evaluating on MT-Bench chat benchmarks in six languages, our method outperformed the standard practice of training on all available prompts. Our work highlights the quality versus quantity trade-off in RLAIF dataset generation and offers a stackable strategy for enhancing dataset and thus model quality.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01
# LLMが誤る簡単な問題

Easy Problems That LLMs Get Wrong ( http://arxiv.org/abs/2405.19616v2 )

ライセンス: Link先を確認
Sean Williams, James Huckle, (参考訳) 本稿では,論理的推論や空間知性,言語理解などの領域において,LLM(Large Language Models)の限界を評価するために設計された包括的な言語ベンチマークを紹介する。 一連の簡単な質問を通じて、人間が簡単に管理するタスクを実行するための、よく考えられたモデルの重大な制限を明らかにする。 また、いくつかのエラーを軽減し、より良いトレーニング方法論の必要性を浮き彫りにするエンジニアリングの可能性を強調している。 本研究は,企業アプリケーションにおけるヒューマン・イン・ザ・ループの必要性を強調し,人間の推論と常識によるLLMの基盤化の重要性を強調した。 この研究が、新しいモデルの有用性と信頼性を高めるための将来の研究の道を開くことを願っている。

We introduce a comprehensive Linguistic Benchmark designed to evaluate the limitations of Large Language Models (LLMs) in domains such as logical reasoning, spatial intelligence, and linguistic understanding, among others. Through a series of straightforward questions, it uncovers the significant limitations of well-regarded models to perform tasks that humans manage with ease. It also highlights the potential of prompt engineering to mitigate some errors and underscores the necessity for better training methodologies. Our findings stress the importance of grounding LLMs with human reasoning and common sense, emphasising the need for human-in-the-loop for enterprise applications. We hope this work paves the way for future research to enhance the usefulness and reliability of new models.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01
# 登場人物の性格の再構築による一貫性の強化と役割特有知識の獲得

Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding Fictional Character's Persona ( http://arxiv.org/abs/2405.19778v2 )

ライセンス: Link先を確認
Jeiyoon Park, Chanjun Park, Heuiseok Lim, (参考訳) 最近のAssistants APIの導入により、ドキュメントベースの言語モデルが様々なドメイン、特にロールプレイングでアクティブに使用されることが期待されている。 しかし、重要な課題は、主人公のペルソナを利用することである: アシスタントAPIは、情報抽出部が毎回異なるため、しばしば検索で達成できず、主人公の背景や関係といった重要な情報を省略する。 Assistants APIへの入力としてペルソナドキュメントを使用することで、一貫性のあるペルソナを維持するのは難しい。 安定したペルソナ整合性を実現するための課題として,Assistants APIの欠点を軽減するための新しいペルソナ再構成フレームワークである characterGPT を提案する。 本手法では,小説の要約から登場人物の特徴を,小説の物語が進行しているかのように抽出することで,文字ペルソナを効果的に更新する文字ペルソナ訓練(CPT)を行う。 実験では,各キャラクタに対して,様々な設定でBig Five Inventoryパーソナリティテストを実施し,その結果を分析した。 ボックスの外側で考えることができるかどうかを評価するため、各キャラクターが短編小説を制作する。 広範囲な実験と人的評価により、キャラクタGPTはロールプレイングエージェント研究の新しい可能性を示す。

With the recent introduction of Assistants API, it is expected that document-based language models will be actively used in various domains, especially Role-playing. However, a key challenge lies in utilizing protagonist's persona: Assistants API often fails to achieve with its search because the information extraction part is different each time and it often omits important information such as protagonist's backstory or relationships. It is hard to maintain a consistent persona simply by using the persona document as input to the Assistants API. To address the challenge of achieving stable persona consistency, we propose CharacterGPT, a novel persona reconstruction framework to alleviate the shortcomings of the Assistants API. Our method involves Character Persona Training (CPT), an effective persona rebuilding process that updates the character persona by extracting the character's traits from given summary of the novel for each character as if the story in a novel progresses. In our experiments, we ask each character to take the Big Five Inventory personality test in various settings and analyze the results. To assess whether it can think outside the box, we let each character generate short novels. Extensive experiments and human evaluation demonstrate that CharacterGPT presents new possibilities for role-playing agent research.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01
# オフライン強化学習のための適応的アドバンテージ誘導型ポリシー規則化

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.19909v2 )

ライセンス: Link先を確認
Tenglong Liu, Yang Li, Yixing Lan, Hao Gao, Wei Pan, Xin Xu, (参考訳) オフライン強化学習では、アウト・オブ・ディストリビューション(OOD)の課題が読み取れる。 これを解決するために、既存の手法は、しばしばポリシーの規則化を通じて学習したポリシーを制約する。 しかし、これらの方法はしばしば不必要な保守性の問題に悩まされ、政策改善を妨げている。 これは、オフラインデータセットを制約として生成する振舞いポリシーから、すべてのアクションが無差別に使用されるためである。 データセットの品質が最適以下である場合、この問題は特に顕著になる。 そこで我々は, 適応アドバンテージ誘導型政策規則化(A2PR)を提案し, VAEと組み合わせた拡張行動政策から高アドバンテージな行動を求め, 学習方針を導出する。 A2PRはデータセットにあるものとは異なる高アドバンテージなアクションを選択できるが、OODアクションからの保守性を効果的に維持できる。 これは、VAEキャパシティを利用して、データポイントの分布に一致するサンプルを生成することで達成される。 我々は行動政策の改善が保証されていることを理論的に証明する。 さらに、値過大評価を有界な性能ギャップで効果的に軽減する。 実験的に、我々はD4RLベンチマークで一連の実験を行い、A2PRは最先端の性能を示す。 さらに、追加の最適混合データセットに対する実験結果から、A2PRは優れた性能を示すことが明らかとなった。 コードはhttps://github.com/ltlhuuu/A2PRで公開されている。

In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through policy regularization. However, these methods often suffer from the issue of unnecessary conservativeness, hampering policy improvement. This occurs due to the indiscriminate use of all actions from the behavior policy that generates the offline dataset as constraints. The problem becomes particularly noticeable when the quality of the dataset is suboptimal. Thus, we propose Adaptive Advantage-guided Policy Regularization (A2PR), obtaining high-advantage actions from an augmented behavior policy combined with VAE to guide the learned policy. A2PR can select high-advantage actions that differ from those present in the dataset, while still effectively maintaining conservatism from OOD actions. This is achieved by harnessing the VAE capacity to generate samples matching the distribution of the data points. We theoretically prove that the improvement of the behavior policy is guaranteed. Besides, it effectively mitigates value overestimation with a bounded performance gap. Empirically, we conduct a series of experiments on the D4RL benchmark, where A2PR demonstrates state-of-the-art performance. Furthermore, experimental results on additional suboptimal mixed datasets reveal that A2PR exhibits superior performance. Code is available at https://github.com/ltlhuuu/A2PR.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01
# グラフ陽性学習における不テロ親和性構造の影響の解明

Unraveling the Impact of Heterophilic Structures on Graph Positive-Unlabeled Learning ( http://arxiv.org/abs/2405.19919v2 )

ライセンス: Link先を確認
Yuhao Wu, Jiangchao Yao, Bo Han, Lina Yao, Tongliang Liu, (参考訳) Positive-Unlabeled (PU) 学習は多くの実世界のシナリオにおいて不可欠であるが、グラフデータへの応用はいまだ未探索のままである。 グラフ上でのPU学習における重要な課題はエッジヘテロフィリー上にあり、クラスプライア推定(PU学習アルゴリズムを構築する上では、クラス先行が必須)の既約性仮定に直接違反し、未ラベルノード上の潜在ラベル推論をクラス化学習中に退避させる。 この課題に対応するために,ラベル伝搬損失を用いたグラフPU学習(Graph PU Learning with Label Propagation Loss, GPL)という新しい手法を導入する。 具体的には、GPLはPUノードからの学習と中間的ヘテロフィリ還元を考慮し、ヘテロ親和性構造の負の影響を軽減する。 この手順は、内部ループにおける不均一性を低減し、外部ループにおける分類器を効率的に学習する二段階最適化として定式化する。 さまざまなデータセットにわたる大規模な実験により、GPLはベースラインメソッドを大幅に上回っており、その有効性と優位性を確認している。

While Positive-Unlabeled (PU) learning is vital in many real-world scenarios, its application to graph data still remains under-explored. We unveil that a critical challenge for PU learning on graph lies on the edge heterophily, which directly violates the irreducibility assumption for Class-Prior Estimation (class prior is essential for building PU learning algorithms) and degenerates the latent label inference on unlabeled nodes during classifier training. In response to this challenge, we introduce a new method, named Graph PU Learning with Label Propagation Loss (GPL). Specifically, GPL considers learning from PU nodes along with an intermediate heterophily reduction, which helps mitigate the negative impact of the heterophilic structure. We formulate this procedure as a bilevel optimization that reduces heterophily in the inner loop and efficiently learns a classifier in the outer loop. Extensive experiments across a variety of datasets have shown that GPL significantly outperforms baseline methods, confirming its effectiveness and superiority.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01
# アンタゴニストイベントグループ競争におけるランダムフォレストに基づく転倒点予測モデル

A Random Forest-based Prediction Model for Turning Points in Antagonistic Event-Group Competitions ( http://arxiv.org/abs/2405.20029v2 )

ライセンス: Link先を確認
Zishuo Zhu, (参考訳) 現在,競技結果の予測に焦点が当てられているイベントグループ競技に関する予測研究の多くは,競技結果の予測に焦点が当てられているが,実際の競技における競技者の状態情報のリアルタイムなフィードバックが得られず,競技状況の変化を分析できない競技プロセスの予測には焦点が当てられている。 そこで本研究では, ランダムフォレストに基づく, 対角的事象群の旋回点の予測モデルを提案する。 第一に、競合ポテンシャルエネルギーの定量的方程式を提案し、第二に、重み付け法の動的組み合わせを用いて競合ポテンシャルエネルギーの定量的値を求め、その定量的時系列グラフに基づいて敵対事象群の競合状況の旋回点をマークし、最後に、KM-SMOTEアルゴリズムの最適化に基づくランダム森林予測モデルとグリッド探索法を確立した。 実験により, 競合ポテンシャルエネルギーの定量的方程式は, 競合の動的状況を効果的に反映しうること, モデルは, 対角的事象群の競合状況の旋回点を効果的に予測でき, テストセットにおけるモデルのリコール率は86.13%であり, このモデルは, 対角的事象群の競合状況の今後の研究に有意であることを示す。

At present, most of the prediction studies related to antagonistic event-group competitions focus on the prediction of competition results, and less on the prediction of the competition process, which can not provide real-time feedback of the athletes' state information in the actual competition, and thus can not analyze the changes of the competition situation. In order to solve this problem, this paper proposes a prediction model based on Random Forest for the turning point of the antagonistic event-group. Firstly, the quantitative equation of competitive potential energy is proposed; Secondly, the quantitative value of competitive potential energy is obtained by using the dynamic combination of weights method, and the turning point of the competition situation of the antagonistic event-group is marked according to the quantitative time series graph; Finally, the random forest prediction model based on the optimisation of the KM-SMOTE algorithm and the grid search method is established. The experimental analysis shows that: The quantitative equation of competitive potential energy can effectively reflect the dynamic situation of the competition; The model can effectively predict the turning point of the competition situation of the antagonistic event-group, and the recall rate of the model in the test set is 86.13%; The model has certain significance for the future study of the competition situation of the antagonistic event-group.
翻訳日:2024-06-04 11:33:55 公開日:2024-06-01