このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240726となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ChipExpert: オープンソースの統合回路設計型大規模言語モデル
ChipExpert: The Open-Source Integrated-Circuit-Design-Specific Large Language Model ( http://arxiv.org/abs/2408.00804v1 ) ライセンス: Link先を確認 | Ning Xu, Zhaoyang Zhang, Lei Qi, Wensuo Wang, Chao Zhang, Zihao Ren, Huaiyuan Zhang, Xin Cheng, Yanqi Zhang, Zhichao Liu, Qingwen Wei, Shiyang Wu, Lanlan Yang, Qianfeng Lu, Yiqun Ma, Mengyao Zhao, Junbo Liu, Yufan Song, Xin Geng, Jun Yang, | (参考訳) 集積回路(IC)設計の分野は高度に専門化されており、導入・研究・開発における大きな障壁となっている。
大規模言語モデル(LLM)は様々な領域で顕著な成功を収めてきたが、既存のLLMは学生、技術者、研究者のニーズを満たしていないことが多い。
結果として、IC設計領域におけるLLMの可能性は、まだ明らかにされていない。
これらの問題に対処するため,IC 設計分野に特化して設計された,初のオープンソースの教育用 LLM である ChipExpert を紹介する。
ChipExpertは、現在最高のオープンソースベースモデル(Llama-3 8B)の1つで訓練されている。
トレーニングプロセス全体は、データ準備、継続トレーニング、指導指導による微調整、優先調整、評価など、いくつかの重要な段階を含む。
データ作成段階では、手動選択とデータ合成技術を用いて、高品質なカスタムデータセットを複数構築する。
その後の2つの段階において、ChipExpertは大量のIC設計知識を取得し、ユーザクエリにプロフェッショナルに応答する方法を学ぶ。
ChipExpertはまた、倫理的パフォーマンスの高水準を達成するために、ダイレクト・プライス・オプティマイション(Direct Preference Optimization)を使用してアライメントフェーズも実施している。
最後に,ChipExpertの幻覚を緩和するため,IC設計知識に基づく検索・拡張生成システムを開発した。
また,複数のIC設計サブドメインにまたがるLLMの性能を評価するため,最初のIC設計ベンチマークであるChipICD-Benchをリリースした。
このベンチマークで実施された総合的な実験を通じて、ChipExpertはIC設計知識に関する質問と回答のタスクにおいて高いレベルの専門知識を実証した。
The field of integrated circuit (IC) design is highly specialized, presenting significant barriers to entry and research and development challenges. Although large language models (LLMs) have achieved remarkable success in various domains, existing LLMs often fail to meet the specific needs of students, engineers, and researchers. Consequently, the potential of LLMs in the IC design domain remains largely unexplored. To address these issues, we introduce ChipExpert, the first open-source, instructional LLM specifically tailored for the IC design field. ChipExpert is trained on one of the current best open-source base model (Llama-3 8B). The entire training process encompasses several key stages, including data preparation, continue pre-training, instruction-guided supervised fine-tuning, preference alignment, and evaluation. In the data preparation stage, we construct multiple high-quality custom datasets through manual selection and data synthesis techniques. In the subsequent two stages, ChipExpert acquires a vast amount of IC design knowledge and learns how to respond to user queries professionally. ChipExpert also undergoes an alignment phase, using Direct Preference Optimization, to achieve a high standard of ethical performance. Finally, to mitigate the hallucinations of ChipExpert, we have developed a Retrieval-Augmented Generation (RAG) system, based on the IC design knowledge base. We also released the first IC design benchmark ChipICD-Bench, to evaluate the capabilities of LLMs across multiple IC design sub-domains. Through comprehensive experiments conducted on this benchmark, ChipExpert demonstrated a high level of expertise in IC design knowledge Question-and-Answer tasks. | 翻訳日:2024-08-19 05:08:48 公開日:2024-07-26 |
# 未来とAI対応データストラテジー:AIとオープン政府データセットに対するDOC RFIへの対応
Future and AI-Ready Data Strategies: Response to DOC RFI on AI and Open Government Data Assets ( http://arxiv.org/abs/2408.01457v1 ) ライセンス: Link先を確認 | Hamidah Oderinwale, Shayne Longpre, | (参考訳) 以下は、AIとOpen Government Data Assetsに関する米国商務省の情報要求(RFI)に対する回答である。
まず、組織やデータの共有に関する公開的な洞察を求めるためのイニシアチブについて、省に感謝します。
科学的な発見とAI開発を促進するため、商務省やその他の政府機関を含むすべてのデータ生産者が、データコーパスの品質を優先することが不可欠である。
データがアクセス可能で、スケーラブルで、セキュアであることは、その潜在能力を最大限活用するために不可欠です。
弊社の回答では、AIと商務省のOpen Government Data Assetsに対するベストプラクティスと重要な考察を概説する。
The following is a response to the US Department of Commerce's Request for Information (RFI) regarding AI and Open Government Data Assets. First, we commend the Department for its initiative in seeking public insights on the organization and sharing of data. To facilitate scientific discovery and advance AI development, it is crucial for all data producers, including the Department of Commerce and other governmental entities, to prioritize the quality of their data corpora. Ensuring data is accessible, scalable, and secure is essential for harnessing its full potential. In our response, we outline best practices and key considerations for AI and the Department of Commerce's Open Government Data Assets. | 翻訳日:2024-08-19 04:59:02 公開日:2024-07-26 |
# 有害と判断された調査 : AI研究・開発・ガバナンスにおける調査の利用を振り返って
Surveys Considered Harmful? Reflecting on the Use of Surveys in AI Research, Development, and Governance ( http://arxiv.org/abs/2408.01458v1 ) ライセンス: Link先を確認 | Mohammmad Tahaei, Daricia Wilkinson, Alisa Frik, Michael Muller, Ruba Abu-Salma, Lauren Wilcox, | (参考訳) 人工知能(AI)の研究、開発、ガバナンスにおける一般大衆との関わりを求める声が高まり、人々の価値観、認識、AIに関する経験を捉えるために調査が使用されるようになる。
本稿では,これらのトピックに関連する参加者調査の状況について批判的に検討する。
6か国にまたがる調査パイロットの反射的分析と、AIに関連する公的な調査を特徴とする44の論文の体系的な文献レビューを通じて、現在までの調査に関連する顕著な視点と方法論的ニュアンスについて検討する。
AIトピックに関する公開調査は、倫理的概念や社会的価値の位置づけ、デプロイメント戦略を取り巻く十分な批判的談話の欠如、レポートにおける一貫性の欠如といった、設計上の特定の西洋的知識、価値観、仮定に対して脆弱であることがわかった。
本研究は、我々のコミュニティに対する挑発やヒューリスティックな質問を抽出し、エンゲージメントの目標を達成するための調査の限界を認識し、慎重にかつ責任を持って調査を設計、展開、解釈するための共有原則を育むことを目的としている。
Calls for engagement with the public in Artificial Intelligence (AI) research, development, and governance are increasing, leading to the use of surveys to capture people's values, perceptions, and experiences related to AI. In this paper, we critically examine the state of human participant surveys associated with these topics. Through both a reflexive analysis of a survey pilot spanning six countries and a systematic literature review of 44 papers featuring public surveys related to AI, we explore prominent perspectives and methodological nuances associated with surveys to date. We find that public surveys on AI topics are vulnerable to specific Western knowledge, values, and assumptions in their design, including in their positioning of ethical concepts and societal values, lack sufficient critical discourse surrounding deployment strategies, and demonstrate inconsistent forms of transparency in their reporting. Based on our findings, we distill provocations and heuristic questions for our community, to recognize the limitations of surveys for meeting the goals of engagement, and to cultivate shared principles to design, deploy, and interpret surveys cautiously and responsibly. | 翻訳日:2024-08-19 04:59:02 公開日:2024-07-26 |
# VACoDe: Visual Augmented Contrastive Decoding
VACoDe: Visual Augmented Contrastive Decoding ( http://arxiv.org/abs/2408.05337v1 ) ライセンス: Link先を確認 | Sihyeon Kim, Boryeong Cho, Sangmin Bae, Sumyeong Ahn, Se-Young Yun, | (参考訳) 最近のLVLM(Large Vision-Language Models)の驚くべき性能にもかかわらず、これらのモデルはしばしば不正確な応答を生成する。
この問題に対処するために,従来の研究では,強調画像を用いたコントラストデコーディング(CD)による幻覚の緩和に焦点を合わせ,元の画像とのコントラストを増幅した。
しかし、これらの手法には、特定のタスクに制限のある1つの拡張への依存や、外部知識の使用コストの高騰など、制限がある。
本研究では,これらの制約に対処するために,複数の画像の増大を利用する方法を探究する。
広範囲な実験を通して、異なる拡張がタスクによって異なるレベルのコントラストを生み出すことが観察された。
そこで本研究では,VACoDe(Visual Augmented Contrastive Decoding)と呼ばれる新しい手法を提案する。
本手法は,提案したソフトマックス距離距離計を用いて,各タスクに対して高いコントラストで拡張を適応的に選択する。
実験により, 従来の手法よりも優れた結果が得られ, 様々な視覚言語タスクの出力品質が向上した。
さらにVACoDeは、追加のトレーニングや外部モデルやデータの使用なしに、さまざまなモデルタイプやサイズにわたって普遍的に適用することができる。
Despite the astonishing performance of recent Large Vision-Language Models (LVLMs), these models often generate inaccurate responses. To address this issue, previous studies have focused on mitigating hallucinations by employing contrastive decoding (CD) with augmented images, which amplifies the contrast with the original image. However, these methods have limitations, including reliance on a single augmentation, which is restrictive for certain tasks, as well as the high cost of using external knowledge. In this study, we address these limitations by exploring how to utilize multiple image augmentations. Through extensive experiments, we observed that different augmentations produce varying levels of contrast depending on the task. Based on this observation, we introduce a novel method called VACoDe, Visual Augmented Contrastive Decoding. This method adaptively selects the augmentation with the highest contrast for each task using the proposed softmax distance metric. Our empirical tests show that \alg outperforms previous methods and improves output quality in various vision-language tasks. Additionally, VACoDe can be universally applied across different model types and sizes without additional training or the use of external models and data. | 翻訳日:2024-08-19 04:07:11 公開日:2024-07-26 |
# 非エルミタン散乱系における複素時間遅れの超ユニバーサル統計
Superuniversal Statistics of Complex Time-Delays in Non-Hermitian Scattering Systems ( http://arxiv.org/abs/2408.05343v1 ) ライセンス: Link先を確認 | Nadav Shaibe, Jared M. Erb, Steven M. Anlage, | (参考訳) フラックス保存系のウィグナー・スミス時差(ウィグナー・スミス時差、Wigner-Smith time-delay of flux conserving system)は、相互作用領域に励起がどれだけ長く存在するかを測定する実測量である。
非エルミート系への時間遅延の複素一般化はまだ進行中であり、特に複雑なカオス散乱系の短波長極限における統計的性質は研究されていない。
実験によって測定された1次元グラフ,2次元ビリヤード,3次元キャビティのマルチポート散乱(S$)-行列から,複素ウィグナー・スミス(\tau_{WS}$)と個々の反射(\tau_{xx}$)と伝達(\tau_{xy}$)の時間遅延を計算する。
各ポート間の複雑な反射時間-遅延差(\tau_{\delta R}$)を算出し、非相互散乱を示すシステムに対して伝送時間-遅延差(\tau_{\delta T}$)を導入する。
大きな時間遅延は、コヒーレント完全吸収、反射のない散乱、遅い光、一方向の可視性と関連している。
これらの時間遅延量の実部と虚部の分布の大きな遅延テールは、実験パラメータとは独立に超一様であり、均一減衰$eta$、散乱チャネル数$M$、波動伝播次元$\mathcal{D}$、ダイソン対称性クラス$\beta$である。
この超ユニバーシティは、単体散乱系のよく確立された時間遅延統計と直接対照的であり、$\tau_{WS}$分布のテールは、$M$と$\beta$の値に明示的に依存する。
本稿では, 波動方程式の直接類似性から, 量子グラフ, 電磁・光・音響共振器など, 短波長の非エルミート波カオス散乱系に適用できる。
The Wigner-Smith time-delay of flux conserving systems is a real quantity that measures how long an excitation resides in an interaction region. The complex generalization of time-delay to non-Hermitian systems is still under development, in particular, its statistical properties in the short-wavelength limit of complex chaotic scattering systems has not been investigated. From the experimentally measured multi-port scattering ($S$)-matrices of one-dimensional graphs, a two-dimensional billiard, and a three-dimensional cavity, we calculate the complex Wigner-Smith ($\tau_{WS}$), as well as each individual reflection ($\tau_{xx}$) and transmission ($\tau_{xy}$) time-delays. The complex reflection time-delay differences ($\tau_{\delta R}$) between each port are calculated, and the transmission time-delay differences ($\tau_{\delta T}$) are introduced for systems exhibiting non-reciprocal scattering. Large time-delays are associated with coherent perfect absorption, reflectionless scattering, slow light, and uni-directional invisibility. We demonstrate that the large-delay tails of the distributions of the real and imaginary parts of each of these time-delay quantities are superuniversal, independent of experimental parameters: uniform attenuation $\eta$, number of scattering channels $M$, wave propagation dimension $\mathcal{D}$, and Dyson symmetry class $\beta$. This superuniversality is in direct contrast with the well-established time-delay statistics of unitary scattering systems, where the tail of the $\tau_{WS}$ distribution depends explicitly on the values of $M$ and $\beta$. Due to the direct analogy of the wave equations, the time-delay statistics described in this paper are applicable to any non-Hermitian wave-chaotic scattering system in the short-wavelength limit, such as quantum graphs, electromagnetic, optical and acoustic resonators, etc. | 翻訳日:2024-08-19 04:07:11 公開日:2024-07-26 |
# 画像記述におけるELMoワード埋め込みと深層学習マルチモーダルトランスのアルゴリズム研究
Algorithm Research of ELMo Word Embedding and Deep Learning Multimodal Transformer in Image Description ( http://arxiv.org/abs/2408.06357v1 ) ライセンス: Link先を確認 | Xiaohan Cheng, Taiyuan Mei, Yun Zi, Qi Wang, Zijun Gao, Haowei Yang, | (参考訳) ゼロサンプル学習はデータ不足に有効な方法である。
既存の組込みゼロサンプル学習手法は、既知クラスのみを使用して組込み空間を構築するため、テストプロセスに既知クラスの過度な適合がある。
このプロジェクトでは、カテゴリの意味的類似度を使って複数のタグを分類する。
これにより、現在知られているクラスと同じ意味を持つ未知のクラスを、構築時にベクトル空間に組み込むことができる。
同時に、既存のゼロサンプル学習アルゴリズムのほとんどは、医療画像の深さ特性を直接入力として使用しており、特徴抽出プロセスは意味情報を考慮していない。
本プロジェクトは,ELMo-MCTをメインタスクとし,自己認識機構を通じて,オリジナル画像に関連する複数の視覚的特徴を取得することを目的としている。
本稿では、3つのゼロショット学習基準データセットに対して多数の実験を行い、最も高度なアルゴリズムと比較して最適な調和平均精度を得る。
Zero sample learning is an effective method for data deficiency. The existing embedded zero sample learning methods only use the known classes to construct the embedded space, so there is an overfitting of the known classes in the testing process. This project uses category semantic similarity measures to classify multiple tags. This enables it to incorporate unknown classes that have the same meaning as currently known classes into the vector space when it is built. At the same time, most of the existing zero sample learning algorithms directly use the depth features of medical images as input, and the feature extraction process does not consider semantic information. This project intends to take ELMo-MCT as the main task and obtain multiple visual features related to the original image through self-attention mechanism. In this paper, a large number of experiments are carried out on three zero-shot learning reference datasets, and the best harmonic average accuracy is obtained compared with the most advanced algorithms. | 翻訳日:2024-08-19 03:57:10 公開日:2024-07-26 |
# 心臓MRIにおけるnU-Netの有用性 : 総合的評価
How good nnU-Net for Segmenting Cardiac MRI: A Comprehensive Evaluation ( http://arxiv.org/abs/2408.06358v1 ) ライセンス: Link先を確認 | Malitha Gunawardhana, Fangqiang Xu, Jichao Zhao, | (参考訳) 心臓セグメンテーションは、様々な心臓血管疾患の診断と治療に不可欠である心臓構造の詳細な解析に不可欠である、医療画像における重要な課題である。
ディープラーニングの出現に伴い、自動セグメンテーション技術は目覚ましい進歩を見せ、従来の手作業法と比較して高い精度と効率を実現している。
これらの技術の中で、nnU-Netフレームワークは、医用画像セグメンテーションのための堅牢で汎用的なツールとして際立っている。
本研究では,心臓磁気共鳴画像(MRI)における nnU-Net の性能評価を行った。
5つの心臓セグメンテーションデータセットを用いて、2D、3Dフル解像度、3Dロー解像度、3Dカスケード、3Dアンサンブルモデルを含む様々なnnU-Net構成を用いる。
本研究は、これらの構成の能力をベンチマークし、特定の心臓セグメンテーションタスクのための新しいモデルを開発する必要性について検討する。
Cardiac segmentation is a critical task in medical imaging, essential for detailed analysis of heart structures, which is crucial for diagnosing and treating various cardiovascular diseases. With the advent of deep learning, automated segmentation techniques have demonstrated remarkable progress, achieving high accuracy and efficiency compared to traditional manual methods. Among these techniques, the nnU-Net framework stands out as a robust and versatile tool for medical image segmentation. In this study, we evaluate the performance of nnU-Net in segmenting cardiac magnetic resonance images (MRIs). Utilizing five cardiac segmentation datasets, we employ various nnU-Net configurations, including 2D, 3D full resolution, 3D low resolution, 3D cascade, and ensemble models. Our study benchmarks the capabilities of these configurations and examines the necessity of developing new models for specific cardiac segmentation tasks. | 翻訳日:2024-08-19 03:57:10 公開日:2024-07-26 |
# 大規模MIMO-OFDMシステムのためのBiLSTMに基づく適応CSIフィードバックモデル
An Adaptive CSI Feedback Model Based on BiLSTM for Massive MIMO-OFDM Systems ( http://arxiv.org/abs/2408.06359v1 ) ライセンス: Link先を確認 | Hongrui Shen, Long Zhao, Kan Zheng, Yuhua Cao, Pingzhi Fan, | (参考訳) Deep Learning (DL)-based channel state information (CSI) feedback has potential to improve the recovery accuracy and the feedback overhead in massive multiple-input multiple-output orthogonal frequency division multiplexing (MIMO-OFDM) system。
しかし、入力CSIの長さとフィードバックビット数は異なるシナリオで調整可能であり、既存のCSIフィードバックモデルでは効率的に達成できない。
したがって、CSIフィードバックのための適応的双方向長短期メモリネットワーク(ABLNet)は、まず、CSI長さに比例したフィードバックビット数を持つ様々な入力CSI長さを処理するように設計されている。
そして、より柔軟なフィードバックビット数を実現するために、フィードバックビットの出力長を制御するために、フィードバックビット制御ユニット(FBCU)モジュールを提案する。
これに基づいて、設計ビット数調整(BNA)アルゴリズムにより、目標フィードバック性能を適応的に達成することができる。
さらに、UEとgNBが異なるメーカーのモデル保護問題を解決するために、新たな個別トレーニング手法が考案された。
実験により、FBCUを用いたABLNetは異なる入力CSI長とフィードバックビット数に適合し、CSIフィードバック性能はBNAアルゴリズムにより安定化し、提案した個別トレーニングアプローチはフィードバック性能を維持し、フィードバックモデルの複雑さを低減することができる。
Deep learning (DL)-based channel state information (CSI) feedback has the potential to improve the recovery accuracy and reduce the feedback overhead in massive multiple-input multiple-output orthogonal frequency division multiplexing (MIMO-OFDM) systems. However, the length of input CSI and the number of feedback bits should be adjustable in different scenarios, which can not be efficiently achieved by the existing CSI feedback models. Therefore, an adaptive bidirectional long short-term memory network (ABLNet) for CSI feedback is first designed to process various input CSI lengths, where the number of feedback bits is in proportion to the CSI length. Then, to realize a more flexible feedback bit number, a feedback bit control unit (FBCU) module is proposed to control the output length of feedback bits. Based on which, a target feedback performance can be adaptively achieved by a designed bit number adjusting (BNA) algorithm. Furthermore, a novel separate training approach is devised to solve the model protection problem that the UE and gNB are from different manufacturers. Experiments demonstrate that the proposed ABLNet with FBCU can fit for different input CSI lengths and feedback bit numbers; the CSI feedback performance can be stabilized by the BNA algorithm; and the proposed separate training approach can maintain the feedback performance and reduce the complexity of feedback model. | 翻訳日:2024-08-19 03:57:10 公開日:2024-07-26 |
# マルチメディアレコメンデーションのためのModality-Balanced Learning
Modality-Balanced Learning for Multimedia Recommendation ( http://arxiv.org/abs/2408.06360v1 ) ライセンス: Link先を確認 | Jinghao Zhang, Guofan Liu, Qiang Liu, Shu Wu, Liang Wang, | (参考訳) 従来の協調フィルタリングフレームワークにマルチモーダルコンテンツ情報を効果的に組み込む方法について,多くの推薦モデルが提案されている。
マルチモーダル情報の利用は、より包括的な情報を提供し、優れたパフォーマンスをもたらすことが期待されている。
しかし、複数のモダリティの統合はしばしばモダリティの不均衡問題に遭遇する: 異なるモダリティの情報が不均衡であるので、全てのモダリティで同じ目的を最適化することは、収束率が遅いか低い性能で弱モダリティの過小最適化問題につながる。
さらに悪いことに、マルチモーダルレコメンデーションモデルでは、全てのモダリティが最適化が不十分な問題に悩まされている。
これらの問題に対処するために,不均衡問題を解消し,全てのモダリティを最大限に活用できる対実的知識蒸留法を提案する。
モダリティ特化知識の蒸留を通じて、ユニモーダル教師からモダリティ特化知識を学ぶためのマルチモーダルモデルを導くことができる。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
さらに, トレーニング中の弱度度に対するマルチモーダルモデルの焦点を適応的に再検討するため, 各モーダルの因果効果を, 逆ファクト推論手法を用いて推定し, 弱度を判定し, 不均衡度を定量化し, 蒸留損失を加味した。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
6つのバックボーンの広範囲な実験により,提案手法は大きなマージンで性能を向上できることが示された。
ソースコードは \url{https://github.com/CRIPAC-DIG/Balanced-Multimodal-Rec} で公開される。
Many recommender models have been proposed to investigate how to incorporate multimodal content information into traditional collaborative filtering framework effectively. The use of multimodal information is expected to provide more comprehensive information and lead to superior performance. However, the integration of multiple modalities often encounters the modal imbalance problem: since the information in different modalities is unbalanced, optimizing the same objective across all modalities leads to the under-optimization problem of the weak modalities with a slower convergence rate or lower performance. Even worse, we find that in multimodal recommendation models, all modalities suffer from the problem of insufficient optimization. To address these issues, we propose a Counterfactual Knowledge Distillation method that could solve the imbalance problem and make the best use of all modalities. Through modality-specific knowledge distillation, it could guide the multimodal model to learn modality-specific knowledge from uni-modal teachers. We also design a novel generic-and-specific distillation loss to guide the multimodal student to learn wider-and-deeper knowledge from teachers. Additionally, to adaptively recalibrate the focus of the multimodal model towards weaker modalities during training, we estimate the causal effect of each modality on the training objective using counterfactual inference techniques, through which we could determine the weak modalities, quantify the imbalance degree and re-weight the distillation loss accordingly. Our method could serve as a plug-and-play module for both late-fusion and early-fusion backbones. Extensive experiments on six backbones show that our proposed method can improve the performance by a large margin. The source code will be released at \url{https://github.com/CRIPAC-DIG/Balanced-Multimodal-Rec} | 翻訳日:2024-08-19 03:57:10 公開日:2024-07-26 |
# 金融取引における大規模言語モデルエージェント:調査
Large Language Model Agent in Financial Trading: A Survey ( http://arxiv.org/abs/2408.06361v1 ) ライセンス: Link先を確認 | Han Ding, Yinheng Li, Junhao Wang, Hang Chen, | (参考訳) トレーディングは、戦略、知識、心理的寛大さの組み合わせを必要とする非常に競争力のあるタスクである。
近年の大型言語モデル(LLMs)の成功により、LLMエージェントの新たなインテリジェンスをこの競争領域に応用し、プロのトレーダーに勝てるかどうかを理解することがアピールされている。
本調査では、金融取引のエージェントとしてLLMを使用することに関する現在の研究を包括的に概観する。
筆者らは, エージェントで使用される共通アーキテクチャ, データ入力, バックテストにおけるLLMトレーディングエージェントの性能, およびこれらの研究で提示された課題について要約する。
本調査は, LLMを基盤とした金融取引エージェントの現状を把握し, 今後の研究方向性を概説することを目的としている。
Trading is a highly competitive task that requires a combination of strategy, knowledge, and psychological fortitude. With the recent success of large language models(LLMs), it is appealing to apply the emerging intelligence of LLM agents in this competitive arena and understanding if they can outperform professional traders. In this survey, we provide a comprehensive review of the current research on using LLMs as agents in financial trading. We summarize the common architecture used in the agent, the data inputs, and the performance of LLM trading agents in backtesting as well as the challenges presented in these research. This survey aims to provide insights into the current state of LLM-based financial trading agents and outline future research directions in this field. | 翻訳日:2024-08-19 03:57:10 公開日:2024-07-26 |
# Modular RAG: RAGシステムをLEGOライクな再構成可能なフレームワークに変換する
Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks ( http://arxiv.org/abs/2407.21059v1 ) ライセンス: Link先を確認 | Yunfan Gao, Yun Xiong, Meng Wang, Haofen Wang, | (参考訳) Retrieval-augmented Generation(RAG)は、知識集約的なタスクに対処する際のLarge Language Models(LLM)の機能を大幅に強化した。
アプリケーションシナリオの要求の増大により、RAGの進化が加速し、高度なレトリバー、LCM、その他の補完技術が統合され、RAGシステムの複雑さが増大した。
しかし、急速な進歩は基礎的なRAGパラダイムを圧倒しており、多くの手法が「回復世代」のプロセスの下で統一されるのに苦労している。
本稿では,既存のRAGパラダイムの限界について検討し,モジュール型RAGフレームワークを紹介する。
複雑なRAGシステムを独立したモジュールや特別な演算子に分解することで、高度に再構成可能なフレームワークを容易にする。
Modular RAGは従来の線形アーキテクチャを超越し、ルーティング、スケジューリング、融合機構を統合したより高度な設計を採用する。
本稿では, RAGパターンの線形性, 条件, 分岐性, ループ性について検討し, それぞれの実装ニュアンスを包括的に解析する。
Modular RAGは、RAGシステムの概念化と展開のための革新的な機会を提供する。
最後に,新たな演算子やパラダイムの出現の可能性について検討し,RAG技術の継続的な発展と実践的展開のための理論的基盤と実践的ロードマップを確立する。
Retrieval-augmented Generation (RAG) has markedly enhanced the capabilities of Large Language Models (LLMs) in tackling knowledge-intensive tasks. The increasing demands of application scenarios have driven the evolution of RAG, leading to the integration of advanced retrievers, LLMs and other complementary technologies, which in turn has amplified the intricacy of RAG systems. However, the rapid advancements are outpacing the foundational RAG paradigm, with many methods struggling to be unified under the process of "retrieve-then-generate". In this context, this paper examines the limitations of the existing RAG paradigm and introduces the modular RAG framework. By decomposing complex RAG systems into independent modules and specialized operators, it facilitates a highly reconfigurable framework. Modular RAG transcends the traditional linear architecture, embracing a more advanced design that integrates routing, scheduling, and fusion mechanisms. Drawing on extensive research, this paper further identifies prevalent RAG patterns-linear, conditional, branching, and looping-and offers a comprehensive analysis of their respective implementation nuances. Modular RAG presents innovative opportunities for the conceptualization and deployment of RAG systems. Finally, the paper explores the potential emergence of new operators and paradigms, establishing a solid theoretical foundation and a practical roadmap for the continued evolution and practical deployment of RAG technologies. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-26 |
# 大規模言語モデルを用いた建築規制の解釈
Using Large Language Models for the Interpretation of Building Regulations ( http://arxiv.org/abs/2407.21060v1 ) ライセンス: Link先を確認 | Stefan Fuchs, Michael Witbrock, Johannes Dimyadi, Robert Amor, | (参考訳) コンプライアンスチェックは建設プロジェクトにとって不可欠な部分です。
近年、建設業におけるビル情報モデル(BIM)の急速な普及により、自動コンプライアンスチェック(ACC)の機会が増している。
BIMは、伝統的に自然言語で伝えられており、機械処理を意図していない法的要件の遵守に使用できるデジタル建築設計データの共有を可能にする。
ACCに適した計算可能な法的要件の表現を作ることは、複雑でコストがかかり、時間を要する。
GPT、GPT-3.5、GPT-4(OpenAIのChatGPT)のような大きな言語モデル(LLM)は、ユーザのプロンプトに応答する論理的に一貫性のあるテキストとソースコードを生成することができる。
この機能は、ビルディングレギュレーションのセマンティックで計算可能な表現への変換を自動化するために使用できる。
本稿では, 建物規制をLegalRuleMLに変換する際のLLMの性能を, 数ショットの学習設定で評価する。
GPT-3.5にいくつかの例を添えることで、フォーマットの基本構造を学ぶことができる。
システムプロンプトを用いて、LegalRuleML表現をさらに指定し、モデルにおけるエキスパートドメイン知識の存在を探索する。
このようなドメイン知識は、広範な事前訓練を通じてGPT-3.5に浸透するかもしれないが、注意深い文脈化によって引き起こされる必要がある。
最後に、このユースケースに連鎖推論や自己整合性といった戦略が適用できるかどうかを検討する。
LLMが高度化するにつれて、共通感覚の増大、論理コヒーレンス、ドメイン適応の手段はACCを著しくサポートし、より効率的で効果的なチェックプロセスをもたらす。
Compliance checking is an essential part of a construction project. The recent rapid uptake of building information models (BIM) in the construction industry has created more opportunities for automated compliance checking (ACC). BIM enables sharing of digital building design data that can be used for compliance checking with legal requirements, which are conventionally conveyed in natural language and not intended for machine processing. Creating a computable representation of legal requirements suitable for ACC is complex, costly, and time-consuming. Large language models (LLMs) such as the generative pre-trained transformers (GPT), GPT-3.5 and GPT-4, powering OpenAI's ChatGPT, can generate logically coherent text and source code responding to user prompts. This capability could be used to automate the conversion of building regulations into a semantic and computable representation. This paper evaluates the performance of LLMs in translating building regulations into LegalRuleML in a few-shot learning setup. By providing GPT-3.5 with only a few example translations, it can learn the basic structure of the format. Using a system prompt, we further specify the LegalRuleML representation and explore the existence of expert domain knowledge in the model. Such domain knowledge might be ingrained in GPT-3.5 through the broad pre-training but needs to be brought forth by careful contextualisation. Finally, we investigate whether strategies such as chain-of-thought reasoning and self-consistency could apply to this use case. As LLMs become more sophisticated, the increased common sense, logical coherence, and means to domain adaptation can significantly support ACC, leading to more efficient and effective checking processes. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-26 |
# CycleGANとドメイン間損失を用いたエンド・ツー・エンドASRにおける低リソース言語のためのノイズの多い学生訓練の改善
Improving noisy student training for low-resource languages in End-to-End ASR using CycleGAN and inter-domain losses ( http://arxiv.org/abs/2407.21061v1 ) ライセンス: Link先を確認 | Chia-Yu Li, Ngoc Thang Vu, | (参考訳) 雑音の多い学生訓練を用いた半教師付きエンド・ツー・エンド音声認識システムの訓練により,性能が大幅に向上した。
しかし、この手法には大量のペア音声テキストとラベルなし音声が必要であり、低リソース言語にはコストがかかる。
そこで本研究では,5時間以内のペア音声テキスト,ラベルなし音声,および豊富な外部テキストが存在するような,半教師付きエンドツーエンド音声認識の極端な事例について考察する。
まず,外部テキストのみを用いた半教師付き学習「CycleGANとドメイン間損失」によるモデル学習により,改良された性能向上を観察する。
第2に、自動ハイパーパラメータチューニングを組み込むことにより、"CycleGANとドメイン間損失"を強化し、"CycleGANのドメイン間損失を増大させる"。
第3に、低リソースシナリオのためのノイズの多い学生トレーニングアプローチパイプラインに統合します。
VoxforgeとCommon Voiceの6つの非英語言語で実施した実験の結果,ベースラインの教師モデルと比較して単語誤り率を20%削減し,ベースラインの生徒モデルに比べて単語誤り率を10%削減し,提案手法によって達成された顕著な改善点を浮き彫りにした。
Training a semi-supervised end-to-end speech recognition system using noisy student training has significantly improved performance. However, this approach requires a substantial amount of paired speech-text and unlabeled speech, which is costly for low-resource languages. Therefore, this paper considers a more extreme case of semi-supervised end-to-end automatic speech recognition where there are limited paired speech-text, unlabeled speech (less than five hours), and abundant external text. Firstly, we observe improved performance by training the model using our previous work on semi-supervised learning "CycleGAN and inter-domain losses" solely with external text. Secondly, we enhance "CycleGAN and inter-domain losses" by incorporating automatic hyperparameter tuning, calling it "enhanced CycleGAN inter-domain losses." Thirdly, we integrate it into the noisy student training approach pipeline for low-resource scenarios. Our experimental results, conducted on six non-English languages from Voxforge and Common Voice, show a 20% word error rate reduction compared to the baseline teacher model and a 10% word error rate reduction compared to the baseline best student model, highlighting the significant improvements achieved through our proposed method. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-26 |
# Adiabatic Quantum Machine Learning Modelのためのハイブリッドヒューリスティックアルゴリズム
Hybrid Heuristic Algorithms for Adiabatic Quantum Machine Learning Models ( http://arxiv.org/abs/2407.21062v1 ) ライセンス: Link先を確認 | Bahram Alidaee, Haibo Wang, Lutfu Sua, Wade Liu, | (参考訳) 近年,2次非制約バイナリ最適化(QUBO)モデルに基づくAQML(adiabatic quantum machine learning, adiabatic quantum machine learning, AQML)の手法や応用が注目されている。
サポートベクトルマシン、平衡k平均クラスタリング、線形回帰、決定木分割、制限ボルツマンマシン、ディープリーフネットワークなどの伝統的な機械学習手法はQUBOモデルに変換することができる。
断熱的量子機械学習モデルのトレーニングは計算のボトルネックである。
シミュレーションアニーリングやマルチプルスタートタブサーチ(MSTS)などのヒューリスティックスベースの量子アニーリングソルバを実装し,QUBOモデルに基づくAQMLのトレーニングを高速化する。
本研究の目的は, 大規模QUBOの解法を改良し, 計算時間を短縮した r-flip 戦略を組み込んだハイブリッドヒューリスティックな手法を提案することである。
計算実験の結果は, ベンチマークインスタンスと大規模QUBOインスタンスのセット上で, r-flip戦略を組み込んだハイブリッドヒューリスティックとマルチスタートタブ検索アルゴリズムを比較した。
r-flip戦略埋め込みアルゴリズムは、60秒から600秒のCPU時間制限内で非常に高品質なソリューションを提供する。
The recent developments of adiabatic quantum machine learning (AQML) methods and applications based on the quadratic unconstrained binary optimization (QUBO) model have received attention from academics and practitioners. Traditional machine learning methods such as support vector machines, balanced k-means clustering, linear regression, Decision Tree Splitting, Restricted Boltzmann Machines, and Deep Belief Networks can be transformed into a QUBO model. The training of adiabatic quantum machine learning models is the bottleneck for computation. Heuristics-based quantum annealing solvers such as Simulated Annealing and Multiple Start Tabu Search (MSTS) are implemented to speed up the training of AQML based on the QUBO model. The main purpose of this paper is to present a hybrid heuristic embedding an r-flip strategy to solve large-scale QUBO with an improved solution and shorter computing time compared to the state-of-the-art MSTS method. The results of the substantial computational experiments are reported to compare an r-flip strategy embedded hybrid heuristic and a multiple start tabu search algorithm on a set of benchmark instances and three large-scale QUBO instances. The r-flip strategy embedded algorithm provides very high-quality solutions within the CPU time limits of 60 and 600 seconds. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-26 |
# 平均的フィールドゲームにおける学習: サーベイ
Learning in Mean Field Games: A Survey ( http://arxiv.org/abs/2205.12944v4 ) ライセンス: Link先を確認 | Mathieu Laurière, Sarah Perrin, Julien Pérolat, Sertan Girgin, Paul Muller, Romuald Élie, Matthieu Geist, Olivier Pietquin, | (参考訳) 非常に多くのプレイヤーを持つ非協力的・協力的なゲームは、多くの応用があるが、プレイヤーの数が増えると一般には難解である。
Lasry and Lions と Huang, Caines and Malham\'e によって導入された Mean Field Games (MFGs) は、プレイヤーの数を無限に増やすための平均フィールド近似に頼っている。
これらのゲームの伝統的な解法は、一般にモデルについての完全な知識を持つ偏微分方程式や確率微分方程式の解法に依存する。
近年,強化学習(Reinforcement Learning, RL)は,大規模に複雑な問題を解くことを約束している。
RLとMFGの組み合わせは、人口規模と環境の複雑さの両方において、非常に大規模なゲームを解くことを約束している。
本稿では,MFGにおける平衡と社会的最適性を学習するためのRL法に関する最近の文献を概観する。
まず、MFGの最も一般的な設定(静的、定常、およびエボリューティブ)を特定します。
次に、MFGを正確に解くための古典的反復法(最適応答計算やポリシー評価に基づく)の一般的な枠組みを提案する。
これらのアルゴリズムとMarkov Decision Processesとの接続に基づいて、モデルのない方法でMFGソリューションを学習するためにRLをどのように使用できるかを説明する。
最後に、ベンチマーク問題に関する数値図を示し、いくつかの視点で結論付ける。
Non-cooperative and cooperative games with a very large number of players have many applications but remain generally intractable when the number of players increases. Introduced by Lasry and Lions, and Huang, Caines and Malham\'e, Mean Field Games (MFGs) rely on a mean-field approximation to allow the number of players to grow to infinity. Traditional methods for solving these games generally rely on solving partial or stochastic differential equations with a full knowledge of the model. Recently, Reinforcement Learning (RL) has appeared promising to solve complex problems at scale. The combination of RL and MFGs is promising to solve games at a very large scale both in terms of population size and environment complexity. In this survey, we review the quickly growing recent literature on RL methods to learn equilibria and social optima in MFGs. We first identify the most common settings (static, stationary, and evolutive) of MFGs. We then present a general framework for classical iterative methods (based on best-response computation or policy evaluation) to solve MFGs in an exact way. Building on these algorithms and the connection with Markov Decision Processes, we explain how RL can be used to learn MFG solutions in a model-free way. Last, we present numerical illustrations on a benchmark problem, and conclude with some perspectives. | 翻訳日:2024-07-31 23:19:20 公開日:2024-07-26 |
# ワーム開始型ニューラルアーキテクチャ探索におけるスーパーネット転送によるロバストかつ効率的な伝達学習
Robust and Efficient Transfer Learning via Supernet Transfer in Warm-started Neural Architecture Search ( http://arxiv.org/abs/2407.20279v1 ) ライセンス: Link先を確認 | Prabhant Singh, Joaquin Vanschoren, | (参考訳) 手作業で設計するニューラルネットワークは、かなりの専門知識を必要とする面倒なプロセスです。
Neural Architecture Search (NAS)フレームワークは、AIの民主化を支援する非常に有用な、人気のあるソリューションを提供する。
しかしながら、これらのNASフレームワークは、しばしば計算コストがかかるため、適用性とアクセシビリティが制限される。
本稿では,最適なトランスポートやマルチデータセット保持に基づいて,トレーニング済みのスーパーネットを効果的に転送できる新しいトランスファー学習手法を提案する。
この手法は、微分可能なアーキテクチャ探索(DARTS)に基づいてNAS法に適用できる。
何十もの画像分類タスクにわたる広範な実験を通して、この方法で事前訓練されたスーパーネットを転送することで、最適モデルが平均3倍から5倍高速になるようなスーパーネットトレーニングを劇的に高速化するだけでなく、DARTSメソッドをスクラッチから実行する場合よりも優れた結果が得られることを示した。
また、ほぼすべてのターゲットデータセットへの肯定的な転送も観察しており、非常に堅牢です。
また,NAS法の適用性を大幅に向上させるとともに,継続的な学習や関連分野への新たな応用も実現している。
Hand-designing Neural Networks is a tedious process that requires significant expertise. Neural Architecture Search (NAS) frameworks offer a very useful and popular solution that helps to democratize AI. However, these NAS frameworks are often computationally expensive to run, which limits their applicability and accessibility. In this paper, we propose a novel transfer learning approach, capable of effectively transferring pretrained supernets based on Optimal Transport or multi-dataset pretaining. This method can be generally applied to NAS methods based on Differentiable Architecture Search (DARTS). Through extensive experiments across dozens of image classification tasks, we demonstrate that transferring pretrained supernets in this way can not only drastically speed up the supernet training which then finds optimal models (3 to 5 times faster on average), but even yield that outperform those found when running DARTS methods from scratch. We also observe positive transfer to almost all target datasets, making it very robust. Besides drastically improving the applicability of NAS methods, this also opens up new applications for continual learning and related fields. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-26 |
# NeuSemSlice: ニューロンレベルのセマンティックスライシングによる効率的なDNNモデル維持に向けて
NeuSemSlice: Towards Effective DNN Model Maintenance via Neuron-level Semantic Slicing ( http://arxiv.org/abs/2407.20281v1 ) ライセンス: Link先を確認 | Shide Zhou, Tianlin Li, Yihao Huang, Ling Shi, Kailong Wang, Yang Liu, Haoyu Wang, | (参考訳) ディープニューラルネットワーク(DNN)は、様々な分野にまたがって広く適用されており、その統合されたモノリシックなアーキテクチャによって特徴付けられ、従来のソフトウェアシステムとは切り離されている。
このアーキテクチャの違いは、モデル再構成(例:モデル圧縮)、再適応(例:新しいサンプルの適合)、漸進的な開発(例:継続的な知識の蓄積)といった保守作業に特別な課題をもたらす。
以前の研究では、タスククリティカルなニューロン層を特定し、ニューラルネットワークを意味論的に類似したシーケンシャルモジュールに分割することで、これらの課題に対処していた。
しかし、そのような階層レベルのアプローチでは、ニューロンレベルのセマンティックコンポーネントを正確に識別し、操作することができず、よりきめ細かいモデルメンテナンスタスクの適用性を制限することができる。
本研究では,意味認識モデルメンテナンスタスクのためのDNNモデルにおいて,重要なニューロンレベルのセマンティックコンポーネントを効果的に識別するセマンティックスライシング技術を導入する新しいフレームワークであるNeuSemSliceを実装した。
具体的には、セマンティックスライシングは、それぞれのセマンティックな類似性に応じて、異なるカテゴリや層にまたがる重要なニューロンを特定し、分類し、マージする。
セマンティック・アウェア・モデルメンテナンスタスクでは, セマンティックスライシングに基づく一連の新しい戦略を提供し, NeuSemSlice を強化する。
それらは、モデル再構成のための意味的構成要素(すなわち、臨界ニューロン)の保存、モデル再適応のための臨界ニューロンチューニング、モデルインクリメンタル開発のための非臨界ニューロントレーニングを含む。
徹底的な評価は、NeuSemSliceが3つのタスクのベースラインを著しく上回っていることを示している。
Deep Neural networks (DNNs), extensively applied across diverse disciplines, are characterized by their integrated and monolithic architectures, setting them apart from conventional software systems. This architectural difference introduces particular challenges to maintenance tasks, such as model restructuring (e.g., model compression), re-adaptation (e.g., fitting new samples), and incremental development (e.g., continual knowledge accumulation). Prior research addresses these challenges by identifying task-critical neuron layers, and dividing neural networks into semantically-similar sequential modules. However, such layer-level approaches fail to precisely identify and manipulate neuron-level semantic components, restricting their applicability to finer-grained model maintenance tasks. In this work, we implement NeuSemSlice, a novel framework that introduces the semantic slicing technique to effectively identify critical neuron-level semantic components in DNN models for semantic-aware model maintenance tasks. Specifically, semantic slicing identifies, categorizes and merges critical neurons across different categories and layers according to their semantic similarity, enabling their flexibility and effectiveness in the subsequent tasks. For semantic-aware model maintenance tasks, we provide a series of novel strategies based on semantic slicing to enhance NeuSemSlice. They include semantic components (i.e., critical neurons) preservation for model restructuring, critical neuron tuning for model re-adaptation, and non-critical neuron training for model incremental development. A thorough evaluation has demonstrated that NeuSemSlice significantly outperforms baselines in all three tasks. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-26 |
# 西オーストラリア西部における高分解能グリッド型風速予測の時空間的アプローチ
Spatial Temporal Approach for High-Resolution Gridded Wind Forecasting across Southwest Western Australia ( http://arxiv.org/abs/2407.20283v1 ) ライセンス: Link先を確認 | Fuling Chen, Kevin Vinsen, Arthur Filoche, | (参考訳) 正確な風速と方向予測は農業、再生可能エネルギー、森林火災管理など多くの分野で最重要である。
しかし、従来の予測モデルでは、個々の場所や小さな地理的領域(20km2)の高空間分解能で風況を正確に予測し、中から長距離の時間的傾向と包括的な時空間パターンを捉えるという大きな課題に直面している。
本研究は,西オーストラリア南西部の大地域を横断する高度3mから10mの高分解能格子状風速予測のための空間時間的アプローチに焦点を当てた。
このモデルは、広い地理的領域をカバーするデータを活用し、地形特性、気圧、欧州中レージ気象予報センターからの10メートル風速予報や、わずかに分散した気象観測所(3メートル風速分布、湿度、温度など)からの限られた観測データなど、様々な気象要因を利用する。
本稿では,風速予測のための機械学習モデルの可能性について述べる。
これは、より情報的な意思決定を促進し、重要なセクターにおけるレジリエンスを高めるのに役立つ。
Accurate wind speed and direction forecasting is paramount across many sectors, spanning agriculture, renewable energy generation, and bushfire management. However, conventional forecasting models encounter significant challenges in precisely predicting wind conditions at high spatial resolutions for individual locations or small geographical areas (< 20 km2) and capturing medium to long-range temporal trends and comprehensive spatio-temporal patterns. This study focuses on a spatial temporal approach for high-resolution gridded wind forecasting at the height of 3 and 10 metres across large areas of the Southwest of Western Australia to overcome these challenges. The model utilises the data that covers a broad geographic area and harnesses a diverse array of meteorological factors, including terrain characteristics, air pressure, 10-metre wind forecasts from the European Centre for Medium-Range Weather Forecasts, and limited observation data from sparsely distributed weather stations (such as 3-metre wind profiles, humidity, and temperature), the model demonstrates promising advancements in wind forecasting accuracy and reliability across the entire region of interest. This paper shows the potential of our machine learning model for wind forecasts across various prediction horizons and spatial coverage. It can help facilitate more informed decision-making and enhance resilience across critical sectors. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-26 |
# MLtoGAI:ジェネレーティブAIを用いた疾患予測とパーソナライズドレコメンデーションのための機械学習に基づくセマンティックWeb
MLtoGAI: Semantic Web based with Machine Learning for Enhanced Disease Prediction and Personalized Recommendations using Generative AI ( http://arxiv.org/abs/2407.20284v1 ) ライセンス: Link先を確認 | Shyam Dongre, Ritesh Chandra, Sonali Agarwal, | (参考訳) 現代の医療では、正確な疾患予測とパーソナライズされたレコメンデーションの複雑さに対処することが重要かつ困難である。
本研究は、Semantic Web技術と機械学習(ML)を統合したMLtoGAIを導入し、疾患予測を強化し、ChatGPTを通じてユーザフレンドリな説明を提供する。
本システムは, 様々な疾患に関する詳細な知識を取り入れた再利用可能な疾患オントロジー, 特定の疾患を正確に検出するための患者症状を用いた診断分類モデル, オントロジーとChatGPTとのセマンティックWebルール言語(SWRL)の統合により, 明瞭でパーソナライズされた健康アドバイスを生成する。
このアプローチは予測精度を大幅に改善し、理解しやすく、病気や多様な症状の複雑さに対処する。
MLtoGAIシステムは精度とユーザの満足度を大幅に向上させ、よりインテリジェントでアクセスしやすい医療ソリューションの開発に貢献している。
この革新的なアプローチは、MLアルゴリズムの強みと、ChatGPTを通じて透明で人間の理解可能な説明を提供する能力を組み合わせることで、予測精度とユーザ理解の大幅な改善を実現している。
セマンティック技術と説明可能なAIを活用することで、システムは疾患予測の精度を高め、レコメンデーションが個々の患者に適切かつ容易に理解されることを保証する。
我々の研究は、医学診断における既存の課題を克服し、インテリジェントな医療システムにおける将来の発展への道を開くために、高度な技術を統合する可能性を強調している。
さらに、200の患者データ記録を用いて、堅牢なパフォーマンスと信頼性を保証する。
In modern healthcare, addressing the complexities of accurate disease prediction and personalized recommendations is both crucial and challenging. This research introduces MLtoGAI, which integrates Semantic Web technology with Machine Learning (ML) to enhance disease prediction and offer user-friendly explanations through ChatGPT. The system comprises three key components: a reusable disease ontology that incorporates detailed knowledge about various diseases, a diagnostic classification model that uses patient symptoms to detect specific diseases accurately, and the integration of Semantic Web Rule Language (SWRL) with ontology and ChatGPT to generate clear, personalized health advice. This approach significantly improves prediction accuracy and ensures results that are easy to understand, addressing the complexity of diseases and diverse symptoms. The MLtoGAI system demonstrates substantial advancements in accuracy and user satisfaction, contributing to developing more intelligent and accessible healthcare solutions. This innovative approach combines the strengths of ML algorithms with the ability to provide transparent, human-understandable explanations through ChatGPT, achieving significant improvements in prediction accuracy and user comprehension. By leveraging semantic technology and explainable AI, the system enhances the accuracy of disease prediction and ensures that the recommendations are relevant and easily understood by individual patients. Our research highlights the potential of integrating advanced technologies to overcome existing challenges in medical diagnostics, paving the way for future developments in intelligent healthcare systems. Additionally, the system is validated using 200 synthetic patient data records, ensuring robust performance and reliability. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-26 |
# 材料点法による変分推論
Variational Inference Using Material Point Method ( http://arxiv.org/abs/2407.20287v1 ) ライセンス: Link先を確認 | Yongchao Huang, | (参考訳) 物質点法 (MPM) に基づく新しい勾配型粒子サンプリング法 MPM-ParVI を提案する。
MPM-ParVIは、対象密度によって駆動される外部効果の下で変形可能な物体(例えば固体または流体)の変形をシミュレートする。
連続体は、MPMを用いた相互作用粒子系(IPS)としてモデル化され、各粒子は完全な物理的性質を持ち、保存力学に従って相互作用し、進化する。
この実装が容易なParVI法は、ベイズ的推論(例えば、抽出可能な密度)や生成的モデリング(例えば、スコアベース)に見られるような、確率的モデルのクラスに対する決定論的サンプリングと推論を提供する。
A new gradient-based particle sampling method, MPM-ParVI, based on material point method (MPM), is proposed for variational inference. MPM-ParVI simulates the deformation of a deformable body (e.g. a solid or fluid) under external effects driven by the target density; transient or steady configuration of the deformable body approximates the target density. The continuum material is modelled as an interacting particle system (IPS) using MPM, each particle carries full physical properties, interacts and evolves following conservation dynamics. This easy-to-implement ParVI method offers deterministic sampling and inference for a class of probabilistic models such as those encountered in Bayesian inference (e.g. intractable densities) and generative modelling (e.g. score-based). | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-26 |
# 漏れ電流測定を用いたオーバーヘッドライン絶縁体の条件モニタリングのための教師付き学習法
Supervised Learning based Method for Condition Monitoring of Overhead Line Insulators using Leakage Current Measurement ( http://arxiv.org/abs/2407.20288v1 ) ライセンス: Link先を確認 | Mile Mitrovic, Dmitry Titov, Klim Volkhov, Irina Lukicheva, Andrey Kudryavzev, Petr Vorobev, Qi Li, Vladimir Terzija, | (参考訳) オーバヘッドライン(OHL)資産の老朽化問題に対する新たな実践的・経済的解決策として、世界中の電力グリッド企業の技術方針は、計画的予防維持から資産管理におけるリスクベースのアプローチへと段階的に移行した。
汚染の蓄積はある程度予測できるが、その代替を計画するために絶縁体フラッシュオーバーのリスクを特定する効果的な方法は今のところ存在しない。
本稿では,カップアンドピンガラス絶縁体列のフラッシュオーバー確率を推定するための機械学習(ML)に基づく新しい手法を提案する。
提案手法は, リーク電流(LC)の特徴と印加電圧を入力として用いた, XGBoost (Extreme Gradient Boosting) 教師付きMLモデルに基づく。
確立されたモデルでは、電圧レベルが異なるOHL絶縁体の設計における臨界フラッシュオーバー電圧(U50%)を推定することができる。
提案手法は,絶縁体ストリングの状態を正確に判定し,資産管理技術者に適切な行動を取るよう指示する。
As a new practical and economical solution to the aging problem of overhead line (OHL) assets, the technical policies of most power grid companies in the world experienced a gradual transition from scheduled preventive maintenance to a risk-based approach in asset management. Even though the accumulation of contamination is predictable within a certain degree, there are currently no effective ways to identify the risk of the insulator flashover in order to plan its replacement. This paper presents a novel machine learning (ML) based method for estimating the flashover probability of the cup-and-pin glass insulator string. The proposed method is based on the Extreme Gradient Boosting (XGBoost) supervised ML model, in which the leakage current (LC) features and applied voltage are used as the inputs. The established model can estimate the critical flashover voltage (U50%) for various designs of OHL insulators with different voltage levels. The proposed method is also able to accurately determine the condition of the insulator strings and instruct asset management engineers to take appropriate actions. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-26 |
# 超伝導ニオブの2レベル系損失源としての一酸化ニオブ中の酸素空孔
Oxygen Vacancies in Niobium Pentoxide as a Source of Two-Level System Losses in Superconducting Niobium ( http://arxiv.org/abs/2108.13352v4 ) ライセンス: Link先を確認 | Daniel Bafia, Akshay Murthy, Anna Grassellino, Alexander Romanenko, | (参考訳) 酸化ニオブからなる3次元超伝導無線周波数共振器と2次元トランスモン量子ビットの量子デコヒーレンスの主源を同定した。
時空二次イオン質量分析法 (ToF-SIMS) を用いて, バルクNb SRF共振器のRF特性および代表Nb試料の酸化物構造に及ぼすシーケンシャル \textit{in situ} 真空焼成処理の影響を調べたところ, Nb\textsubscript{2}O\textsubscript{5} の空隙発生と酸化物厚みの減少に相関する空洞品質係数$Q_0$の非単調進化が認められた。
この効果を酸化膜自体に局在させ, 酸化膜を酸化膜に再成長させることにより, TLS損失の緩和を図り, Nb中での拡散間質酸素の役割を明らかにした。
我々は、一酸化炭素中のこれらの空孔が磁気不純物であり、TLSによるRF損失の原因であると仮定する。
We identify a major source of quantum decoherence in three-dimensional superconducting radio-frequency (SRF) resonators and two-dimensional transmon qubits composed of oxidized niobium: oxygen vacancies in the niobium pentoxide which drive two-level system (TLS) losses. By probing the effect of sequential \textit{in situ} vacuum baking treatments on the RF performance of bulk Nb SRF resonators and on the oxide structure of a representative Nb sample using time-of-flight secondary ion mass spectrometry (ToF-SIMS), we find a non-monotonic evolution of cavity quality factor $Q_0$ which correlates with the interplay of Nb\textsubscript{2}O\textsubscript{5} vacancy generation and oxide thickness reduction. We localize this effect to the oxide itself and present the insignificant role of diffused interstitial oxygen in the underlying Nb by regrowing a new oxide \textit{via} wet oxidation which reveals a mitigation of aggravated TLS losses. We hypothesize that such vacancies in the pentoxide serve as magnetic impurities and are a source of TLS-driven RF loss. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-26 |
# RobustNeRF:ロバスト損失によるディトラクタの無視
RobustNeRF: Ignoring Distractors with Robust Losses ( http://arxiv.org/abs/2302.00833v2 ) ライセンス: Link先を確認 | Sara Sabour, Suhani Vora, Daniel Duckworth, Ivan Krasin, David J. Fleet, Andrea Tagliasacchi, | (参考訳) 静的シーンのマルチビュー・キャリブレーション画像が与えられたニューラルレイディアンス場(NeRF)は、新しいビューの合成に優れる。
イメージキャプチャー(移動物体、照明のバリエーション、影)の間に永続的でない邪魔物を含む場合、人工物はビュー依存効果または「フローター」として現れる。
注意散らしに対処するため,我々はNeRFトレーニングのための頑健な推定形式を提案し,最適化問題の外れ値としてトレーニングデータ中の注意散らしをモデル化する。
本手法は, シーンから外れ値を取り除き, ベースライン, 合成シーン, 現実シーンを改良する。
我々の手法は、ハイパーパラメータが少ない現代のNeRFフレームワークに組み込むのが簡単である。
イントラクタの種類に関する事前知識を前提とせず、代わりに過渡オブジェクトの事前処理やモデリングよりも最適化の問題に重点を置いている。
私たちのページ https://robustnerf.github.io.com でさらなる結果が得られます。
Neural radiance fields (NeRF) excel at synthesizing new views given multi-view, calibrated images of a static scene. When scenes include distractors, which are not persistent during image capture (moving objects, lighting variations, shadows), artifacts appear as view-dependent effects or 'floaters'. To cope with distractors, we advocate a form of robust estimation for NeRF training, modeling distractors in training data as outliers of an optimization problem. Our method successfully removes outliers from a scene and improves upon our baselines, on synthetic and real-world scenes. Our technique is simple to incorporate in modern NeRF frameworks, with few hyper-parameters. It does not assume a priori knowledge of the types of distractors, and is instead focused on the optimization problem rather than pre-processing or modeling transient objects. More results on our page https://robustnerf.github.io. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-26 |
# STMT:MoCapに基づく行動認識のための空間時間メッシュ変換器
STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition ( http://arxiv.org/abs/2303.18177v2 ) ライセンス: Link先を確認 | Xiaoyu Zhu, Po-Yao Huang, Junwei Liang, Celso M. de Melo, Alexander Hauptmann, | (参考訳) 本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
モデル入力として標準化された骨格表現を導出するために複数の手動ステップを踏む既存の手法とは異なり、メッシュシーケンスを直接モデル化する新しい空間時間メッシュ変換器(STMT)を提案する。
このモデルは、フレーム内のオフセットアテンションとフレーム間の自己アテンションを備えた階層型トランスフォーマーを使用する。
注意機構により、モデルは2つの頂点パッチの間を自由に参加し、空間時間領域における非局所的関係を学習することができる。
階層変換器における双方向及び自己回帰的注意をフルに活性化するために,マスク付き頂点モデリングと将来のフレーム予測が2つの自己監督タスクとして使用される。
提案手法は,一般的なMoCapベンチマーク上でのスケルトンベースおよびポイントクラウドベースモデルと比較して,最先端性能を実現する。
コードはhttps://github.com/zgzxy001/STMTで入手できる。
We study the problem of human action recognition using motion capture (MoCap) sequences. Unlike existing techniques that take multiple manual steps to derive standardized skeleton representations as model input, we propose a novel Spatial-Temporal Mesh Transformer (STMT) to directly model the mesh sequences. The model uses a hierarchical transformer with intra-frame off-set attention and inter-frame self-attention. The attention mechanism allows the model to freely attend between any two vertex patches to learn non-local relationships in the spatial-temporal domain. Masked vertex modeling and future frame prediction are used as two self-supervised tasks to fully activate the bi-directional and auto-regressive attention in our hierarchical transformer. The proposed method achieves state-of-the-art performance compared to skeleton-based and point-cloud-based models on common MoCap benchmarks. Code is available at https://github.com/zgzxy001/STMT. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-26 |
# ラッソを用いたシグナチャの一貫性について
On Consistency of Signature Using Lasso ( http://arxiv.org/abs/2305.10413v3 ) ライセンス: Link先を確認 | Xin Guo, Binnan Wang, Ruixun Zhang, Chaoyi Zhao, | (参考訳) 符号は連続および離散時間プロセスの反復経路積分であり、その普遍非線形性は時系列データ解析における特徴選択の問題を線形化する。
本稿では,ラッソ回帰を用いたシグネチャの整合性について理論的・数値的に検討する。
我々は、ラッソ回帰が漸近的にも有限標本においても一貫した条件を確立する。
さらに、ラッソ回帰は、ブラウン運動に近づき、次元間相関が弱い時系列や過程のイットオシグネチャとより整合性を示し、平均回帰時系列や過程のストラトノビッチシグネチャとより整合性を示す。
非線形関数やオプション価格を高精度に学習するためにシグネチャを適用できることを示し,その性能は基礎となるプロセスの特性とシグネチャの選択に依存する。
Signatures are iterated path integrals of continuous and discrete-time processes, and their universal nonlinearity linearizes the problem of feature selection in time series data analysis. This paper studies the consistency of signature using Lasso regression, both theoretically and numerically. We establish conditions under which the Lasso regression is consistent both asymptotically and in finite sample. Furthermore, we show that the Lasso regression is more consistent with the It\^o signature for time series and processes that are closer to the Brownian motion and with weaker inter-dimensional correlations, while it is more consistent with the Stratonovich signature for mean-reverting time series and processes. We demonstrate that signature can be applied to learn nonlinear functions and option prices with high accuracy, and the performance depends on properties of the underlying process and the choice of the signature. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-26 |
# 確率量子回路における対称性保護長距離絡みの安定化
Stabilization of symmetry-protected long-range entanglement in stochastic quantum circuits ( http://arxiv.org/abs/2306.13008v3 ) ライセンス: Link先を確認 | Iosifina Angelidi, Marcin Szyniszewski, Arijeet Pal, | (参考訳) 長距離の絡み合った状態は、量子情報処理と量子気象学に不可欠である。
単位ゲートと測定値を組み合わせることにより、有限深度量子回路による効率的なプロトコルの新たな可能性が開けた。
これらのアルゴリズムの複雑さは、大規模ノイズ量子デバイスにおけるリソース要求に不可欠であり、摂動に対する安定性はそれらの実装の運命を決定する。
本研究では, 1次元と2次元の確率量子回路を, ランダムに応用されたユニタリゲートと局所的な測定値から検討する。
これらの操作は離散的な局所対称性のクラスを保持し、これはタイミングとゲートの不完全性に起因する確率性によって破られる。
ランダム性がない場合、このプロトコルは有限深度回路において対称性で保護された長距離絡み合った状態を生成する。
一般の場合、このハイブリッド回路の下での時間進化を研究することにより、対象の絡み合った状態に達するまでの時間を分析する。
対称性生成器の出現と関連する2つの重要な時間尺度が見つかる。
量子軌道は系の大きさと対数的にスケールする時間とともに局所対称性を具現化するが、大域対称性は指数的に長い時間を必要とする。
両時間スケールを著しく下げるエラー軽減プロトコルを考案し,実験で自然に発生する摂動に対するアルゴリズムの安定性について検討する。
また、トーリック符号とXu-Moore状態を2次元で実現するためのプロトコルを一般化し、将来の異音励起の研究への道を開く。
以上の結果から, 格子状地形における対称性と力学の基本的な関係が明らかとなり, 相転移の観点からの合成アルゴリズムの安定性の広範な理解に寄与すると考えられる。
我々の研究は、量子状態の準備のための効率的な誤り訂正の道を開く。
Long-range entangled states are vital for quantum information processing and quantum metrology. Preparing such states by combining measurements with unitary gates opened new possibilities for efficient protocols with finite-depth quantum circuits. The complexity of these algorithms is crucial for the resource requirements on a large-scale noisy quantum device, while their stability to perturbations decides the fate of their implementation. In this work, we consider stochastic quantum circuits in one and two dimensions comprising randomly applied unitary gates and local measurements. These operations preserve a class of discrete local symmetries, which are broken due to the stochasticity arising from timing and gate imperfections. In the absence of randomness, the protocol generates a symmetry-protected long-range entangled state in a finite-depth circuit. In the general case, by studying the time evolution under this hybrid circuit, we analyze the time to reach the target entangled state. We find two important time scales that we associate with the emergence of certain symmetry generators. The quantum trajectories embody the local symmetry with a time scaling logarithmically with system size, while global symmetries require exponentially long times. We devise error-mitigation protocols that significantly lower both time scales and investigate the stability of the algorithm to perturbations that naturally arise in experiments. We also generalize the protocol to realize toric code and Xu-Moore states in two dimensions, opening avenues for future studies of anyonic excitations. Our results unveil a fundamental relationship between symmetries and dynamics across a range of lattice geometries, which contributes to a broad understanding of the stability of preparation algorithms in terms of phase transitions. Our work paves the way for efficient error correction for quantum state preparation. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-26 |
# インストラクションマイニング:大規模言語モデルのチューニングのためのインストラクションデータ選択
Instruction Mining: Instruction Data Selection for Tuning Large Language Models ( http://arxiv.org/abs/2307.06290v3 ) ライセンス: Link先を確認 | Yihan Cao, Yanbin Kang, Chi Wang, Lichao Sun, | (参考訳) 大規模言語モデル(LLM)は、最初は幅広い機能のために事前訓練され、次に命令追従データセットで微調整され、人間と対話する際のパフォーマンスが向上する。
微調整の進歩にもかかわらず、このプロセスを最適化するために高品質なデータセットを選択するための標準化されたガイドラインは、まだ解明されていない。
本稿ではまず,LLMを微調整するための高品質な命令追従データを自動的に選択する革新的な手法であるInstructMiningを提案する。
具体的には、InstructMiningは自然言語インジケータをデータ品質の指標として利用し、目に見えないデータセットを評価する。
実験中、大きな言語モデルファインタニングに二重降下現象が存在することが判明した。
この観察に基づいて、BlendSearchをさらに活用して、データセット全体の最高のサブセット(10万中2,532)を見つけるのに役立ちます。
実験結果から、InstructMining-7Bは、最も人気のあるベンチマークであるLLM-as-a-judgeとHugingface OpenLLMのリーダーボードの2つで、最先端のパフォーマンスを実現していることがわかった。
Large language models (LLMs) are initially pretrained for broad capabilities and then finetuned with instruction-following datasets to improve their performance in interacting with humans. Despite advances in finetuning, a standardized guideline for selecting high-quality datasets to optimize this process remains elusive. In this paper, we first propose InstructMining, an innovative method designed for automatically selecting premium instruction-following data for finetuning LLMs. Specifically, InstructMining utilizes natural language indicators as a measure of data quality, applying them to evaluate unseen datasets. During experimentation, we discover that double descent phenomenon exists in large language model finetuning. Based on this observation, we further leverage BlendSearch to help find the best subset among the entire dataset (i.e., 2,532 out of 100,000). Experiment results show that InstructMining-7B achieves state-of-the-art performance on two of the most popular benchmarks: LLM-as-a-judge and Huggingface OpenLLM leaderboard. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-26 |
# 物理駆動型変分量子固有解器への測定に基づく量子計算の適用性
Applicability of Measurement-based Quantum Computation towards Physically-driven Variational Quantum Eigensolver ( http://arxiv.org/abs/2307.10324v3 ) ライセンス: Link先を確認 | Zheng Qin, Xiufan Li, Yang Zhou, Shikun Zhang, Rui Li, Chunxiao Du, Zhisong Xiao, | (参考訳) 変分量子アルゴリズムは、短期的な量子アドバンテージを得る最も有望な方法の1つと考えられているが、これらのアルゴリズムのほとんどは、従来の量子回路方式でのみ表現されている。
測定ベースの量子計算(MBQC)方式で量子アルゴリズムを開発するための障害は、リソースコストである。
近年,マルチキュービット回転演算の実現には,MBQCスキームを用いた単一キュービット計測が一定数必要であり,資源コストの面で潜在的に有利であることが判明した。
ハミルトニアン変分アンサッツ(HVA)の構造はこの性質とよく一致している。
そこで本研究では,量子多体シミュレーションタスクのための効率よい測定ベース量子アルゴリズムを提案し,MBHVA(Message-based Hamiltonian variational ansatz)を提案する。
次に、2次元ハイゼンベルクモデルとフェルミ・ハッバード連鎖の有効性、効率、利点を示す。
数値実験により、MBHVAは、特に大規模なマルチキュービット回転操作の存在下で、量子回路と比較してリソースオーバーヘッドを低減することが期待されている。
さらに、測定ベースのハードウェア効率アンサッツ(MBHEA)と比較して、MBHVAは優れた性能を示す。
MBQC方式は、特にフォトニックプラットフォームにおいて、資源効率とエラー軽減の両面から、短期的な量子的優位性を達成することが可能であると結論付けている。
Variational quantum algorithms are considered one of the most promising methods for obtaining near-term quantum advantages; however, most of these algorithms are only expressed in the conventional quantum circuit scheme. The roadblock to developing quantum algorithms with the measurement-based quantum computation (MBQC) scheme is resource cost. Recently, we discovered that the realization of multi-qubit rotation operations requires a constant number of single-qubit measurements with the MBQC scheme, providing a potential advantage in terms of resource cost. The structure of the Hamiltonian variational ansatz (HVA) aligns well with this characteristic. Thus, we propose an efficient measurement-based quantum algorithm for quantum many-body system simulation tasks, called measurement-based Hamiltonian variational ansatz (MBHVA). We then demonstrate the effectiveness, efficiency, and advantages of the two-dimensional Heisenberg model and the Fermi-Hubbard chain. Numerical experiments show that MBHVA is expected to reduce resource overhead compared to quantum circuits, especially in the presence of large multi-qubit rotation operations. Furthermore, when compared to Measurement-based Hardware Efficient Ansatz (MBHEA), MBHVA also demonstrates superior performance. We conclude that the MBQC scheme is potentially feasible for achieving near-term quantum advantages in terms of both resource efficiency and error mitigation, particularly for photonic platforms. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-26 |
# LLM Platform Security: OpenAIのChatGPTプラグインにシステム評価フレームワークを適用する
LLM Platform Security: Applying a Systematic Evaluation Framework to OpenAI's ChatGPT Plugins ( http://arxiv.org/abs/2309.10254v2 ) ライセンス: Link先を確認 | Umar Iqbal, Tadayoshi Kohno, Franziska Roesner, | (参考訳) ChatGPTのような大規模言語モデル(LLM)プラットフォームは最近、インターネット上のサードパーティサービスとインターフェースするためのアプリエコシステムの提供を開始した。
これらのアプリはLLMプラットフォームの機能を拡張しているが、任意のサードパーティによって開発されており、暗黙的に信頼できない。
アプリはLLMプラットフォームや、不正確な解釈を持つ自然言語を使用するユーザとインターフェースする。
本稿では,LLMプラットフォーム設計者のための基盤を築き,現在および将来のサードパーティのLDMプラットフォームにおけるセキュリティ,プライバシ,安全性を解析・改善するフレームワークを提案する。
我々の枠組みは、LLMプラットフォームステークホルダーが互いの能力と責任を利用して攻撃をマウントする方法を反復的に探求することによって開発された攻撃分類の定式化である。
反復的なプロセスの一環として、OpenAIのプラグイン(アプリ)エコシステムのコンテキストにフレームワークを適用します。
攻撃分類で概説した問題の種類を具体的に示すプラグインを明らかにする。
我々は、新しい課題について議論し、現在および将来のLLMベースのコンピューティングプラットフォームのセキュリティ、プライバシ、安全性を改善するための勧告を提供することで、結論付ける。
Large language model (LLM) platforms, such as ChatGPT, have recently begun offering an app ecosystem to interface with third-party services on the internet. While these apps extend the capabilities of LLM platforms, they are developed by arbitrary third parties and thus cannot be implicitly trusted. Apps also interface with LLM platforms and users using natural language, which can have imprecise interpretations. In this paper, we propose a framework that lays a foundation for LLM platform designers to analyze and improve the security, privacy, and safety of current and future third-party integrated LLM platforms. Our framework is a formulation of an attack taxonomy that is developed by iteratively exploring how LLM platform stakeholders could leverage their capabilities and responsibilities to mount attacks against each other. As part of our iterative process, we apply our framework in the context of OpenAI's plugin (apps) ecosystem. We uncover plugins that concretely demonstrate the potential for the types of issues that we outline in our attack taxonomy. We conclude by discussing novel challenges and by providing recommendations to improve the security, privacy, and safety of present and future LLM-based computing platforms. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-26 |
# ac-Stark格子変調により達成された原子気体中の長期集団Rydberg励起
Long-lived collective Rydberg excitations in atomic gas achieved via ac-Stark lattice modulation ( http://arxiv.org/abs/2402.06513v4 ) ライセンス: Link先を確認 | Stanisław Kurzyna, Bartosz Niewelt, Mateusz Mazelanik, Wojciech Wasilewski, Michał Parniak, | (参考訳) 集合Rydberg励起は、量子情報処理や量子コンピューティングから超感度電気測定まで、有望な応用を提供する。
しかし、彼らの短い寿命は現実のシナリオにおいて大きな障害となる。
寿命を延ばす最先端の方法は、主に基底状態の量子記憶のために実装され、異なる原子遷移を効果的に扱うために再設計が必要だった。
本稿では,リングバーグ励起寿命を延長するプロトコルを提案する。このプロトコルは原理的にスピン波を凍結し,熱劣化の影響を完全にキャンセルすることができる。
このプロトコルは、2つのレーザービームを原子媒体に干渉させることでスピン波の非共鳴ac-Stark格子変調を用いる。
我々の実装は、励起寿命を桁違いに拡張できることを示し、Rydberg励起のより複雑なプロトコルへの道を開いた。
Collective Rydberg excitations provide promising applications ranging from quantum information processing, and quantum computing to ultra-sensitive electrometry. However, their short lifetime is an immense obstacle in real-life scenarios. The state-of-the-art methods of prolonging the lifetime were mainly implemented for ground-state quantum memories and would require a redesign to effectively work on different atomic transitions. We propose a protocol for extending the Rydberg excitation lifetime, which in principle can freeze the spin-wave and completely cancel the effects of thermal dephasing. The protocol employs off-resonant ac-Stark lattice modulation of spin waves by interfering two laser beams on the atomic medium. Our implementation showed that the excitation lifetime can be extended by an order of magnitude, paving the way towards more complex protocols for collective Rydberg excitations. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-26 |
# 協調型機械学習におけるロバストネスと学習の矛盾について
On the Conflict of Robustness and Learning in Collaborative Machine Learning ( http://arxiv.org/abs/2402.13700v2 ) ライセンス: Link先を確認 | Mathilde Raynal, Carmela Troncoso, | (参考訳) コラボレーション機械学習(CML)は、参加者がトレーニングデータをプライベートに保ちながら、機械学習モデルを共同でトレーニングすることを可能にする。
CMLが健康関連のアプリケーションのようなプライバシー問題に対する解決策と見なされる多くのシナリオでは、安全性も主要な関心事である。
CMLプロセスが、潜在的に信頼できない参加者の存在下で、正しい信頼性のある決定を出力するモデルを確実に作成するために、研究者は、トレーニングプロセスに悪影響を及ぼす悪意のあるコントリビューションをフィルタリングするために、textit{robust aggregators}を使用することを提案する。
本研究は,文献における2つの一般的なロバストアグリゲータの形式を定式化する。
トレーニングにおいて悪意のある入力を確実に特定できない距離ベースのメトリクスを使用するか、CML参加者が学習する能力と矛盾する損失関数の振る舞いに基づいてメトリクスを使用するか、すなわち、学習を妨げずに妥協のリスクを排除できない。
Collaborative Machine Learning (CML) allows participants to jointly train a machine learning model while keeping their training data private. In many scenarios where CML is seen as the solution to privacy issues, such as health-related applications, safety is also a primary concern. To ensure that CML processes produce models that output correct and reliable decisions \emph{even in the presence of potentially untrusted participants}, researchers propose to use \textit{robust aggregators} to filter out malicious contributions that negatively influence the training process. In this work, we formalize the two prevalent forms of robust aggregators in the literature. We then show that neither can provide the intended protection: either they use distance-based metrics that cannot reliably identify malicious inputs to training; or use metrics based on the behavior of the loss function which create a conflict with the ability of CML participants to learn, i.e., they cannot eliminate the risk of compromise without preventing learning. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-26 |
# 並列低ランク適応器を用いたスクラッチからのニューラルネットワークの学習
Training Neural Networks from Scratch with Parallel Low-Rank Adapters ( http://arxiv.org/abs/2402.16828v2 ) ライセンス: Link先を確認 | Minyoung Huh, Brian Cheung, Jeremy Bernstein, Phillip Isola, Pulkit Agrawal, | (参考訳) ディープラーニングモデルのスケーラビリティは、コンピューティングリソース、メモリ、通信によって根本的に制限されている。
ローランク適応 (LoRA) のような手法は、モデル微調整のコストを削減しているが、モデル事前訓練におけるその適用は、ほとんど探索されていない。
本稿では、LoRAを事前学習のモデルに拡張し、この文脈における標準LoRA固有の制約と制限を特定する。
演算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムであるLoRA-the-Explorer(LTE)を導入し,頻繁な同期の必要性を低減した。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
The scalability of deep learning models is fundamentally limited by computing resources, memory, and communication. Although methods like low-rank adaptation (LoRA) have reduced the cost of model finetuning, its application in model pre-training remains largely unexplored. This paper explores extending LoRA to model pre-training, identifying the inherent constraints and limitations of standard LoRA in this context. We introduce LoRA-the-Explorer (LTE), a novel bi-level optimization algorithm designed to enable parallel training of multiple low-rank heads across computing nodes, thereby reducing the need for frequent synchronization. Our approach includes extensive experimentation on vision transformers using various vision datasets, demonstrating that LTE is competitive with standard pre-training. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-26 |
# RAM-EHR:Retrieval Augmentationは、電子健康記録に臨床予測をもたらす
RAM-EHR: Retrieval Augmentation Meets Clinical Predictions on Electronic Health Records ( http://arxiv.org/abs/2403.00815v3 ) ライセンス: Link先を確認 | Ran Xu, Wenqi Shi, Yue Yu, Yuchen Zhuang, Bowen Jin, May D. Wang, Joyce C. Ho, Carl Yang, | (参考訳) 本稿では,Electronic Health Records(EHRs)における臨床予測を改善するために,検索AugMentationパイプラインであるRAM-EHRを提案する。
RAM-EHRはまず複数の知識ソースを収集し、それらをテキスト形式に変換し、密度の高い検索を用いて医療概念に関する情報を取得する。
この戦略は、概念の複雑な名前に関する困難に対処する。
RAM-EHRは、患者の訪問や要約された知識から補完的な情報を取得するために、一貫性の規則化とともに訓練されたローカルEHR予測モデルを増強する。
2つのEHRデータセットの実験は、RAM-EHRが従来の知識強化ベースライン(AUROCでは3.4%、AUPRでは7.2%)よりも有効であることを示し、臨床予測タスクにおいてRAM-EHRから要約された知識の有効性を強調した。
コードは \url{https://github.com/ritaranx/RAM-EHR} で公開される。
We present RAM-EHR, a Retrieval AugMentation pipeline to improve clinical predictions on Electronic Health Records (EHRs). RAM-EHR first collects multiple knowledge sources, converts them into text format, and uses dense retrieval to obtain information related to medical concepts. This strategy addresses the difficulties associated with complex names for the concepts. RAM-EHR then augments the local EHR predictive model co-trained with consistency regularization to capture complementary information from patient visits and summarized knowledge. Experiments on two EHR datasets show the efficacy of RAM-EHR over previous knowledge-enhanced baselines (3.4% gain in AUROC and 7.2% gain in AUPR), emphasizing the effectiveness of the summarized knowledge from RAM-EHR for clinical prediction tasks. The code will be published at \url{https://github.com/ritaranx/RAM-EHR}. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-26 |
# 多光子フーリエ干渉に基づく資源コスト低減型光子蒸留法
Photon distillation schemes with reduced resource costs based on multiphoton Fourier interference ( http://arxiv.org/abs/2404.14262v3 ) ライセンス: Link先を確認 | F. H. B. Somhorst, B. K. Sauër, S. N. van den Hoven, J. J. Renema, | (参考訳) フーリエ行列における多光子干渉に基づいて,光子蒸留,すなわち,複数の不完全光子からの不明瞭性誤差を低減した単一光子を調製するスケーラブルな手法を提案する。
提案方式は,プロトコルの複数ラウンドを連結する必要性を排除し,単一ステップで任意のエラー低減を実現する。
提案手法は, 誤差低減において資源コストが線形であり, 任意の誤差低減に成功する確率は一定である。
この方式は、フォトニック量子コンピュータにおける誤り訂正符号のしきい値を高めるとともに、フォトニック量子コンピュータを構築するのに必要なリソースを削減し、そのような装置の実装に高い期待を与える。
We present a scalable scheme to achieve photon distillation, i.e. the preparation of a single photon with reduced indistinguishability error out of multiple imperfect photons, based on multiphoton interference in Fourier matrices. Our scheme achieves arbitrary error reduction in a single step, removing the need to concatenate multiple rounds of the protocol. Our scheme has resource costs linear in the error reduction, and a constant probability of success for arbitrary error reductions. We find that the scheme both raises the threshold of error correcting codes in photonic quantum computers, as well as reduces the resources required to construct a photonic quantum computer, making it highly promising for implementation in such devices. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-26 |
# 政策影響のシミュレーション:規制の知覚的影響を評価するための生成シナリオ作成手法の開発
Simulating Policy Impacts: Developing a Generative Scenario Writing Method to Evaluate the Perceived Effects of Regulation ( http://arxiv.org/abs/2405.09679v2 ) ライセンス: Link先を確認 | Julia Barnett, Kimon Kieslich, Nicholas Diakopoulos, | (参考訳) AI技術の急速な進歩は、個人や社会に多くの将来的な影響をもたらす。
政策立案者は迅速に対応し、これらの影響を緩和する政策を確立するよう義務付けられている。
しかし、ポリシーの有効性を期待することは難しい課題であり、将来的にはいくつかの影響は観測可能であり、それぞれのポリシーは将来のAI開発には適用できない可能性がある。
本研究では,大規模言語モデル(LLM)を用いて,特定の負の影響を緩和する政策の有効性を評価する手法を開発した。
我々は、GPT-4を用いて、ポリシーの事前導入と後導入の両方のシナリオを生成し、これらの鮮やかなストーリーを人間の影響に対する認識に基づくメトリクスに変換する。
我々は、メディア環境における生成AIの影響の既に確立された分類を利用して、EU AI法第50条の透明性ポリシーによって緩和されたシナリオペアと非緩和されたシナリオペアを生成する。
次に、これらのシナリオを4つのリスク評価次元(重度、可視性、大きさ、脆弱な集団に対する特異性)で評価するために、ユーザスタディ(n=234)を実行します。
この透明性法は、労働や幸福といった分野の害を軽減できるが、社会的な結束や安全保障といった分野ではほとんど効果がないと考えられる。
本研究は, 様々なネガティブな影響を緩和するための政策の有効性を反復的に評価する手段として, 提案手法の有効性を実証するものである。
我々は、異なる政策または他の緩和戦略の潜在的な実用性をブレインストーミングしたい研究者や他のステークホルダーにとって、この方法が有用であると期待している。
The rapid advancement of AI technologies yields numerous future impacts on individuals and society. Policymakers are tasked to react quickly and establish policies that mitigate those impacts. However, anticipating the effectiveness of policies is a difficult task, as some impacts might only be observable in the future and respective policies might not be applicable to the future development of AI. In this work we develop a method for using large language models (LLMs) to evaluate the efficacy of a given piece of policy at mitigating specified negative impacts. We do so by using GPT-4 to generate scenarios both pre- and post-introduction of policy and translating these vivid stories into metrics based on human perceptions of impacts. We leverage an already established taxonomy of impacts of generative AI in the media environment to generate a set of scenario pairs both mitigated and non-mitigated by the transparency policy in Article 50 of the EU AI Act. We then run a user study (n=234) to evaluate these scenarios across four risk-assessment dimensions: severity, plausibility, magnitude, and specificity to vulnerable populations. We find that this transparency legislation is perceived to be effective at mitigating harms in areas such as labor and well-being, but largely ineffective in areas such as social cohesion and security. Through this case study we demonstrate the efficacy of our method as a tool to iterate on the effectiveness of policy for mitigating various negative impacts. We expect this method to be useful to researchers or other stakeholders who want to brainstorm the potential utility of different pieces of policy or other mitigation strategies. | 翻訳日:2024-07-30 23:08:21 公開日:2024-07-26 |
# 会員制Oracleによる組合せ最適化のアクティブラーニング
Actively Learning Combinatorial Optimization Using a Membership Oracle ( http://arxiv.org/abs/2405.14090v2 ) ライセンス: Link先を確認 | Rosario Messana, Rui Chen, Andrea Lodi, | (参考訳) 我々は、解が与えられた場合、それが絶対的確実性で実現可能か不可能かを判断する会員オラクルを用いて、未知の線形制約で組合せ最適化問題を解くことを検討する。
意思決定者の目標は、オラクルの呼び出し数に関する予算の対象となる最善の解決策を見つけることである。
SVM(Support Vector Machines)に基づく能動的学習に着想を得て,代用線形制約を学習し,活用することによって問題を解決するために,古典的なフレームワークを適用した。
得られた新しいフレームワークは、ラベル付きポイント上で線形分離器を訓練し、ラベル付けされる新しいポイントを選択することを含み、サンプリング戦略を適用し、0-1整数線形プログラムを解くことで達成される。
アクティブラーニングの文献に従えば、SVMを線形分類器として使用することや、シンプルマージンとして知られる情報に基づくサンプリング戦略を考えることができる。
我々は,混合整数二次計画法に基づく別のサンプリング手法と,オラクルモデルにおける凸最適化アルゴリズムにインスパイアされた線形分離法を提案する。
本研究は, 純クナップサック問題と大学研究計画問題に関する実験を行い, 異なる線形分離法とサンプリング手法が, 目的値の点から結果の質にどのように影響するかを示す。
We consider solving a combinatorial optimization problem with an unknown linear constraint using a membership oracle that, given a solution, determines whether it is feasible or infeasible with absolute certainty. The goal of the decision maker is to find the best possible solution subject to a budget on the number of oracle calls. Inspired by active learning based on Support Vector Machines (SVMs), we adapt a classical framework in order to solve the problem by learning and exploiting a surrogate linear constraint. The resulting new framework includes training a linear separator on the labeled points and selecting new points to be labeled, which is achieved by applying a sampling strategy and solving a 0-1 integer linear program. Following the active learning literature, one can consider using SVM as a linear classifier and the information-based sampling strategy known as Simple margin. We improve on both sides: we propose an alternative sampling strategy based on mixed-integer quadratic programming and a linear separation method inspired by an algorithm for convex optimization in the oracle model. We conduct experiments on the pure knapsack problem and on a college study plan problem from the literature to show how different linear separation methods and sampling strategies influence the quality of the results in terms of objective value. | 翻訳日:2024-07-30 23:08:21 公開日:2024-07-26 |
# 人々のモチベーションを高めるためにノイズを遮断する: 予防接種を動機づけるソーシャルメディア投稿の包括的分析
Cutting through the noise to motivate people: A comprehensive analysis of COVID-19 social media posts de/motivating vaccination ( http://arxiv.org/abs/2407.03190v2 ) ライセンス: Link先を確認 | Ashiqur Rahman, Ehsan Mohammadi, Hamed Alhoori, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、医療情報システムの重大な弱点を露呈した。
ソーシャルメディアやその他の社会経済的要因に関する誤報が圧倒的に多いことは、人々が適切な予防措置を講じて予防接種を受けるよう動機付けるという、極めて困難な課題を生み出した。
そこで本研究では,2年間にわたって収集された広範囲なデータセットを解析し,新型コロナウイルスの予防接種に関する話題を抽出し,新たな方向性を探究した。
我々はこれらのトピックを、時間、地理的位置、政治的指向に基づいて分析した。
モチベーションのあるトピックは時間と地理的な場所によって変わらないが、モチベーションのあるトピックは急速に変化することに気づきました。
また、外的委任よりも内在的動機の方が、大衆に刺激を与えるのに有利であることも確認した。
本研究では,ソーシャルメディアにおける科学的コミュニケーションと公衆のモチベーションについて論じる。
これは、公衆衛生当局、政策立案者、ソーシャルメディアプラットフォームが、誤報のノイズを減らし、科学的な発見について大衆に教育するための、より効果的なメッセージング戦略を開発するのに役立つ。
The COVID-19 pandemic exposed significant weaknesses in the healthcare information system. The overwhelming volume of misinformation on social media and other socioeconomic factors created extraordinary challenges to motivate people to take proper precautions and get vaccinated. In this context, our work explored a novel direction by analyzing an extensive dataset collected over two years, identifying the topics de/motivating the public about COVID-19 vaccination. We analyzed these topics based on time, geographic location, and political orientation. We noticed that while the motivating topics remain the same over time and geographic location, the demotivating topics change rapidly. We also identified that intrinsic motivation, rather than external mandate, is more advantageous to inspire the public. This study addresses scientific communication and public motivation in social media. It can help public health officials, policymakers, and social media platforms develop more effective messaging strategies to cut through the noise of misinformation and educate the public about scientific findings. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-26 |
# 不均一時系列による自動車のサプライチェーン不足予測
Forecasting Automotive Supply Chain Shortfalls with Heterogeneous Time Series ( http://arxiv.org/abs/2407.16739v2 ) ライセンス: Link先を確認 | Bach Viet Do, Xingyu Li, Chaoye Pan, Oleg Gusikhin, | (参考訳) 運用上の混乱は企業のパフォーマンスに大きな影響を及ぼす可能性がある。
フォードは世界の37の工場で年間17億の部品を使って600万台の車やトラックを製造している。
最大10層までのサプライヤーと原材料が混在しているため、このサプライチェーンの混乱が拡大すれば、実質的な損失が生じる可能性がある。
したがって、このような混乱を早期に予測し、特定する能力は、シームレスな操作を維持するために不可欠である。
本研究では, 古典的ファクトリ物理フレームワークで概説されている, キャパシティ, 在庫, 利用, 処理に関連する特徴を活用し, 第一階層のサプライチェーン破壊を予測するために, 多数の多変量時系列からなるデータセットを構築する方法を示す。
このデータセットは、50万を超える時系列の巨大なスケールのため、技術的に難しい。
さらに、これらの時系列は特定の類似性を示しながら、特定の部分群内での不均一性を示す。
これらの課題に対処するために,ニューラルネットワークを組み込んでグループ効果をモデル化する,拡張された注意シーケンスをシーケンス深層学習アーキテクチャに統合する手法をSurvival Analysisモデルで提案する。
このモデルは、運用上の障害に関連する複雑な異種データパターンを学習するために設計されている。
当社のモデルでは,フォードの北米5工場における品質保証(QA)フェーズにおいて,0.85の精度と0.8リコールを達成した。
さらに、機械学習モデルをブラックボックスとして一般的な批判に対処するために、モデル予測から特徴重要度を生成するためにSHAPフレームワークをどのように使用できるかを示す。
これは行動可能な戦略につながる貴重な洞察を提供し、自動車業界におけるサプライチェーンのリスクを管理し緩和するための高度な機械学習の可能性を強調している。
Operational disruptions can significantly impact companies performance. Ford, with its 37 plants globally, uses 17 billion parts annually to manufacture six million cars and trucks. With up to ten tiers of suppliers between the company and raw materials, any extended disruption in this supply chain can cause substantial financial losses. Therefore, the ability to forecast and identify such disruptions early is crucial for maintaining seamless operations. In this study, we demonstrate how we construct a dataset consisting of many multivariate time series to forecast first-tier supply chain disruptions, utilizing features related to capacity, inventory, utilization, and processing, as outlined in the classical Factory Physics framework. This dataset is technically challenging due to its vast scale of over five hundred thousand time series. Furthermore, these time series, while exhibiting certain similarities, also display heterogeneity within specific subgroups. To address these challenges, we propose a novel methodology that integrates an enhanced Attention Sequence to Sequence Deep Learning architecture, using Neural Network Embeddings to model group effects, with a Survival Analysis model. This model is designed to learn intricate heterogeneous data patterns related to operational disruptions. Our model has demonstrated a strong performance, achieving 0.85 precision and 0.8 recall during the Quality Assurance (QA) phase across Ford's five North American plants. Additionally, to address the common criticism of Machine Learning models as black boxes, we show how the SHAP framework can be used to generate feature importance from the model predictions. It offers valuable insights that can lead to actionable strategies and highlights the potential of advanced machine learning for managing and mitigating supply chain risks in the automotive industry. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-26 |
# ハイパープレーン予算を用いた凸ハル近似の数学的プログラミングアルゴリズム
Mathematical Programming Algorithms for Convex Hull Approximation with a Hyperplane Budget ( http://arxiv.org/abs/2407.17341v2 ) ライセンス: Link先を確認 | Michele Barbato, Alberto Ceselli, Rosario Messana, | (参考訳) d-次元実空間において、正の点の集合と負の点の集合が与えられたとき、正の集合の凸包が負の集合と交わらないように、正の点と負の点の集合が与えられたとき、可能であればすべての正の点を負の集合から分離するK超平面を見つける。
すなわち、ほとんどのK面を持つ凸多面体を探索し、すべての正の点と負の点を含まない。
この問題は純粋凸多面体近似の文献で知られており、我々の関心は制約学習の応用に起因している。
この問題を最適化として,凸多面体内部の負点数を最小限に抑えた。
サポートベクトルマシンにインスパイアされたモデルを導入し、バイナリ変数を持つ2つの数学的プログラミング定式化を設計する。
我々はDantzig-Wolfe分解を利用して拡張定式化を行い、アドホックな価格ルーチンを持つ列生成アルゴリズムを考案する。
我々は、合成データセットに対する全てのアプローチで得られた計算時間と分離誤差値を比較し、数百から数千までのポイント数を比較し、文献の既存のものよりも優れたパフォーマンスを示す。
さらに、予算Kが正の点と負の点とを完全に分離するのに十分なかどうかによって、重要な計算上の違いが生じることを観察する。
8次元の場合(およびそれ以上の場合)、既存の凸船体アルゴリズムは計算不能となり、一方、我々のアルゴリズムは計算の数分で凸船体近似を識別できる。
We consider the following problem in computational geometry: given, in the d-dimensional real space, a set of points marked as positive and a set of points marked as negative, such that the convex hull of the positive set does not intersect the negative set, find K hyperplanes that separate, if possible, all the positive points from the negative ones. That is, we search for a convex polyhedron with at most K faces, containing all the positive points and no negative point. The problem is known in the literature for pure convex polyhedral approximation; our interest stems from its possible applications in constraint learning, where points are feasible or infeasible solutions of a Mixed Integer Program, and the K hyperplanes are linear constraints to be found. We cast the problem as an optimization one, minimizing the number of negative points inside the convex polyhedron, whenever exact separation cannot be achieved. We introduce models inspired by support vector machines and we design two mathematical programming formulations with binary variables. We exploit Dantzig-Wolfe decomposition to obtain extended formulations, and we devise column generation algorithms with ad-hoc pricing routines. We compare computing time and separation error values obtained by all our approaches on synthetic datasets, with number of points from hundreds up to a few thousands, showing our approaches to perform better than existing ones from the literature. Furthermore, we observe that key computational differences arise, depending on whether the budget K is sufficient to completely separate the positive points from the negative ones or not. On 8-dimensional instances (and over), existing convex hull algorithms become computational inapplicable, while our algorithms allow to identify good convex hull approximations in minutes of computation. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-26 |
# LLMによる産業資産管理のための自動ソリューションレシピ生成に向けて
Towards Automated Solution Recipe Generation for Industrial Asset Management with LLM ( http://arxiv.org/abs/2407.18992v1 ) ライセンス: Link先を確認 | Nianjun Zhou, Dhaval Patel, Shuxin Lin, Fearghal O'Donncha, | (参考訳) 本研究では,Large Language Models (LLMs) の最近の進歩に条件ベースマネジメント (CBM) の原則を取り入れた,産業資産管理 (IAM) への新たなアプローチを提案する。
我々の研究は、伝統的にデータサイエンティストとドメインエキスパートの集中的なコラボレーションに依存している自動モデル構築プロセスを紹介します。
我々は、AIソリューションレシピの自動作成を容易にする分類誘導プロンプト生成と、ドキュメント、サンプルデータ、IAMのモデルからなる一連のアーティファクトを含むソリューションレシピを作成するように設計されたLLMパイプラインのセットを提示する。
これらのパイプラインは、標準化された原則によってガイドされ、人間の直接入力なしに異種資産クラスの初期ソリューションテンプレートの生成を可能にし、広範なドメイン知識への依存を減らし、自動化を促進する。
資産の健全性と持続可能性を評価することで,10種類の資産クラスにまたがる方法論を評価する。
本研究は,LCMと分類に基づくLCMが,資産管理を変革するパイプラインの可能性を示唆し,今後の研究・開発イニシアチブを迅速なクライアントソリューションに統合するための青写真を提供するものである。
This study introduces a novel approach to Industrial Asset Management (IAM) by incorporating Conditional-Based Management (CBM) principles with the latest advancements in Large Language Models (LLMs). Our research introduces an automated model-building process, traditionally reliant on intensive collaboration between data scientists and domain experts. We present two primary innovations: a taxonomy-guided prompting generation that facilitates the automatic creation of AI solution recipes and a set of LLM pipelines designed to produce a solution recipe containing a set of artifacts composed of documents, sample data, and models for IAM. These pipelines, guided by standardized principles, enable the generation of initial solution templates for heterogeneous asset classes without direct human input, reducing reliance on extensive domain knowledge and enhancing automation. We evaluate our methodology by assessing asset health and sustainability across a spectrum of ten asset classes. Our findings illustrate the potential of LLMs and taxonomy-based LLM prompting pipelines in transforming asset management, offering a blueprint for subsequent research and development initiatives to be integrated into a rapid client solution. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# 要件からのオンラインテスト合成:ゲーム理論による強化学習の強化
Online Test Synthesis From Requirements: Enhancing Reinforcement Learning with Game Theory ( http://arxiv.org/abs/2407.18994v1 ) ライセンス: Link先を確認 | Ocan Sankur, Thierry Jéron, Nicolas Markey, David Mentré, Reiya Noguchi, | (参考訳) リアクティブ実装の自動化として指定された機能要件からブラックボックステストケースの自動オンライン合成を検討する。
テスタの目標は、要件の違反を監視しながら、カバレッジ基準を満たすために、特定の状態に到達することである。
提案手法はモンテカルロ木探索(モンテカルロ木探索)を応用し,予測入力を効率的に選択するための強化学習の古典的手法である。
実装とテスタの間のゲームとしてオートマチックな要件を見れば,このゲームで期待できる入力に対する探索をバイアスすることで,ヒューリスティックな手法が開発される。
実験により,モンテカルロ木探索アルゴリズムの収束が促進され,テスト性能が向上することが確認された。
We consider the automatic online synthesis of black-box test cases from functional requirements specified as automata for reactive implementations. The goal of the tester is to reach some given state, so as to satisfy a coverage criterion, while monitoring the violation of the requirements. We develop an approach based on Monte Carlo Tree Search, which is a classical technique in reinforcement learning for efficiently selecting promising inputs. Seeing the automata requirements as a game between the implementation and the tester, we develop a heuristic by biasing the search towards inputs that are promising in this game. We experimentally show that our heuristic accelerates the convergence of the Monte Carlo Tree Search algorithm, thus improving the performance of testing. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# SWIFT:画像偽造防止のためのセマンティックな透かし
SWIFT: Semantic Watermarking for Image Forgery Thwarting ( http://arxiv.org/abs/2407.18995v1 ) ライセンス: Link先を確認 | Gautier Evennou, Vivien Chappelier, Ewa Kijak, Teddy Furon, | (参考訳) 本稿では,意味情報の通信チャネルとして透かしを用いた画像認証と改ざん検出のための新しいアプローチを提案する。
我々は、画像キャプションを表す高次元実ベクトルを埋め込んで抽出するために、HiDDeNディープラーニング透かしアーキテクチャを変更した。
本手法は良性編集と良性編集の両面において著明な堅牢性を向上する。
また,メッセージ回復率と相関する局所信頼度指標を導入し,本手法の適用性を高める。
このアプローチは、従来の透かしと受動的法学的な方法のギャップを埋め、画像整合性検証のための堅牢なソリューションを提供する。
This paper proposes a novel approach towards image authentication and tampering detection by using watermarking as a communication channel for semantic information. We modify the HiDDeN deep-learning watermarking architecture to embed and extract high-dimensional real vectors representing image captions. Our method improves significantly robustness on both malign and benign edits. We also introduce a local confidence metric correlated with Message Recovery Rate, enhancing the method's practical applicability. This approach bridges the gap between traditional watermarking and passive forensic methods, offering a robust solution for image integrity verification. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# データ駆動メンテナンスのための成熟度フレームワーク
A maturity framework for data driven maintenance ( http://arxiv.org/abs/2407.18996v1 ) ライセンス: Link先を確認 | Chris Rijsdijk, Mike van de Wijnckel, Tiedo Tinga, | (参考訳) メンテナンスの決定は、単純な障害の検出から、最終的に将来の失敗を予測し、問題を解決することまで様々である。
これらの従来の人間の決定は、データによってますます支持され、究極の目的は、それらを自律的にすることである。
本稿では,データ駆動保守における課題について考察し,データ/意思決定の成熟度,実世界からデータへの変換,意思決定の計算可能性(モデルを用いた),得られた関係の因果性という,成熟度フレームワークの4つの側面について考察する。
理論的概念に関する議論の後、実際的な故障検出と識別の問題を考慮して調査が続けられた。
経験ベースとモデルベースという2つのアプローチを、成熟度フレームワークの4つの側面の観点から比較し、議論する。
どちらのアプローチも同じ決定を下すが、因果関係の割り当てでは依然として異なることが観察されている。
これは、成熟度評価が意思決定のタイプだけでなく、他の提案された側面も含むべきであることを確認します。
Maintenance decisions range from the simple detection of faults to ultimately predicting future failures and solving the problem. These traditionally human decisions are nowadays increasingly supported by data and the ultimate aim is to make them autonomous. This paper explores the challenges encountered in data driven maintenance, and proposes to consider four aspects in a maturity framework: data / decision maturity, the translation from the real world to data, the computability of decisions (using models) and the causality in the obtained relations. After a discussion of the theoretical concepts involved, the exploration continues by considering a practical fault detection and identification problem. Two approaches, i.e. experience based and model based, are compared and discussed in terms of the four aspects in the maturity framework. It is observed that both approaches yield the same decisions, but still differ in the assignment of causality. This confirms that a maturity assessment not only concerns the type of decision, but should also include the other proposed aspects. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# サイバー情報オントロジーを目指して
Towards a Cyber Information Ontology ( http://arxiv.org/abs/2407.18998v1 ) ライセンス: Link先を確認 | David Limbaugh, Mark Jensen, John Beverley, | (参考訳) 本稿では,サイバーオントロジー(ファイルシステムオントロジーやデータ融合オントロジーなど)と上層および中層オントロジー,特に基本形式オントロジーと共通コアオントロジーのインターフェースとして機能することを目的とした用語について紹介する。
これらの用語は、情報項目をコピーする数多くの行為、それらの行為から生じるコピーの集合、および他のすべてのメンバーを表すそれらの集約の忠実なメンバーなど、サイバー情報管理をユニークなものにすることに焦点を当てている。
This paper introduces a set of terms that are intended to act as an interface between cyber ontologies (like a file system ontology or a data fusion ontology) and top- and mid-level ontologies, specifically Basic Formal Ontology and the Common Core Ontologies. These terms center on what makes cyberinformation management unique: numerous acts of copying items of information, the aggregates of copies that result from those acts, and the faithful members of those aggregates that represent all other members. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# マルチモーダル大言語モデルを用いたグラフベース非教師付き非言語表現学習
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models ( http://arxiv.org/abs/2407.18999v1 ) ライセンス: Link先を確認 | Baao Xie, Qiuyu Chen, Yunnan Wang, Zequn Zhang, Xin Jin, Wenjun Zeng, | (参考訳) Disentangled representation learning (DRL) は、観測の背後にある要因を特定し分解することを目的としており、データ知覚と生成を容易にする。
しかし、現在のDRLアプローチは、意味的因子が統計的に独立であるという非現実的な仮定に依存することが多い。
実際、これらの要因は、既成の解がまだ正しく対応していない相関関係を示す可能性がある。
この課題に対処するために、複素データ内の因子化属性とその相互関係を学習する双方向重み付けグラフベースのフレームワークを導入する。
具体的には、グラフの初期ノードとして因子を抽出する$\beta$-VAEベースのモジュールを提案し、マルチモーダル大言語モデル(MLLM)を活用して遅延相関を発見し、ランク付けし、重み付きエッジを更新する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
提案手法のアンタングル化と再構成における優れた性能を示す実験を行った。
さらに、このモデルはMLLMから拡張解釈可能性と一般化可能性を引き継いでいる。
Disentangled representation learning (DRL) aims to identify and decompose underlying factors behind observations, thus facilitating data perception and generation. However, current DRL approaches often rely on the unrealistic assumption that semantic factors are statistically independent. In reality, these factors may exhibit correlations, which off-the-shelf solutions have yet to properly address. To tackle this challenge, we introduce a bidirectional weighted graph-based framework, to learn factorized attributes and their interrelations within complex data. Specifically, we propose a $\beta$-VAE based module to extract factors as the initial nodes of the graph, and leverage the multimodal large language model (MLLM) to discover and rank latent correlations, thereby updating the weighted edges. By integrating these complementary modules, our model successfully achieves fine-grained, practical and unsupervised disentanglement. Experiments demonstrate our method's superior performance in disentanglement and reconstruction. Furthermore, the model inherits enhanced interpretability and generalizability from MLLMs. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# 高次解法における異方性p適応と誤差推定のための強化学習
Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers ( http://arxiv.org/abs/2407.19000v1 ) ライセンス: Link先を確認 | David Huergo, Martín de Frutos, Eduardo Jané, Oscar A. Marino, Gonzalo Rubio, Esteban Ferrer, | (参考訳) Reinforcement Learning (RL) を用いた高次h/pソルバにおける異方性p適応の自動化と最適化のための新しい手法を提案する。
動的RL適応は、高階多項式を調整するために進化的解を用いる。
我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。
さらに、局所的な離散化誤差の定量化を可能にするRLに基づく誤差推定手法を導出する。
提案手法は計算メッシュと解く偏微分方程式の両方に非依存である。
RLのメッシュ適応への応用にはいくつかの利点がある。
これにより、自動で適応的なメッシュリファインメントが可能になり、手作業による介入の必要が軽減される。
計算資源を最適化し、必要であれば高次多項式を動的に割当て、安定な領域での洗練を最小化する。
これは解の精度を維持しながら計算コストの削減につながる。
さらに、RLは従来のメッシュ適応の探索を可能にし、シミュレーションの精度と堅牢性を高める可能性がある。
この研究は、より堅牢で再現性があり、複雑な3次元問題に適用可能なアプローチを提供することによって、我々の当初の研究を拡張します。
本稿では, 円柱, テイラー・グリーン・ボルテックス, 10MWの風力タービンによる, 提案手法の柔軟性の検証を行う。
We present a novel approach to automate and optimize anisotropic p-adaptation in high-order h/p solvers using Reinforcement Learning (RL). The dynamic RL adaptation uses the evolving solution to adjust the high-order polynomials. We develop an offline training approach, decoupled from the main solver, which shows minimal overcost when performing simulations. In addition, we derive a RL-based error estimation approach that enables the quantification of local discretization errors. The proposed methodology is agnostic to both the computational mesh and the partial differential equation being solved. The application of RL to mesh adaptation offers several benefits. It enables automated, adaptive mesh refinement, reducing the need for manual intervention. It optimizes computational resources by dynamically allocating high-order polynomials where necessary and minimizing refinement in stable regions. This leads to computational cost savings while maintaining solution accuracy. Furthermore, RL allows for the exploration of unconventional mesh adaptations, potentially enhancing the accuracy and robustness of simulations. This work extends our original research, offering a more robust, reproducible, and generalizable approach applicable to complex three-dimensional problems. We provide validation for laminar and turbulent cases: circular cylinders, Taylor Green Vortex and a 10MW wind turbine to illustrate the flexibility of the proposed approach. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# PromptCCD: 連続的なカテゴリー発見のためのガウス混合プロンプトプールの学習
PromptCCD: Learning Gaussian Mixture Prompt Pool for Continual Category Discovery ( http://arxiv.org/abs/2407.19001v1 ) ライセンス: Link先を確認 | Fernando Julio Cendra, Bingchen Zhao, Kai Han, | (参考訳) 従来型の完全教師付き連続学習においても継続するオープンな問題である破滅的な忘れ込みの課題を緩和しつつ、ラベルのないデータの連続ストリームで新しいカテゴリを自動的に発見することを目的とした、連続カテゴリー発見(Continuous Category Discovery, CCD)の問題に取り組む。
この課題に対処するために,ガウス混合モデル(GMM)をCCDのプロンプト手法として用いた,シンプルで効果的なフレームワークであるPromptCCDを提案する。
PromptCCDのコアにはGMP(Gaussian Mixture Prompting)モジュールがある。
さらに、GMPはカテゴリ番号のオンザフライ推定を可能にし、PromptCCDはカテゴリ番号の事前知識なしでラベルなしデータのカテゴリを発見できる。
我々は、一般化カテゴリー発見(GCD)の標準評価基準をCCDに拡張し、様々な公開データセットの最先端手法をベンチマークする。
PromptCCDは既存の方法よりも優れており、その有効性を示している。
プロジェクトページ: https://visual-ai.github.io/promptccd
We tackle the problem of Continual Category Discovery (CCD), which aims to automatically discover novel categories in a continuous stream of unlabeled data while mitigating the challenge of catastrophic forgetting -- an open problem that persists even in conventional, fully supervised continual learning. To address this challenge, we propose PromptCCD, a simple yet effective framework that utilizes a Gaussian Mixture Model (GMM) as a prompting method for CCD. At the core of PromptCCD lies the Gaussian Mixture Prompting (GMP) module, which acts as a dynamic pool that updates over time to facilitate representation learning and prevent forgetting during category discovery. Moreover, GMP enables on-the-fly estimation of category numbers, allowing PromptCCD to discover categories in unlabeled data without prior knowledge of the category numbers. We extend the standard evaluation metric for Generalized Category Discovery (GCD) to CCD and benchmark state-of-the-art methods on diverse public datasets. PromptCCD significantly outperforms existing methods, demonstrating its effectiveness. Project page: https://visual-ai.github.io/promptccd . | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# 高分解能セマンティックセグメンテーションのためのスパースリファインメント
Sparse Refinement for Efficient High-Resolution Semantic Segmentation ( http://arxiv.org/abs/2407.19014v1 ) ライセンス: Link先を確認 | Zhijian Liu, Zhuoyang Zhang, Samir Khaki, Shang Yang, Haotian Tang, Chenfeng Xu, Kurt Keutzer, Song Han, | (参考訳) セマンティックセグメンテーションは、自律運転や拡張現実/混合現実など、多くの現実世界の応用を促進する。
これらのアプリケーションは、細部を捉えるために高解像度の画像(例:8メガピクセル)で動くことが多い。
しかし、これは、レイテンシに敏感なシナリオでのデプロイメントを妨げる、相当な計算複雑性のコストが伴う。
本稿では,スパース高精細化による高密度低分解能予測を高速化する新しい手法であるスパースリファインを紹介する。
粗い低解像度の出力に基づいて、SparseRefineはまずエントロピーセレクタを使用して、高いエントロピーを持つスパースピクセルの集合を識別する。
次に、スパースの特徴抽出器を使用して、それらの画素の精細化を効率的に生成する。
最後に、ゲートアンサンブラを利用して、これらのスパースの改良を初期粗い予測に適用する。
SparseRefineは、CNNやViTベースに関わらず、既存のセマンティックセグメンテーションモデルにシームレスに統合できる。
SparseRefineは、HRNet-W48、SegFormer-B5、Mask2Former-T/L、SegNeXt-Lに1.5倍から3.7倍のスピードアップを実現している。
我々の"dense+sparse"パラダイムは、効率的な高解像度ビジュアルコンピューティングの道を開く。
Semantic segmentation empowers numerous real-world applications, such as autonomous driving and augmented/mixed reality. These applications often operate on high-resolution images (e.g., 8 megapixels) to capture the fine details. However, this comes at the cost of considerable computational complexity, hindering the deployment in latency-sensitive scenarios. In this paper, we introduce SparseRefine, a novel approach that enhances dense low-resolution predictions with sparse high-resolution refinements. Based on coarse low-resolution outputs, SparseRefine first uses an entropy selector to identify a sparse set of pixels with high entropy. It then employs a sparse feature extractor to efficiently generate the refinements for those pixels of interest. Finally, it leverages a gated ensembler to apply these sparse refinements to the initial coarse predictions. SparseRefine can be seamlessly integrated into any existing semantic segmentation model, regardless of CNN- or ViT-based. SparseRefine achieves significant speedup: 1.5 to 3.7 times when applied to HRNet-W48, SegFormer-B5, Mask2Former-T/L and SegNeXt-L on Cityscapes, with negligible to no loss of accuracy. Our "dense+sparse" paradigm paves the way for efficient high-resolution visual computing. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# NISQデバイスにおけるハミルトニアントラニケーションを用いた量子場理論シミュレーションの強化
Enhancing Quantum Field Theory Simulations on NISQ Devices with Hamiltonian Truncation ( http://arxiv.org/abs/2407.19022v1 ) ライセンス: Link先を確認 | James Ingoldby, Michael Spannowsky, Timur Sypchenko, Simon Williams, | (参考訳) 量子コンピュータは、量子場理論(QFT)の古典的なシミュレーションに直面する課題に対する解決策を提供する、非常に絡み合った量子システムを効率的にシミュレートすることができる。
本稿では,ハミルトントラニケーション(HT)を活用することで,QFTのリアルタイム進化をシミュレーションする従来の方法に代わる方法を提案する。
ユースケースとして、本質的な物理的性質を保ちながら、HTを介してハミルトニアンの複雑性を体系的に低減するシュウィンガーモデルについて検討する。
この論文で研究された観測可能量に対して、HTアプローチは量子ビットの数と急速に収束し、多くの量子ビットを必要とせずに興味深い物理過程を捉えることができる。
乱れたフリーハミルトニアン固有基底を量子装置の計算ベースで同定することは、複雑でコストのかかる状態の準備ルーチンを回避し、アルゴリズム全体の回路深さとコヒーレンス時間を削減する。
その結果、量子デバイス上でQFTをシミュレートするHTアプローチは、限られたキュービット数と短いコヒーレンス時間を持つノイズ・中間スケール量子(NISQ)デバイスに適している。
我々は NISQ デバイス上でシミュレーションを行い,理論予測と強い一致を示し,本手法の有効性を検証した。
量子ハードウェア上でのQFTシミュレーションにおけるHTの可能性を強調した。
Quantum computers can efficiently simulate highly entangled quantum systems, offering a solution to challenges facing classical simulation of Quantum Field Theories (QFTs). This paper presents an alternative to traditional methods for simulating the real-time evolution in QFTs by leveraging Hamiltonian Truncation (HT). As a use case, we study the Schwinger model, systematically reducing the complexity of the Hamiltonian via HT while preserving essential physical properties. For the observables studied in this paper, the HT approach converges quickly with the number of qubits, allowing for the interesting physics processes to be captured without needing many qubits. Identifying the truncated free Hamiltonian's eigenbasis with the quantum device's computational basis avoids the need for complicated and costly state preparation routines, reducing the algorithm's overall circuit depth and required coherence time. As a result, the HT approach to simulating QFTs on a quantum device is well suited to Noisy-Intermediate Scale Quantum (NISQ) devices, which have a limited number of qubits and short coherence times. We validate our approach by running simulations on a NISQ device, showcasing strong agreement with theoretical predictions. We highlight the potential of HT for simulating QFTs on quantum hardware. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# 量子鍵分布ネットワークにおけるルーティングと波長割り当て:量子古典多重化のための電力制御ヒューリスティックス
Routing and wavelength assignment in quantum key distribution networks: power control heuristics for quantum-classical multiplexing ( http://arxiv.org/abs/2407.19024v1 ) ライセンス: Link先を確認 | Lidia Ruiz, Juan Carlos Garcia-Escartin, | (参考訳) 量子鍵分布ネットワークのサイズと複雑さが大きくなるにつれ、資源割り当てはますます重要になっている。
波長変換のない受動光ネットワークでは、原点と宛先の間の全経路を有限集合から同じ波長で割り当てる必要がある。
この問題は計算集約的であり、古典光学ネットワークにおける共通解はヒューリスティックス(英語版)を用いている。
我々はこれらのヒューリスティックスを、量子チャネルが古典的なチャネルと光リンクの一部を共有できるハイブリッド量子ネットワークに適用する。
この量子古典的多重化では、非線形効果がネットワークの範囲の制限要因となる。
古典的なチャネルの信号はラマン散乱(英語版)またはフォーウェーブ・ミキシング(英語版)の対象となり、量子チャネルの光を生成する。
これらの効果は効率的ではないが、単一の光子でさえ量子チャネルを破壊できる。
本稿では,古典チャネルの電力制御を伴うハイブリッド量子古典ネットワークにおけるルーティングと波長割り当ての問題に対するヒューリスティックスを提案する。
伝送電力を最小限の機能に抑えることで、量子チャネルへの干渉を減らすことができる。
それぞれの効率を異なるシナリオで研究する。
As quantum key distribution networks grow in size and complexity, resource assignment has become increasingly important. In passive optical networks without wavelength conversion, we need to assign a full route between origin and destination with the same wavelength from a finite set. This problem is computationally intensive and the common solution in classical optical networks is using heuristics. We adapt these heuristics to hybrid quantum networks where the quantum channel can share some of the optical links with classical channels. In this quantum-classical multiplexing, nonlinear effects can become the limiting factor in the range of the network. The signal in the classical channels can be subject to Raman Scattering or Four-Wave-Mixing and produce light in the quantum channels. While these effects are not efficient, even a single photon can ruin the quantum channel. We propose heuristics for the routing and wavelength assignment problem for hybrid quantum-classical networks with power control for the classical channels. By keeping the transmitted power to its bare functional minimum, we can reduce the interference to the quantum channels. We study their efficiency under different scenarios. | 翻訳日:2024-07-30 20:12:16 公開日:2024-07-26 |
# 次数ベクトル空間上の人工ニューラルネットワーク
Artificial neural networks on graded vector spaces ( http://arxiv.org/abs/2407.19031v1 ) ライセンス: Link先を確認 | T. Shaska, | (参考訳) 我々は,データ内の異なる特徴が異なる重み(重み)を持つ場合に適した,次数付きベクトル空間のための新しい人工ニューラルネットワークモデルを開発した。
このようなモデルが数学的に設計されるのはこれが初めてであり、通常のベクトル空間上でのニューラルネットワークよりも優れた性能が期待されている。
We develop new artificial neural network models for graded vector spaces, which are suitable when different features in the data have different significance (weights). This is the first time that such models are designed mathematically and they are expected to perform better than neural networks over usual vector spaces, which are the special case when the gradings are all 1s. | 翻訳日:2024-07-30 20:12:15 公開日:2024-07-26 |
# 室温水溶液中における分子電子スピンの超高速全光コヒーレンス
Ultrafast, all-optical coherence of molecular electron spins in room-temperature, aqueous solution ( http://arxiv.org/abs/2407.19032v1 ) ライセンス: Link先を確認 | Erica Sutcliffe, Nathanael P. Kazmierczak, Ryan G. Hadt, | (参考訳) 常磁性分子のチューニング性と空間的精度は、量子センシングにとって魅力的である。
しかし、通常のマイクロ波検出法は時間分解能や空間分解能が低く、室温法と互換性のある光学的手法はいまだ解明されていない。
ここでは、ポンププローブ偏光分光法を用いて、分子内の電子スピンコヒーレンスを初期化し追跡する。
K_{2}IrCl_{6}$は、スピンを効率よく光にカップリングするために設計されたもので、室温およびマイクロモル濃度で数ピコ秒自由誘導崩壊を検出することができる。
粘度は脱コヒーレンス寿命に強く異なる。
この研究は、実験時間分解能を最大5桁改善することで、室温コヒーレンスの意味を再定義する。
そうすることで、新しい電子スピンコヒーレンス状態が明らかになり、分子量子ビットの新しい合成設計と応用への扉が開ける。
The tunability and spatial precision of paramagnetic molecules makes them attractive for quantum sensing. However, usual microwave-based detection methods have poor temporal and spatial resolution, and optical methods compatible with room-temperature solutions have remained elusive. Here, we utilize pump-probe polarization spectroscopy to initialize and track electron spin coherence in a molecule. Designed to efficiently couple spins to light, aqueous $K_{2}IrCl_{6}$ enables detection of few-picosecond free induction decay at room temperature and micromolar concentrations. Viscosity is found to strongly vary decoherence lifetimes. This work redefines the meaning of room-temperature coherence by improving experimental time resolution by up to five orders of magnitude. Doing so unveils a new regime of electron spin coherence, opening the door to new synthetic design and applications of molecular quantum bits. | 翻訳日:2024-07-30 20:12:15 公開日:2024-07-26 |
# MangaUB: 大規模なマルチモーダルモデルのためのマンガ理解ベンチマーク
MangaUB: A Manga Understanding Benchmark for Large Multimodal Models ( http://arxiv.org/abs/2407.19034v1 ) ライセンス: Link先を確認 | Hikaru Ikuta, Leslie Wöhler, Kiyoharu Aizawa, | (参考訳) 漫画(まんが)は、物語を伝えるための文体と文体を組み合わせた人気メディアである。
マンガパネルは自然画像と異なるため、伝統的にマンガ用に特別に設計された計算システムが必要であった。
近年、現代の大規模マルチモーダルモデル(LMM)の適応性は、より一般的なアプローチの可能性を示している。
マンガ理解タスクにおけるLMMの現在の能力と改善のための領域を特定するために,我々は,LMMの新しいマンガ理解ベンチマークであるMangaUBを設計,評価した。
MangaUBは、単一のパネルに表示されるコンテンツの認識と理解を評価するとともに、複数のパネルにまたがって伝達されるように設計されており、マンガの理解に必要なモデルの様々な能力を詳細に分析することができる。
以上の結果から,複数のパネルにまたがって伝達される感情や情報を理解することは依然として困難であり,マンガ理解のためのLMMに向けた今後の課題が浮き彫りにされている。
Manga is a popular medium that combines stylized drawings and text to convey stories. As manga panels differ from natural images, computational systems traditionally had to be designed specifically for manga. Recently, the adaptive nature of modern large multimodal models (LMMs) shows possibilities for more general approaches. To provide an analysis of the current capability of LMMs for manga understanding tasks and identifying areas for their improvement, we design and evaluate MangaUB, a novel manga understanding benchmark for LMMs. MangaUB is designed to assess the recognition and understanding of content shown in a single panel as well as conveyed across multiple panels, allowing for a fine-grained analysis of a model's various capabilities required for manga understanding. Our results show strong performance on the recognition of image content, while understanding the emotion and information conveyed across multiple panels is still challenging, highlighting future work towards LMMs for manga understanding. | 翻訳日:2024-07-30 20:12:15 公開日:2024-07-26 |
# ScalingGaussian: 生成ガウススプレイティングによる3Dコンテンツ作成の強化
ScalingGaussian: Enhancing 3D Content Creation with Generative Gaussian Splatting ( http://arxiv.org/abs/2407.19035v1 ) ライセンス: Link先を確認 | Shen Chen, Jiale Zhou, Zhongyu Jiang, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang, Lei Li, | (参考訳) 高品質な3Dアセットの作成は、デジタル遺産保存、エンターテイメント、ロボット工学の応用において最重要である。
伝統的に、このプロセスは3Dオブジェクトのモデリング、テクスチャ、レンダリングに熟練した専門家や専門的なソフトウェアを必要とする。
しかし、ゲームやバーチャルリアリティ(VR)における3Dアセットの需要が高まり、アクセス可能な画像から3D技術が開発され、非プロフェッショナルが3Dコンテンツを作成し、専門家の入力への依存を減らすことができるようになった。
3次元コンテンツ生成のための既存の手法は、詳細なテクスチャと強力な幾何整合性を同時に達成するために苦労している。
本稿では,3次元拡散モデルと2次元拡散モデルを組み合わせた新しい3次元コンテンツ作成フレームワークであるScalingGaussianを紹介した。
最初は3次元拡散モデルが点雲を生成し、そこで局所領域を選択し、ガウスノイズを導入し、次いで局所密度重み付き選択を用いる。
3次元ガウスを改良するために, スコア蒸留サンプリング(SDS)損失を伴う2次元拡散モデルを用いて, 3次元ガウスのクローン化と分割を誘導する。
最後に、3Dガウスはメッシュに変換され、表面テクスチャはMean Square Error(MSE)とGradient Profile Prior(GPP)の損失を使って最適化される。
本手法は3次元拡散におけるスパース点雲の共通問題に対処し,幾何学的構造と詳細なテクスチャを改良した。
画像から3Dのタスクに対する実験により,提案手法は高品質な3Dアセットを効率よく生成することを示した。
The creation of high-quality 3D assets is paramount for applications in digital heritage preservation, entertainment, and robotics. Traditionally, this process necessitates skilled professionals and specialized software for the modeling, texturing, and rendering of 3D objects. However, the rising demand for 3D assets in gaming and virtual reality (VR) has led to the creation of accessible image-to-3D technologies, allowing non-professionals to produce 3D content and decreasing dependence on expert input. Existing methods for 3D content generation struggle to simultaneously achieve detailed textures and strong geometric consistency. We introduce a novel 3D content creation framework, ScalingGaussian, which combines 3D and 2D diffusion models to achieve detailed textures and geometric consistency in generated 3D assets. Initially, a 3D diffusion model generates point clouds, which are then densified through a process of selecting local regions, introducing Gaussian noise, followed by using local density-weighted selection. To refine the 3D gaussians, we utilize a 2D diffusion model with Score Distillation Sampling (SDS) loss, guiding the 3D Gaussians to clone and split. Finally, the 3D Gaussians are converted into meshes, and the surface textures are optimized using Mean Square Error(MSE) and Gradient Profile Prior(GPP) losses. Our method addresses the common issue of sparse point clouds in 3D diffusion, resulting in improved geometric structure and detailed textures. Experiments on image-to-3D tasks demonstrate that our approach efficiently generates high-quality 3D assets. | 翻訳日:2024-07-30 20:12:15 公開日:2024-07-26 |
# 任意量子ダイナミクスのためのユニバーサル量子スイッチの設計
Designing a Universal Quantum Switch for Arbitrary Quantum Dynamics ( http://arxiv.org/abs/2407.19037v1 ) ライセンス: Link先を確認 | Priya Ghosh, Kornikar Sen, Ujjwal Sen, | (参考訳) 量子スイッチ (quantum switch) は、一般に2つ以上の量子力学の様々な因果順序の重ね合わせを生成するスーパー演算子である。
我々は、従来の量子スイッチとは異なり、CPの多様性に関わらず、任意の量子力学の異なる因果順序を重畳できる量子スイッチを構築することができる、普遍量子スイッチ(UQS)と呼ばれるプロセスを導入する。
提案手法は,従来のシステムとは対照的に,システムに接続された単一環境を考慮した量子スイッチの構築を可能にする。
さらに、UQSは、従来の量子スイッチと比較して、特定の状態判別タスクに対して、より優れた性能を提供することを示す。
次の疑問は次のとおりである: CP-divisionibility characteristic of a dynamics built by act a quantum switch on CP-divisionible or-indivisionible dynamics?
この点に関して、UQS の 2 つの CP-可分力学に対する作用によって生成される力学が CP-可分であるような例を示す。
さらに、従来の量子スイッチを2つのCP分割力学に作用させ、CP分割可能なチャネルに必要かつ十分な条件を証明した。
さらに、通常の量子スイッチを動作させると、結果のダイナミクスはCP分割可能となるだけでなく、P分割可能となるようなCP分割可能ダイナミクスの例を示す。
以上の結果から, 量子スイッチは, CP分割可能, CP分割可能, およびP分割可能ダイナミクスを生成できることを示すとともに, この手法の汎用性を裏付けるものである。
A quantum switch is a superoperator that, in general, creates a superposition of various causal orders of two or more quantum dynamics that are all divisible in the complete positivity (CP) sense. We introduce a process that we term as the universal quantum switch (UQS), which unlike conventional quantum switches, allows for the construction of a quantum switch that can superpose different causal orders of any set of quantum dynamics, regardless of their CP-divisibility. Our approach also enables the construction of a quantum switch while considering a single environment connected with the system, in contrast to the traditional one. Moreover, we show the UQS provides more advantages in performance for a certain state discrimination task compared to traditional quantum switches. The next question that we address is the following: What is the CP-divisibility characteristic of a dynamics built by acting a quantum switch on CP-divisible or -indivisible dynamics? In this regard, an example is presented where the dynamics created by the action of the UQS on two CP-indivisible dynamics is CP-indivisible. Additionally, we prove a necessary and sufficient condition for the channel created by acting the traditional quantum switch on two CP-divisible dynamics to be CP-divisible. Furthermore, we present some examples of CP-divisible dynamics on which, when the usual quantum switch is operated, the resulting dynamics not only becomes CP-indivisible but also turns into P-indivisible. Our findings demonstrate that quantum switches can build CP-divisible, CP-indivisible, and even P-indivisible dynamics from CP-divisible dynamics, underscoring the versatility of this technique. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# GraphBPE: Byte-Pairエンコーディングの分子グラフ
GraphBPE: Molecular Graphs Meet Byte-Pair Encoding ( http://arxiv.org/abs/2407.19039v1 ) ライセンス: Link先を確認 | Yuchen Shen, Barnabás Póczos, | (参考訳) 分子機械学習への注目が高まり、より良いモデルの設計やより包括的なベンチマークの提案に様々な革新が加えられた。
しかし、分子グラフの異なるビューがモデルの性能を高める可能性があるため、分子グラフのデータ前処理スケジュールについてはあまり研究されていない。
自然言語処理で広く採用されているサブワードトークン化手法であるByte-Pair Encoding(BPE)アルゴリズムに着想を得て,分子グラフを異なるサブ構造にトークン化し,モデルアーキテクチャに依存しない事前処理スケジュールとして機能するGraphBPEを提案する。
3つのグラフレベルの分類と3つのグラフレベルの回帰データセットに関する実験により、データ前処理によって分子グラフのモデルの性能が向上し、GraphBPEは小さな分類データセットに有効であり、異なるモデルアーキテクチャにおける他のトークン化手法と同等に機能することが示された。
With the increasing attention to molecular machine learning, various innovations have been made in designing better models or proposing more comprehensive benchmarks. However, less is studied on the data preprocessing schedule for molecular graphs, where a different view of the molecular graph could potentially boost the model's performance. Inspired by the Byte-Pair Encoding (BPE) algorithm, a subword tokenization method popularly adopted in Natural Language Processing, we propose GraphBPE, which tokenizes a molecular graph into different substructures and acts as a preprocessing schedule independent of the model architectures. Our experiments on 3 graph-level classification and 3 graph-level regression datasets show that data preprocessing could boost the performance of models for molecular graphs, and GraphBPE is effective for small classification datasets and it performs on par with other tokenization methods across different model architectures. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# 長短記憶(LSTM)を用いた水力発電所のタービン誘導軸受の故障予測システム
A Fault Prognostic System for the Turbine Guide Bearings of a Hydropower Plant Using Long-Short Term Memory (LSTM) ( http://arxiv.org/abs/2407.19040v1 ) ライセンス: Link先を確認 | Yasir Saleem Afridi, Mian Ibad Ali Shah, Adnan Khan, Atia Kareem, Laiq Hasan, | (参考訳) 再生可能エネルギー源である水力発電は、世界の電力需要を満たす。
したがって、水力発電所(HPP)は、常に研究のライムライトになっている。
急速な技術進歩により、我々は最先端の発電機を開発することができる。
これによりタービンの効率が向上するだけでなく、これらのシステムの複雑さも増大した。
その代わり、複雑な発電システムの効率的な運用・保守(O&M)がより困難な課題となっている。
したがって、従来の反応性アプローチからHPPを維持するためのよりインテリジェントな予測アプローチへのシフトがあった。
この研究の目的は、HPPのタービン軸受のための人工的にインテリジェントな断層予測システムを開発することである。
提案手法は,Long Short-Term Memory (LSTM) アルゴリズムを用いてモデルの開発を行う。
当初、モデルは試験リグから振動データを取り付けて訓練され、試験される。
その後、パキスタンで実施されているHPP(Supervisory Control and Data Acquisition, SCADA)システムを用いて、現実的なベアリング振動データを用いて、さらに訓練および試験を行う。
このモデルでは, 振動値の高精度な予測を行い, 極めて低いRMSEを実現している。
Hydroelectricity, being a renewable source of energy, globally fulfills the electricity demand. Hence, Hydropower Plants (HPPs) have always been in the limelight of research. The fast-paced technological advancement is enabling us to develop state-of-the-art power generation machines. This has not only resulted in improved turbine efficiency but has also increased the complexity of these systems. In lieu thereof, efficient Operation & Maintenance (O&M) of such intricate power generation systems has become a more challenging task. Therefore, there has been a shift from conventional reactive approaches to more intelligent predictive approaches in maintaining the HPPs. The research is therefore targeted to develop an artificially intelligent fault prognostics system for the turbine bearings of an HPP. The proposed method utilizes the Long Short-Term Memory (LSTM) algorithm in developing the model. Initially, the model is trained and tested with bearing vibration data from a test rig. Subsequently, it is further trained and tested with realistic bearing vibration data obtained from an HPP operating in Pakistan via the Supervisory Control and Data Acquisition (SCADA) system. The model demonstrates highly effective predictions of bearing vibration values, achieving a remarkably low RMSE. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# 大規模言語モデルによる法域における数値推定と操作効率の最適化
Optimizing Numerical Estimation and Operational Efficiency in the Legal Domain through Large Language Models ( http://arxiv.org/abs/2407.19041v1 ) ライセンス: Link先を確認 | Jia-Hong Huang, Chao-Chun Yang, Yixian Shen, Alessio M. Pacces, Evangelos Kanoulas, | (参考訳) 法的な状況は、広範囲にわたる訴訟のタイプを含み、弁護士にタイムリーで正確な情報を顧客に提供することの難しさを提示する。
法律専門家の不足が原因で、従来の法的ワークフローの効率を高める必要がある。
ディープラーニングの最近の進歩、特にLarge Language Models (LLMs)は、この課題に対する有望な解決策を提供する。
LLMの数学的推論機能を活用することで,法的な人工知能(LegalAI)アプリケーションにおける精度要件に対処する特別に設計されたプロンプトとLCMベースの方法論を統合する新たなアプローチを提案する。
提案された研究は、伝統的な法的慣行と近代的な技術進歩のギャップを埋め、よりアクセスしやすく、効率的で、公平な法体系への道を開くことを目的としている。
本手法を検証するために,精度指向の LegalAI タスクに適したキュレートデータセットを導入し,LCM ベースのアプローチを評価するためのベンチマークとして機能する。
大規模実験により,法域内での正確な数値推定を行う上での方法論の有効性が確認され,法プロセスの合理化やレガライアの要求の進展に対応する上でのLLMの役割が強調された。
The legal landscape encompasses a wide array of lawsuit types, presenting lawyers with challenges in delivering timely and accurate information to clients, particularly concerning critical aspects like potential imprisonment duration or financial repercussions. Compounded by the scarcity of legal experts, there's an urgent need to enhance the efficiency of traditional legal workflows. Recent advances in deep learning, especially Large Language Models (LLMs), offer promising solutions to this challenge. Leveraging LLMs' mathematical reasoning capabilities, we propose a novel approach integrating LLM-based methodologies with specially designed prompts to address precision requirements in legal Artificial Intelligence (LegalAI) applications. The proposed work seeks to bridge the gap between traditional legal practices and modern technological advancements, paving the way for a more accessible, efficient, and equitable legal system. To validate this method, we introduce a curated dataset tailored to precision-oriented LegalAI tasks, serving as a benchmark for evaluating LLM-based approaches. Extensive experimentation confirms the efficacy of our methodology in generating accurate numerical estimates within the legal domain, emphasizing the role of LLMs in streamlining legal processes and meeting the evolving demands of LegalAI. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# 創発的初期化スキームによるニューラルネットワーク性能の向上
Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme ( http://arxiv.org/abs/2407.19044v1 ) ライセンス: Link先を確認 | Johnny Jingze Li, Vivek Kurien George, Gabriel A. Silva, | (参考訳) 本稿では,Xavier や Kaiming などの従来の手法を改良した,比較的簡単なニューラルネットワーク初期化手法を提案する。
この手法は,Li(2023)が提案する出現対策の概念にインスパイアされ,より高い出現値を達成するために,レイヤワイド・ウェイト・スケーリング・ファクタを調整した。
この拡張は実装が容易で、GradInitと比較して初期化のための追加の最適化手順を必要としない。
我々は、画像認識のためのMLPや畳み込みアーキテクチャ、機械翻訳のためのトランスフォーマーなど、様々なアーキテクチャにおけるアプローチを評価した。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
我々の手法の単純さ、理論的革新、実証可能な経験的優位性は、ニューラルネットワークの初期化の実践を強力に強化する。
これらの結果は、出現を利用してニューラルネットワークトレーニング手法を改善するための有望な方向性を示唆している。
コードは、https://github.com/johnnyjingzeli/EmergenceInit.comで入手できる。
We introduce a novel yet straightforward neural network initialization scheme that modifies conventional methods like Xavier and Kaiming initialization. Inspired by the concept of emergence and leveraging the emergence measures proposed by Li (2023), our method adjusts the layer-wise weight scaling factors to achieve higher emergence values. This enhancement is easy to implement, requiring no additional optimization steps for initialization compared to GradInit. We evaluate our approach across various architectures, including MLP and convolutional architectures for image recognition, and transformers for machine translation. We demonstrate substantial improvements in both model accuracy and training speed, with and without batch normalization. The simplicity, theoretical innovation, and demonstrable empirical advantages of our method make it a potent enhancement to neural network initialization practices. These results suggest a promising direction for leveraging emergence to improve neural network training methodologies. Code is available at: https://github.com/johnnyjingzeli/EmergenceInit. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# アクセラレーションハードウェアを用いた小型二元相関系の高速自由推論
Rapid Likelihood Free Inference of Compact Binary Coalescences using Accelerated Hardware ( http://arxiv.org/abs/2407.19048v1 ) ライセンス: Link先を確認 | Deep Chatterjee, Ethan Marx, William Benoit, Ravi Kumar, Malina Desai, Ekaterina Govorkova, Alec Gunny, Eric Moreno, Rafia Omer, Ryan Raikman, Muhammed Saleem, Shrey Aggarwal, Michael W. Coughlin, Philip Harris, Erik Katsavounidis, | (参考訳) 正規化フローを用いた確率自由推論に基づく重力波パラメータ推定アルゴリズムAMPLFIについて報告する。
AMPLFIの焦点は、機械学習に基づくコンパクトなバイナリ合体探索であるAframeによって検出された候補に対して、リアルタイムなパラメータ推定を行うことである。
本稿では,高速化ハードウェア上でのデータローディングと事前処理に関するアルゴリズムと最適化について述べる。
我々は,実LIGO-Virgo検出器ノイズに対する二元ブラックホール(BBH)シミュレーションを用いてモデルを訓練する。
私たちのモデルは、トレーニングタイムが$\lesssim 24$ hoursのトレーニング可能なパラメータが$\sim 6$000である。
LIGO-Virgoデータのモックデータストリームへのオンラインデプロイに基づいて、Aframe + AMPLFIはBBH候補をピックアップし、データ取得からリアルタイムアラートのパラメータを$\sim 6$sで推論することができる。
We report a gravitational-wave parameter estimation algorithm, AMPLFI, based on likelihood-free inference using normalizing flows. The focus of AMPLFI is to perform real-time parameter estimation for candidates detected by machine-learning based compact binary coalescence search, Aframe. We present details of our algorithm and optimizations done related to data-loading and pre-processing on accelerated hardware. We train our model using binary black-hole (BBH) simulations on real LIGO-Virgo detector noise. Our model has $\sim 6$ million trainable parameters with training times $\lesssim 24$ hours. Based on online deployment on a mock data stream of LIGO-Virgo data, Aframe + AMPLFI is able to pick up BBH candidates and infer parameters for real-time alerts from data acquisition with a net latency of $\sim 6$s. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# IoTトラフィック分類のためのトランスフォーマーベース事前学習モデルに向けて
Towards a Transformer-Based Pre-trained Model for IoT Traffic Classification ( http://arxiv.org/abs/2407.19051v1 ) ライセンス: Link先を確認 | Bruna Bazaluk, Mosab Hamdan, Mustafa Ghaleb, Mohammed S. M. Gismalla, Flavio S. Correa da Silva, Daniel Macêdo Batista, | (参考訳) IoTトラフィックの分類は、IoTベースのネットワークの効率性とセキュリティを改善するために重要である。
最先端の分類手法はDeep Learningに基づいているため、現在の結果のほとんどは、大量のデータをトレーニングする必要がある。
これにより、IoTトラフィックデータが少ない現実の状況では、モデルはそれほどうまく機能しない。
その結果、これらのモデルは初期のトレーニング条件外では性能が悪く、ネットワークトラフィックの複雑な特性を捉えることができず、現実のアプリケーションでは非効率で信頼性が低い。
本稿では,TabTransformer と呼ばれる最先端のトランスフォーマーモデルを利用した新しい手法である IoT Traffic Classification Transformer (ITCT) を提案する。
ITCTはMQTTベースの大規模なIoTトラフィックデータセットで事前トレーニングされており、ラベル付きデータの小さなセットで微調整される可能性があるため、さまざまなトラフィック分類タスクで有望な結果を示している。
実験の結果,ITCTモデルは既存モデルよりも有意に優れ,全体の精度は82%であった。
再現性と共同開発をサポートするため、関連するすべてのコードが公開されている。
The classification of IoT traffic is important to improve the efficiency and security of IoT-based networks. As the state-of-the-art classification methods are based on Deep Learning, most of the current results require a large amount of data to be trained. Thereby, in real-life situations, where there is a scarce amount of IoT traffic data, the models would not perform so well. Consequently, these models underperform outside their initial training conditions and fail to capture the complex characteristics of network traffic, rendering them inefficient and unreliable in real-world applications. In this paper, we propose IoT Traffic Classification Transformer (ITCT), a novel approach that utilizes the state-of-the-art transformer-based model named TabTransformer. ITCT, which is pre-trained on a large labeled MQTT-based IoT traffic dataset and may be fine-tuned with a small set of labeled data, showed promising results in various traffic classification tasks. Our experiments demonstrated that the ITCT model significantly outperforms existing models, achieving an overall accuracy of 82%. To support reproducibility and collaborative development, all associated code has been made publicly available. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# Androidアプリにおける非クラッシュ機能バグ検出のためのマルチモーダルLCMの検討
A Study of Using Multimodal LLMs for Non-Crash Functional Bug Detection in Android Apps ( http://arxiv.org/abs/2407.19053v1 ) ライセンス: Link先を確認 | Bangyan Ju, Jin Yang, Tingting Yu, Tamerlan Abdullayev, Yuanyuan Wu, Dingbang Wang, Yu Zhao, | (参考訳) モバイルアプリのグラフィカルユーザインタフェース(GUI)をテストするために,様々な戦略を用いた多くのアプローチが開発されている。
しかし、乱数やモデルベースのテストのような従来のGUIテスト技術は、主に高いコードカバレッジを達成するのに優れているが、非クラッシュ機能(NCF)バグ検出の効果的なテストオラクルとして機能しないテストシーケンスを生成することに重点を置いている。
これらの制限に対処するため,本研究では,AndroidアプリのNCFバグを検出するために,大規模な言語モデル(LLM)をオーラクルとして活用する能力を実証的に検討した。
我々の直感は、広範囲のモバイルアプリ使用やバグレポート記述を含むLLMのトレーニングコーパスによって、NCFバグ検出に関連するドメイン知識を活用できるということです。
71個のNCFバグに対して,AndroidアプリのNCFバグを検出するための試薬としてLLMの有効性を検討するための総合的研究を行った。
その結果、LSMは49%のバグ検出率を実現しており、AndroidアプリのNCFバグを検出する既存のツールよりも優れていた。
さらに、LLMをオーラクルとして活用することで、64のAndroidアプリで、これまで未知のNCFバグが24件検出され、そのうち4件が確認または修正されました。
しかし, LLMの限界は, 主に性能劣化, 固有のランダム性, 偽陽性に関係している。
本研究は,Android NCFバグ検出におけるLCMをテストオーラクルとして活用する可能性を強調し,今後の研究の方向性を提案する。
Numerous approaches employing various strategies have been developed to test the graphical user interfaces (GUIs) of mobile apps. However, traditional GUI testing techniques, such as random and model-based testing, primarily focus on generating test sequences that excel in achieving high code coverage but often fail to act as effective test oracles for non-crash functional (NCF) bug detection. To tackle these limitations, this study empirically investigates the capability of leveraging large language models (LLMs) to be test oracles to detect NCF bugs in Android apps. Our intuition is that the training corpora of LLMs, encompassing extensive mobile app usage and bug report descriptions, enable them with the domain knowledge relevant to NCF bug detection. We conducted a comprehensive empirical study to explore the effectiveness of LLMs as test oracles for detecting NCF bugs in Android apps on 71 well-documented NCF bugs. The results demonstrated that LLMs achieve a 49% bug detection rate, outperforming existing tools for detecting NCF bugs in Android apps. Additionally, by leveraging LLMs to be test oracles, we successfully detected 24 previously unknown NCF bugs in 64 Android apps, with four of these bugs being confirmed or fixed. However, we also identified limitations of LLMs, primarily related to performance degradation, inherent randomness, and false positives. Our study highlights the potential of leveraging LLMs as test oracles for Android NCF bug detection and suggests directions for future research. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# Flusion: 正確なインフルエンザ予測のための複数のデータソースの統合
Flusion: Integrating multiple data sources for accurate influenza predictions ( http://arxiv.org/abs/2407.19054v1 ) ライセンス: Link先を確認 | Evan L. Ray, Yijin Wang, Russell D. Wolfinger, Nicholas G. Reich, | (参考訳) 過去10年間、アメリカ疾病予防管理センター(CDC)は、正確な確率的予測が状況認識を改善し、より効果的な公衆衛生行動をもたらすという動機から、毎年インフルエンザの予測課題を組織してきた。
2021/22インフルエンザシーズン以降、この課題の予測対象はCDCのNHSN(National Healthcare Safety Network)監視システムで報告された病院の入院に基づく。
NHSNによるインフルエンザ病院入院の報告は、ここ数年のうちに始まり、この信号には限られた史料しか残っていない。
対象監視システムに限られたデータが存在する場合の予測を行うため、より長い歴史記録を持つ2つの信号でこれらのデータを拡張した。
1) ILI+は、外来の医師がインフルエンザに罹患した場所を訪問する割合を推定し、
2) 特定医療施設におけるインフルエンザ入院率について検討した。
我々のモデルであるFlusionは、量子レグレッションモデルの勾配をベイズ自己回帰モデルと組み合わせたアンサンブルである。
勾配促進モデルは3つのデータ信号全てで訓練され、自己回帰モデルは目標信号のみで訓練され、全てのモデルは複数の場所のデータで共同訓練された。
フラクションは、2023/24シーズンにおけるCDCのインフルエンザ予測における最高パフォーマンスモデルであった。
本稿では,Flusionの成功に寄与する要因について検討し,その強力な性能は,複数の監視信号や位置からのデータを共同でトレーニングした勾配押し上げモデルを使用することによってもたらされたことが確認された。
これらの結果は、位置情報と監視信号間で情報を共有することの価値を示している。
Over the last ten years, the US Centers for Disease Control and Prevention (CDC) has organized an annual influenza forecasting challenge with the motivation that accurate probabilistic forecasts could improve situational awareness and yield more effective public health actions. Starting with the 2021/22 influenza season, the forecasting targets for this challenge have been based on hospital admissions reported in the CDC's National Healthcare Safety Network (NHSN) surveillance system. Reporting of influenza hospital admissions through NHSN began within the last few years, and as such only a limited amount of historical data are available for this signal. To produce forecasts in the presence of limited data for the target surveillance system, we augmented these data with two signals that have a longer historical record: 1) ILI+, which estimates the proportion of outpatient doctor visits where the patient has influenza; and 2) rates of laboratory-confirmed influenza hospitalizations at a selected set of healthcare facilities. Our model, Flusion, is an ensemble that combines gradient boosting quantile regression models with a Bayesian autoregressive model. The gradient boosting models were trained on all three data signals, while the autoregressive model was trained on only the target signal; all models were trained jointly on data for multiple locations. Flusion was the top-performing model in the CDC's influenza prediction challenge for the 2023/24 season. In this article we investigate the factors contributing to Flusion's success, and we find that its strong performance was primarily driven by the use of a gradient boosting model that was trained jointly on data from multiple surveillance signals and locations. These results indicate the value of sharing information across locations and surveillance signals, especially when doing so adds to the pool of available training data. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# 最優先木探索による効率的な大規模言語モデルデバッグ
Effective Large Language Model Debugging with Best-first Tree Search ( http://arxiv.org/abs/2407.19055v1 ) ライセンス: Link先を確認 | Jialin Song, Jonathan Raiman, Bryan Catanzaro, | (参考訳) 大きな言語モデル(LLM)は、コード生成タスクの約束を示す。
しかし、それらのコード記述能力はスコープに限られることが多く、単純な関数をうまく実装できるが、より複雑なタスクに苦しむ。
LLMが人間のプログラマと比べてどのようにコードを書くかという根本的な違いは、バグの発見と修正を一貫して行えないことです。
デバッグはプログラマにとって重要なスキルであり、正しい実装に向けて反復的なコード修正を可能にする。
本研究では,LLMが自己回帰と探索によってコードをデバッグできる新しいアルゴリズムを提案する。
私たちの主な貢献は
1) 3つのコード生成ベンチマークにおいて、最先端のPass@1を達成する自己回帰型木探索アルゴリズム(BESTER)を提案する。
BESTERは,木探索による追加推論コストを考慮したパスレートの測定において,その優位性を維持している。
2)バギープログラムにおける自己回帰の関与とバグ修正への影響に関する新たな解釈可能性の研究により,デバッグプロセスの理解を深めることができた。
3) 自己回帰がいつバグ発見に有効かに関する広範な研究。
Large Language Models (LLMs) show promise in code generation tasks. However, their code-writing abilities are often limited in scope: while they can successfully implement simple functions, they struggle with more complex tasks. A fundamental difference with how an LLM writes code, compared to a human programmer, is that it cannot consistently spot and fix bugs. Debugging is a crucial skill for programmers and it enables iterative code refinement towards a correct implementation. In this work, we propose a novel algorithm to enable LLMs to debug their code via self-reflection and search where a model attempts to identify its previous mistakes. Our key contributions are 1) a best-first tree search algorithm with self-reflections (BESTER) that achieves state-of-the-art Pass@1 in three code generation benchmarks. BESTER maintains its superiority when we measure pass rates taking into account additional inference costs incurred by tree search. 2) A novel interpretability study on what self-reflections attend to in buggy programs and how they impact bug fixes, which provides a deeper understanding of the debugging process. 3) An extensive study on when self-reflections are effective in finding bugs. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# OfficeBench: Office自動化のための複数のアプリケーションにわたる言語エージェントのベンチマーク
OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation ( http://arxiv.org/abs/2407.19056v1 ) ライセンス: Link先を確認 | Zilong Wang, Yuedong Cui, Li Zhong, Zimin Zhang, Da Yin, Bill Yuchen Lin, Jingbo Shang, | (参考訳) Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
従来のAI文献の多くで研究されている基本的な情報抽出以外にも、オフィス自動化の研究は、オフィスシステムに様々な情報ソースを統合し、一連の意思決定プロセスを通じてアウトプットを生成する必要がある、より現実的なオフィスタスクにまで拡張されるべきである。
私たちは、オフィスワークフローにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための最初のオフィス自動化ベンチマークであるOfficeBenchを紹介します。
OfficeBench は LLM エージェントに対して,実行可能な長期計画の実行,タイムリーにアプリケーションの切り替え,ワークフローのコンテキスト要求に基づいて,大規模な複合アクション空間内でのアクションの正確なグラウンドなどを要求する。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
しかし、これは現実世界のオフィスワークフローに必要な人的パフォーマンスと精度の基準よりはるかに低い。
さらに、ほとんどの問題は、運用の冗長性と幻覚、および複数のアプリケーション間の切り替えの制限に関連しており、オフィス自動化のための効果的なエージェントフレームワークを開発する上で貴重な洞察を提供する可能性があることを観察する。
Office automation significantly enhances human productivity by automatically finishing routine tasks in the workflow. Beyond the basic information extraction studied in much of the prior document AI literature, the office automation research should be extended to more realistic office tasks which require to integrate various information sources in the office system and produce outputs through a series of decision-making processes. We introduce OfficeBench, one of the first office automation benchmarks for evaluating current LLM agents' capability to address office tasks in realistic office workflows. OfficeBench requires LLM agents to perform feasible long-horizon planning, proficiently switch between applications in a timely manner, and accurately ground their actions within a large combined action space, based on the contextual demands of the workflow. Applying our customized evaluation methods on each task, we find that GPT-4 Omni achieves the highest pass rate of 47.00%, demonstrating a decent performance in handling office tasks. However, this is still far below the human performance and accuracy standards required by real-world office workflows. We further observe that most issues are related to operation redundancy and hallucinations, as well as limitations in switching between multiple applications, which may provide valuable insights for developing effective agent frameworks for office automation. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# 非物理的準確率と非局所性客観性の関係
A Relationship Between Nonphysical Quasi-probabilities and Nonlocality Objectivity ( http://arxiv.org/abs/2407.19061v1 ) ライセンス: Link先を確認 | Colm Kelleher, | (参考訳) 密度行列は、純粋状態と混合状態の両方をカバーする、量子状態の最も一般的な記述である。
正の半定性は密度行列の物理的要件であり、物理値を測定する非負の確率を示唆する。
別々に、非局所性はいくつかの二部量子系によって共有される性質であり、局所古典変数では説明できない成分部分の相関を示す。
本研究では,正の半無限条件を破り,負の最小固有値がゼロに近い状態が任意に成立することを示し,ラベリングが交換されたときの非局所な状態の構成を可能にする。
これは観測者に依存しない非局所性であり、非局所的客観主義と負準確率の間の関係を示す。
Density matrices are the most general descriptions of quantum states, covering both pure and mixed states. Positive semidefiniteness is a physical requirement of density matrices, imposing nonnegative probabilities of measuring physical values. Separately, nonlocality is a property shared by some bipartite quantum systems, indicating a correlation of the component parts that cannot be described by local classical variables. In this work, we show that breaking the positive-semidefinite requirement and allowing states with a negative minimal eigenvalue arbitrarily close to zero, allows for the construction of states that are nonlocal under one component labelling but local when the labelling is interchanged. This is an observer-dependent nonlocality, showing the connection between nonlocal objectivism and negative quasi-probabilities. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# 3次元ポーズ推定のためのフレキシブルグラフ畳み込みネットワーク
Flexible graph convolutional network for 3D human pose estimation ( http://arxiv.org/abs/2407.19077v1 ) ライセンス: Link先を確認 | Abu Taib Mohammed Shahjahan, A. Ben Hamza, | (参考訳) グラフ畳み込みネットワークは、人間の3次元ポーズ推定において有望な性能を示すが、片足の隣人への依存は、咬合や奥行きのあいまいさによる不確実性を軽減するために欠かせない、体節間の高次依存関係を捕捉する能力を制限する。
この制限に対処するために、より広範なグローバル情報や依存関係をキャプチャするグラフ表現を学習するために設計されたフレキシブルなグラフ畳み込みネットワークであるFlex-GCNを紹介します。
中心となるのはフレキシブルグラフの畳み込みであり、これは各ノードの即時および二階隣の機能を集約し、標準の畳み込みと同じ時間とメモリの複雑さを維持する。
我々のネットワークアーキテクチャは、フレキシブルグラフ畳み込み層の残留ブロックと、グローバルな特徴集約、正規化、キャリブレーションのためのグローバル応答正規化層から構成される。
定量的および定性的な結果から,ベンチマークデータセット上での競合性能を向上し,本モデルの有効性を示す。
Although graph convolutional networks exhibit promising performance in 3D human pose estimation, their reliance on one-hop neighbors limits their ability to capture high-order dependencies among body joints, crucial for mitigating uncertainty arising from occlusion or depth ambiguity. To tackle this limitation, we introduce Flex-GCN, a flexible graph convolutional network designed to learn graph representations that capture broader global information and dependencies. At its core is the flexible graph convolution, which aggregates features from both immediate and second-order neighbors of each node, while maintaining the same time and memory complexity as the standard convolution. Our network architecture comprises residual blocks of flexible graph convolutional layers, as well as a global response normalization layer for global feature aggregation, normalization and calibration. Quantitative and qualitative results demonstrate the effectiveness of our model, achieving competitive performance on benchmark datasets. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# Causally-Informed Machine Learning を用いたUberのマーケットプレース最適化
Practical Marketplace Optimization at Uber Using Causally-Informed Machine Learning ( http://arxiv.org/abs/2407.19078v1 ) ライセンス: Link先を確認 | Bobby Chen, Siyu Chen, Jason Dowlatabadi, Yu Xuan Hong, Vinayak Iyer, Uday Mantripragada, Rishabh Narang, Apoorv Pandey, Zijun Qin, Abrar Sheikh, Hongtao Sun, Jiaqi Sun, Matthew Walker, Kaichen Wei, Chen Xu, Jingnan Yang, Allen T. Zhang, Guoqing Zhang, | (参考訳) ドライバーのインセンティブやライダーのプロモーションといったマーケットプレースレバーの予算配分は、長年Uberの技術的・ビジネス上の課題であり、レバーの予算変更の影響を理解し、ビジネス価値を最大化する最適なアロケーションを目標としてコスト効率を見積もっていること、機能ストア、モデルトレーニング、サービス、オプティマイザ、バックテストに依存する都市での予算決定を自動化するためのエンドツーエンドの機械学習と最適化手順を導入すること、S-Learnerと新しいテンソルB-Spline回帰モデルに基づく最先端のディープラーニング(DL)推定器を提案すること、ADMMとプリミティブインテリア・ポイント・コンベックスによる高次元の最適化、Uberのリソース確保を大幅に改善すること、などである。
Budget allocation of marketplace levers, such as incentives for drivers and promotions for riders, has long been a technical and business challenge at Uber; understanding lever budget changes' impact and estimating cost efficiency to achieve predefined budgets is crucial, with the goal of optimal allocations that maximize business value; we introduce an end-to-end machine learning and optimization procedure to automate budget decision-making for cities, relying on feature store, model training and serving, optimizers, and backtesting; proposing state-of-the-art deep learning (DL) estimator based on S-Learner and a novel tensor B-Spline regression model, we solve high-dimensional optimization with ADMM and primal-dual interior point convex optimization, substantially improving Uber's resource allocation efficiency. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# 一般化正規分布の強化--機械学習と演算知識の統合
Boosted generalized normal distributions: Integrating machine learning with operations knowledge ( http://arxiv.org/abs/2407.19092v1 ) ライセンス: Link先を確認 | Ragip Gurlek, Francis de Vericourt, Donald K. K. Lee, | (参考訳) 機械学習(ML)技術の運用環境への適用は、しばしば2つの課題に直面します。
一 主に点予測を行うML手法であって、多くの運用上の問題には分布情報が必要であること。
二 通常、業務文献、特に特定の分布を特徴づける理論的及び実証的な知見に広範な知識を取り入れない。
本稿では,これらの課題に対処するため,新しい厳密な方法論であるBoosted Generalized Normal Distribution(GND)を紹介する。
一般正規分布(GND)は、操作でよく見られる幅広いパラメトリック分布を包含し、$b$GNDは、木学習者による勾配上昇を利用して、GNDのパラメータを共変量の関数として柔軟に推定する。
我々は、$b$GNDの統計的整合性を確立し、そのような保証を欠いたML文献で研究された特別な事例にこの鍵特性を拡張した。
米国における大規模大学救急部門のデータを用いて,患者の待ち時間とサービス時間の分布予測は,医療活動文献の知見を活用すれば有意に改善できることを示す。
具体的には、$b$GNDは、それぞれ待ち時間とサービス時間を予測するために使用される分散に依存しないMLベンチマークよりも6%と9%パフォーマンスがよい。
さらに分析したところ、これらの改善は患者の満足度を9%増加させ、心筋梗塞患者の死亡率を4%低下させることが示唆された。
本研究は,MLを運用知識と統合し,分散予測を強化することの重要性を浮き彫りにする。
Applications of machine learning (ML) techniques to operational settings often face two challenges: i) ML methods mostly provide point predictions whereas many operational problems require distributional information; and ii) They typically do not incorporate the extensive body of knowledge in the operations literature, particularly the theoretical and empirical findings that characterize specific distributions. We introduce a novel and rigorous methodology, the Boosted Generalized Normal Distribution ($b$GND), to address these challenges. The Generalized Normal Distribution (GND) encompasses a wide range of parametric distributions commonly encountered in operations, and $b$GND leverages gradient boosting with tree learners to flexibly estimate the parameters of the GND as functions of covariates. We establish $b$GND's statistical consistency, thereby extending this key property to special cases studied in the ML literature that lacked such guarantees. Using data from a large academic emergency department in the United States, we show that the distributional forecasting of patient wait and service times can be meaningfully improved by leveraging findings from the healthcare operations literature. Specifically, $b$GND performs 6% and 9% better than the distribution-agnostic ML benchmark used to forecast wait and service times respectively. Further analysis suggests that these improvements translate into a 9% increase in patient satisfaction and a 4% reduction in mortality for myocardial infarction patients. Our work underscores the importance of integrating ML with operations knowledge to enhance distributional forecasts. | 翻訳日:2024-07-30 20:02:28 公開日:2024-07-26 |
# UniForensics:一般顔表現による顔偽造検出
UniForensics: Face Forgery Detection via General Facial Representation ( http://arxiv.org/abs/2407.19079v1 ) ライセンス: Link先を確認 | Ziyuan Fang, Hanqing Zhao, Tianyi Wei, Wenbo Zhou, Ming Wan, Zhanyi Wang, Weiming Zhang, Nenghai Yu, | (参考訳) 従来のディープフェイク検出法は、主に摂動に弱い低レベルのテクスチャ特徴と、目に見えない偽造検出方法の欠如に依存していた。
対照的に、高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
そこで本稿では,顔の高レベルな意味的特徴を利用して時間領域の不整合を識別する検出手法を提案する。
我々は,変圧器を用いた映像分類ネットワークを利用した新しいディープフェイク検出フレームワークUniForensicsを紹介した。
このようにして、強力な時空間モデルと顔の高レベルの意味情報の両方を活用できる。
さらに、容易にアクセス可能な実顔データを活用し、時空間特徴に着目してモデルを導出するために、実顔映像を用いて時空間の多様なフォージェリートレースを用いたトレーニングサンプルを効率よく生成する動的ビデオセルフブレンディング(DVSB)法を設計する。
第1段階では、ネットワークが、同じ偽造プロセスによって生成されたビデオに同様の表現を持つように促すことで、偽造トレースに焦点を合わせることを奨励する、新しい自己監督型コントラスト学習を採用しています。
第1段で学習した表現に基づいて、第2段は、ディープフェイク検出器を構築するために顔偽造検出データセットを微調整する。
広汎な実験により、UniForensicsは、一般化能力と堅牢性において、既存の顔偽造法より優れていることが検証された。
特に,本手法は,Celeb-DFv2 と DFDC でそれぞれ 95.3\% と 77.2\% のクロスデータセット AUC を実現する。
Previous deepfake detection methods mostly depend on low-level textural features vulnerable to perturbations and fall short of detecting unseen forgery methods. In contrast, high-level semantic features are less susceptible to perturbations and not limited to forgery-specific artifacts, thus having stronger generalization. Motivated by this, we propose a detection method that utilizes high-level semantic features of faces to identify inconsistencies in temporal domain. We introduce UniForensics, a novel deepfake detection framework that leverages a transformer-based video classification network, initialized with a meta-functional face encoder for enriched facial representation. In this way, we can take advantage of both the powerful spatio-temporal model and the high-level semantic information of faces. Furthermore, to leverage easily accessible real face data and guide the model in focusing on spatio-temporal features, we design a Dynamic Video Self-Blending (DVSB) method to efficiently generate training samples with diverse spatio-temporal forgery traces using real facial videos. Based on this, we advance our framework with a two-stage training approach: The first stage employs a novel self-supervised contrastive learning, where we encourage the network to focus on forgery traces by impelling videos generated by the same forgery process to have similar representations. On the basis of the representation learned in the first stage, the second stage involves fine-tuning on face forgery detection dataset to build a deepfake detector. Extensive experiments validates that UniForensics outperforms existing face forgery methods in generalization ability and robustness. In particular, our method achieves 95.3\% and 77.2\% cross dataset AUC on the challenging Celeb-DFv2 and DFDC respectively. | 翻訳日:2024-07-30 19:52:45 公開日:2024-07-26 |
# 誤り認識シーン表現ネットワークのための正規化マルチデコーダアンサンブル
Regularized Multi-Decoder Ensemble for an Error-Aware Scene Representation Network ( http://arxiv.org/abs/2407.19082v1 ) ライセンス: Link先を確認 | Tianyu Xiong, Skylar W. Wurster, Hanqi Guo, Tom Peterka, Han-Wei Shen, | (参考訳) SRN(Feature Grid Scene Representation Networks)は、分析と可視化のためのコンパクトな機能的サロゲートとして科学データに適用されている。
SRNはブラックボックスのロッキーなデータ表現であるため、科学的可視化アプリケーションにとって予測品質を評価することは、科学者が可視化されている情報を確実に信頼するために重要である。
現在、既存のアーキテクチャは、基底真理データがない場合には座標レベルの誤差を評価できないため、推論時間再構成品質評価をサポートしていない。
マルチ層パーセプトロンデコーダを用いた共有特徴格子で構成されるパラメータ効率のよいマルチデコーダSRN(MDSRN)アンサンブルアーキテクチャを提案する。
MDSRNは、与えられた入力座標に対する妥当な予測セットを生成し、その平均をマルチデコーダアンサンブルの予測および信頼性スコアとしての分散を計算する。
座標レベルの分散は、データとともにレンダリングして再構成品質を知らせたり、不確実性を認識したボリューム可視化アルゴリズムに統合することができる。
そこで本研究では,正規化マルチデコーダSRN(RMDSRN)を推進し,真のモデル誤差と密接に相関する信頼性の高い分散を求めるアンサンブル学習のための新しい分散正規化損失を提案する。
我々は,モンテカルロ・ドロップアウト,平均場変動推定,深部アンサンブル,予測変数の分散定量化とデータ再構成の質を,様々なスカラーフィールドデータセットで提案したMDSRNとRMDSRNと比較して総合的に評価した。
我々は、RMDSRNが、同一のニューラルネットワークパラメータ予算の下で、不確実なSRN間で最も正確なデータ再構成および競合分散エラー相関を実現することを実証した。
Feature grid Scene Representation Networks (SRNs) have been applied to scientific data as compact functional surrogates for analysis and visualization. As SRNs are black-box lossy data representations, assessing the prediction quality is critical for scientific visualization applications to ensure that scientists can trust the information being visualized. Currently, existing architectures do not support inference time reconstruction quality assessment, as coordinate-level errors cannot be evaluated in the absence of ground truth data. We propose a parameter-efficient multi-decoder SRN (MDSRN) ensemble architecture consisting of a shared feature grid with multiple lightweight multi-layer perceptron decoders. MDSRN can generate a set of plausible predictions for a given input coordinate to compute the mean as the prediction of the multi-decoder ensemble and the variance as a confidence score. The coordinate-level variance can be rendered along with the data to inform the reconstruction quality, or be integrated into uncertainty-aware volume visualization algorithms. To prevent the misalignment between the quantified variance and the prediction quality, we propose a novel variance regularization loss for ensemble learning that promotes the Regularized multi-decoder SRN (RMDSRN) to obtain a more reliable variance that correlates closely to the true model error. We comprehensively evaluate the quality of variance quantification and data reconstruction of Monte Carlo Dropout, Mean Field Variational Inference, Deep Ensemble, and Predicting Variance compared to the proposed MDSRN and RMDSRN across diverse scalar field datasets. We demonstrate that RMDSRN attains the most accurate data reconstruction and competitive variance-error correlation among uncertain SRNs under the same neural network parameter budgets. | 翻訳日:2024-07-30 19:52:45 公開日:2024-07-26 |
# 再分析データ(Sup3rWind)からの風による再生可能エネルギー資源データの超解法とウクライナへの適用
Super Resolution for Renewable Energy Resource Data With Wind From Reanalysis Data (Sup3rWind) and Application to Ukraine ( http://arxiv.org/abs/2407.19086v1 ) ライセンス: Link先を確認 | Brandon N. Benton, Grant Buster, Pavlo Pinchuk, Andrew Glaws, Ryan N. King, Galen Maclaurin, Ilya Chernyakhovskiy, | (参考訳) 発電能力とエネルギーを提供するために風力に依存している電力網のシェアが増加し、歴史的に正確な高解像度の風データに対する世界的な需要が拡大している。
これらのデータを生成するための従来のダウンスケーリング手法は、計算負荷が高く、履歴の正確性のために広範囲なチューニングが必要である。
本研究では,欧州気象予報データ5データ(ERA5)から歴史的に高精度な風力資源データを生成するために,GAN(Generative Adversarial Network)を用いた新しい深層学習に基づく時空間ダウンスケーリング手法を提案する。
ERA5の低分解能入力と高分解能ターゲットをWind Integration National Datasetからトレーニングすることで,従来のダウンスケーリングに匹敵する履歴的精度と時空間的変動を達成し,動的ダウンスケーリングよりも2桁のスケールで計算コストを削減した。
時空間クロスバリデーションは、観測値と低い誤差と高い相関を示し、物理メトリクスの分布にまたがるホールドアウトデータとの良好な一致を示す。
本研究では,2000年1月から2023年12月までの2kmの風速データに対して,東欧の複数のハブ高度で30kmのERA5データをダウンスケールする手法を適用した。
不確実性は、観測データとともに、欧州中距離気象予報連合(European Centre for Medium-Range Weather Forecasting Ensemble of Data Assimilations)のメンバーをさらにダウンスケールすることで推定される。
気象同化データ収集システムと複数の風力発電所の観測データと比較すると,CONUSの検証結果に匹敵する性能を示した。
この24年のデータ記録は、再分析データデータセット(Sup3rWind)からの風による再生可能エネルギー資源データの超解像度の最初のメンバーである。
With an increasing share of the electricity grid relying on wind to provide generating capacity and energy, there is an expanding global need for historically accurate high-resolution wind data. Conventional downscaling methods for generating these data have a high computational burden and require extensive tuning for historical accuracy. In this work, we present a novel deep learning-based spatiotemporal downscaling method, using generative adversarial networks (GANs), for generating historically accurate high-resolution wind resource data from the European Centre for Medium-Range Weather Forecasting Reanalysis version 5 data (ERA5). We achieve results comparable in historical accuracy and spatiotemporal variability to conventional downscaling by training a GAN model with ERA5 low-resolution input and high-resolution targets from the Wind Integration National Dataset, while reducing computational costs over dynamical downscaling by two orders of magnitude. Spatiotemporal cross-validation shows low error and high correlations with observations and excellent agreement with holdout data across distributions of physical metrics. We apply this approach to downscale 30-km hourly ERA5 data to 2-km 5-minute wind data for January 2000 through December 2023 at multiple hub heights over Eastern Europe. Uncertainty is estimated over the period with observational data by additionally downscaling the members of the European Centre for Medium-Range Weather Forecasting Ensemble of Data Assimilations. Comparisons against observational data from the Meteorological Assimilation Data Ingest System and multiple wind farms show comparable performance to the CONUS validation. This 24-year data record is the first member of the super resolution for renewable energy resource data with wind from reanalysis data dataset (Sup3rWind). | 翻訳日:2024-07-30 19:52:45 公開日:2024-07-26 |
# 構成可能なシステムにおけるコンパイル誤差の同定におけるLCMの能力評価
Evaluating the Capability of LLMs in Identifying Compilation Errors in Configurable Systems ( http://arxiv.org/abs/2407.19087v1 ) ライセンス: Link先を確認 | Lucas Albuquerque, Rohit Gheyi, Márcio Ribeiro, | (参考訳) コンパイルはLinuxのような構成可能なシステムを開発する上で重要なプロセスである。
しかし、従来のコンパイラは可変性を意識していないため、構成可能なシステムでコンパイルエラーを特定することは簡単ではない。
これらのコンパイルエラーを検知する以前のアプローチは、プログラマの多大な努力を必要とする高度な技術に依存していることが多い。
本研究では,大規模言語モデル(LLM),特にChatGPT4,Le Chat Mistral,Gemini Advanced 1.5の有効性について検討した。
最初は、C++、Java、C言語で50の小さな製品を評価し、その後C言語で30の小さな構成可能なシステムが17種類のコンパイルエラーをカバーしました。
ChatGPT4は個々の製品や構成可能なシステムでほとんどのコンパイルエラーを検知し、Le Chat MistralとGemini Advanced 1.5はそれらのいくつかを検出した。
LLMは開発者が構成可能なシステムでコンパイルエラーを識別するのを補助する可能性を示している。
Compilation is an important process in developing configurable systems, such as Linux. However, identifying compilation errors in configurable systems is not straightforward because traditional compilers are not variability-aware. Previous approaches that detect some of these compilation errors often rely on advanced techniques that require significant effort from programmers. This study evaluates the efficacy of Large Language Models (LLMs), specifically ChatGPT4, Le Chat Mistral and Gemini Advanced 1.5, in identifying compilation errors in configurable systems. Initially, we evaluate 50 small products in C++, Java, and C languages, followed by 30 small configurable systems in C, covering 17 different types of compilation errors. ChatGPT4 successfully identified most compilation errors in individual products and in configurable systems, while Le Chat Mistral and Gemini Advanced 1.5 detected some of them. LLMs have shown potential in assisting developers in identifying compilation errors in configurable systems. | 翻訳日:2024-07-30 19:52:45 公開日:2024-07-26 |
# 人工知能の創出は学術的統合を損なうものではない
Unpopular Opinion: Generative Artificial Intelligence Is Not Eroding Academic Integrity ( http://arxiv.org/abs/2407.19088v1 ) ライセンス: Link先を確認 | Myles Joshua Toledo Tan, Nicholle Mae Amor Tan Maravilla, | (参考訳) 本稿では,学習環境における学術的整合性向上における生成人工知能(GAI)の役割について検討する。
それは、AIが教室に倫理的に統合され、学習経験を高め、本質的なモチベーションを育み、学生の自発的な行動変化をサポートする方法を探求する。
この論文は、非オントロジー倫理、コンセクチュリズム、構成主義学習、自己決定理論(SDT)のような確立された倫理的枠組みや教育理論を分析することによって、GAIは、責任を持って使用されるとデジタルリテラシーを高め、真の知識構築を促進し、教育における倫理的基準を守れると論じている。
この研究は、生徒が現代世界の複雑さを倫理的かつ効果的にナビゲートするための、豊かでパーソナライズされた学習環境を構築するための、GAIの可能性を強調している。
This paper examines the role of generative artificial intelligence (GAI) in promoting academic integrity within educational settings. It explores how AI can be ethically integrated into classrooms to enhance learning experiences, foster intrinsic motivation, and support voluntary behavior change among students. By analyzing established ethical frameworks and educational theories such as deontological ethics, consequentialism, constructivist learning, and Self-Determination Theory (SDT), the paper argues that GAI, when used responsibly, can enhance digital literacy, encourage genuine knowledge construction, and uphold ethical standards in education. This research highlights the potential of GAI to create enriching, personalized learning environments that prepare students to navigate the complexities of the modern world ethically and effectively. | 翻訳日:2024-07-30 19:52:45 公開日:2024-07-26 |
# 分子逆設計のためのマルチショットインコンテキスト学習
Many-Shot In-Context Learning for Molecular Inverse Design ( http://arxiv.org/abs/2407.19089v1 ) ライセンス: Link先を確認 | Saeed Moayedpour, Alejandro Corrochano-Navarro, Faryad Sahneh, Shahriar Noroozizadeh, Alexander Koetter, Jiri Vymetal, Lorenzo Kogler-Anele, Pablo Mas, Yasser Jangjou, Sizhen Li, Michael Bailey, Marc Bianciotto, Hans Matter, Christoph Grebner, Gerhard Hessler, Ziv Bar-Joseph, Sven Jager, | (参考訳) 大規模言語モデル (LLM) は、様々な生成的および識別的な化学設計タスクに対して、数ショットのIn-Context Learning (ICL) において優れた性能を示した。
LLMの新たに拡張されたコンテキストウィンドウは、分子逆設計とリード最適化のためのICL機能をさらに改善することができる。
これらの能力を最大限に活用するために,多ショットICLで利用可能な実験データの不足を克服する,新しい半教師付き学習手法を開発した。
提案手法は, LLM生成分子を実験データとともに, 高い予測性能で反復的に包含することを含む。
さらに本手法をマルチモーダル LLM に統合し,テキスト命令を用いて生成した分子構造のインタラクティブな修飾を可能にする。
示すように、この新しい手法は、既存の分子設計のためのICL法を大幅に改善し、科学者にとってアクセスしやすく、使いやすくする。
Large Language Models (LLMs) have demonstrated great performance in few-shot In-Context Learning (ICL) for a variety of generative and discriminative chemical design tasks. The newly expanded context windows of LLMs can further improve ICL capabilities for molecular inverse design and lead optimization. To take full advantage of these capabilities we developed a new semi-supervised learning method that overcomes the lack of experimental data available for many-shot ICL. Our approach involves iterative inclusion of LLM generated molecules with high predicted performance, along with experimental data. We further integrated our method in a multi-modal LLM which allows for the interactive modification of generated molecular structures using text instructions. As we show, the new method greatly improves upon existing ICL methods for molecular design while being accessible and easy to use for scientists. | 翻訳日:2024-07-30 19:52:45 公開日:2024-07-26 |
# トポロジカル量子物質の端におけるキラルポーラロン形成
Chiral polaron formation on the edge of topological quantum matter ( http://arxiv.org/abs/2407.19093v1 ) ライセンス: Link先を確認 | Amit Vashisht, Ivan Amelio, Laurens Vanderstraeten, Georg M. Bruun, Oriana K. Diessel, Nathan Goldman, | (参考訳) 量子多体環境における移動不純物を浸すと、背景媒体の基本的性質が明らかになり、量子物質の強力なプローブが得られる。
このアプローチは、強相関相やトポロジカルな物質の状態のような、エキゾチックな性質を持つ媒体を考えると特に興味深い。
本研究では, トポロジカル量子物質のエッジによって提供されるキラルモードと相互作用する移動不純物のドレッシングについて検討する。
結果として生じる「キラルポーラロン」は、トポロジカルエッジモードのキラリティと群速度と移動不純物によって経験されるドラッグを反映する非対称スペクトル関数によって特徴づけられる。
まず、1次元の効果的なカイラルモデルから理論的理解を構築し、カイラルポーラロンのホールマークのシグネチャを捉える。
次に、この単純な図が、テンソル・ネットワーク法をポーラロン分光に適応させることにより、整数および分数チャーン絶縁体状態の現実的なモデルにどのように拡張するかを示す。
トポロジカル量子物質のエッジに移動不純物を注入することは、特に低温原子実験に適したエキゾチックエッジ特性を探索するための強力なツールであることが示されている。
Immersing a mobile impurity in a quantum many-body environment can reveal fundamental properties of the background medium, hence providing a powerful probe of quantum matter. This approach is particularly intriguing when considering media with exotic properties, such as strongly-correlated phases and topological states of matter. In this work, we study the dressing of a mobile impurity interacting with a chiral mode, as provided by the edge of topological quantum matter. The resulting ''chiral polaron'' is characterized by an asymmetric spectral function, which reflects the chirality and group velocity of the topological edge mode and the drag experienced by the mobile impurity. We first build our theoretical understanding from an effective one-dimensional chiral model, which captures the hallmark signatures of the chiral polaron. We then demonstrate how this simple picture extends to realistic models of integer and fractional Chern insulator states, by adapting tensor-network methods to polaron spectroscopy. Injecting mobile impurities on the edge of topological quantum matter is shown to be a powerful tool to probe exotic edge properties, particularly suitable for cold-atom experiments. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# ビジョンランゲージモデルを用いたゼロショットにおけるロボティクス問題の解法
Solving Robotics Problems in Zero-Shot with Vision-Language Models ( http://arxiv.org/abs/2407.19094v1 ) ライセンス: Link先を確認 | Zidan Wang, Rui Shen, Bradly Stadie, | (参考訳) ゼロショットシステムにおけるロボットの問題を解決するための多エージェントビジュアルLLM(VLLM)フレームワークであるWonderful Teamを紹介した。
ゼロショットでは、新しい環境において、ロボットの環境の画像とタスクの説明をVLLMに供給し、ロボットがタスクを完了するために必要なアクションのシーケンスをVLLMに出力する。
ロボット工学におけるVLLMの研究は、ロボットデータにLLMをチューニングしたり、知覚と行動生成のために別々の視覚エンコーダをトレーニングするなど、パイプラインの一部が微調整された設定に重点を置いていた。
驚くべきことに、最近のVLLMの能力の進歩により、このような微調整はもはや多くのタスクには必要ないかもしれない。
本研究は,ロボット作業のすべての側面を,高レベルな計画から低レベルな位置抽出,行動実行まで,単一のオフザシェルフVLLMで処理することができることを示す。
Wonderful Teamは、エージェント階層間でタスクを分割するマルチエージェントLDMの最近の進歩の上に構築されている。
VIMABenchと現実世界のロボット環境に関する大規模な実験は、操作、視覚的目標獲得、視覚的推論など、さまざまなロボットタスクをゼロショットで処理するシステムの能力を実証している。
これらの結果は、この1年でビジョン言語モデルは急速に進歩し、今後ロボット工学の問題のバックボーンとして強く考えるべきである、という重要なポイントを浮き彫りにしている。
We introduce Wonderful Team, a multi-agent visual LLM (VLLM) framework for solving robotics problems in the zero-shot regime. By zero-shot we mean that, for a novel environment, we feed a VLLM an image of the robot's environment and a description of the task, and have the VLLM output the sequence of actions necessary for the robot to complete the task. Prior work on VLLMs in robotics has largely focused on settings where some part of the pipeline is fine-tuned, such as tuning an LLM on robot data or training a separate vision encoder for perception and action generation. Surprisingly, due to recent advances in the capabilities of VLLMs, this type of fine-tuning may no longer be necessary for many tasks. In this work, we show that with careful engineering, we can prompt a single off-the-shelf VLLM to handle all aspects of a robotics task, from high-level planning to low-level location-extraction and action-execution. Wonderful Team builds on recent advances in multi-agent LLMs to partition tasks across an agent hierarchy, making it self-corrective and able to effectively partition and solve even long-horizon tasks. Extensive experiments on VIMABench and real-world robotic environments demonstrate the system's capability to handle a variety of robotic tasks, including manipulation, visual goal-reaching, and visual reasoning, all in a zero-shot manner. These results underscore a key point: vision-language models have progressed rapidly in the past year, and should strongly be considered as a backbone for robotics problems going forward. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# NARVis: リアルタイム科学的ポイントクラウド可視化のためのニューラルアクセラレーションレンダリング
NARVis: Neural Accelerated Rendering for Real-Time Scientific Point Cloud Visualization ( http://arxiv.org/abs/2407.19097v1 ) ライセンス: Link先を確認 | Srinidhi Hegde, Kaur Kullman, Thomas Grubb, Leslie Lait, Stephen Guimond, Matthias Zwicker, | (参考訳) 何十億ものサンプルをリアルタイムで視覚化する科学的データセットを探索することは、高忠実度レンダリングとスピードのバランスをとるという課題を提示する。
この研究は、ニューラル遅延レンダリングフレームワークを使用して大規模な科学的ポイントクラウドデータを視覚化する新しいレンダラー、Neural Accelerated Renderer (NAR)を導入している。
NARは、高品質なニューラル後処理を備えたリアルタイムのポイントクラウドレンダリングパイプラインを拡張し、大規模にインタラクティブな視覚化に理想的なアプローチを提供する。
具体的には、ニューラルネットワークをトレーニングして、高性能なマルチストリームラスタライザから点雲幾何学を学習し、従来の高品質レンダラーから所望のポストプロセッシング効果を捉える。
複雑な多次元ラグランジアン流れ場と大規模地形の測光走査を可視化し,最先端の高品質レンダラーと比較することにより,NARの有効性を実証する。
広汎な評価により、NARは高い視力を維持しながら、速度とスケーラビリティを優先することを示した。
RTX 2080 Ti GPU上で12GBの$\sim$12 GBのメモリを使用して、インタラクティブレンダリングの$>$350Mポイント(すなわち、有効スループットは$>$44億ポイント/秒)の競合フレームレートを$>$126 fpsで達成します。
さらに, NAR は, 可視性が必要な異なる点群にまたがって一般化可能であること, 元の点群が低解像度であっても, 所望の事後処理効果がかなり高い品質で得られ, さらにメモリ要求を低減できることを示した。
Exploring scientific datasets with billions of samples in real-time visualization presents a challenge - balancing high-fidelity rendering with speed. This work introduces a novel renderer - Neural Accelerated Renderer (NAR), that uses the neural deferred rendering framework to visualize large-scale scientific point cloud data. NAR augments a real-time point cloud rendering pipeline with high-quality neural post-processing, making the approach ideal for interactive visualization at scale. Specifically, we train a neural network to learn the point cloud geometry from a high-performance multi-stream rasterizer and capture the desired postprocessing effects from a conventional high-quality renderer. We demonstrate the effectiveness of NAR by visualizing complex multidimensional Lagrangian flow fields and photometric scans of a large terrain and compare the renderings against the state-of-the-art high-quality renderers. Through extensive evaluation, we demonstrate that NAR prioritizes speed and scalability while retaining high visual fidelity. We achieve competitive frame rates of $>$ 126 fps for interactive rendering of $>$ 350M points (i.e., an effective throughput of $>$ 44 billion points per second) using $\sim$12 GB of memory on RTX 2080 Ti GPU. Furthermore, we show that NAR is generalizable across different point clouds with similar visualization needs and the desired post-processing effects could be obtained with substantial high quality even at lower resolutions of the original point cloud, further reducing the memory requirements. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# スポンサーによる新しいオーガナイズ:Amazon Marketplaceにおけるスポンサーによる検索結果の質への影響
Sponsored is the New Organic: Implications of Sponsored Results on Quality of Search Results in the Amazon Marketplace ( http://arxiv.org/abs/2407.19099v1 ) ライセンス: Link先を確認 | Abhisek Dash, Saptarshi Ghosh, Animesh Mukherjee, Abhijnan Chakraborty, Krishna P. Gummadi, | (参考訳) 検索エンジン検索結果ページ(SERP)のオーガニックな検索結果のうち、スポンサー付き検索結果(広告)をインターリーブすることは、複数のデジタルプラットフォームで一般的な実践となっている。
消費者の満足度に配慮し、デジタル公共空間における競争を後押しし、企業が消費者にリーチするための魅力的なゲートウェイとなりました。
しかし、特にデジタルマーケットプレースの文脈では、スポンサー付の結果とオーガニックな結果との競争性から、さまざまな利害関係者に影響を与える複数の不必要な反感が表面化している。
消費者の視点では、スポンサー付き広告/リサートは検索品質の低下を招き、消費者は潜在的に無関係でコストのかかる製品に訴える可能性がある。
スポンサー付き広告は、売り手間の市場での競争の水準に影響を及ぼす可能性がある。
これらの潜在的な懸念を理解し、解明するために、我々は4つの異なる国のAmazonデジタルマーケットプレースを分析し、4800の検索操作をシミュレートした。
2Mの有機物と638Kの有機物からなるSERPについて分析した結果,Amazon SERPの1ページ目において,有機物が不足している項目(100位以上)が上位の有機物よりも先にスポンサーとして現れることがわかった。
さらに、ほとんどのケースにおいて、これらのトップスポンサードの結果はコストが高く、トップオーガニックな結果よりも品質が劣っていることも観察した。
これらの観察は、研究者たちにさらなる検討を動機付け、透明性を高め、デジタルマーケットプレースで続く広告慣行を守ります。
Interleaving sponsored results (advertisements) amongst organic results on search engine result pages (SERP) has become a common practice across multiple digital platforms. Advertisements have catered to consumer satisfaction and fostered competition in digital public spaces; making them an appealing gateway for businesses to reach their consumers. However, especially in the context of digital marketplaces, due to the competitive nature of the sponsored results with the organic ones, multiple unwanted repercussions have surfaced affecting different stakeholders. From the consumers' perspective the sponsored ads/results may cause degradation of search quality and nudge consumers to potentially irrelevant and costlier products. The sponsored ads may also affect the level playing field of the competition in the marketplaces among sellers. To understand and unravel these potential concerns, we analyse the Amazon digital marketplace in four different countries by simulating 4,800 search operations. Our analyses over SERPs consisting 2M organic and 638K sponsored results show items with poor organic ranks (beyond 100th position) appear as sponsored results even before the top organic results on the first page of Amazon SERP. Moreover, we also observe that in majority of the cases, these top sponsored results are costlier and are of poorer quality than the top organic results. We believe these observations can motivate researchers for further deliberation to bring in more transparency and guard rails in the advertising practices followed in digital marketplaces. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# FedAR: 局所的な更新近似と修正によるフェデレーション学習におけるクライアントの可用性への対処
FedAR: Addressing Client Unavailability in Federated Learning with Local Update Approximation and Rectification ( http://arxiv.org/abs/2407.19103v1 ) ライセンス: Link先を確認 | Chutian Jiang, Hansong Zhou, Xiaonan Zhang, Shayok Chakraborty, | (参考訳) フェデレートラーニング(FL)は、クライアントがプライバシ保護の方法でサーバの調整の下で機械学習モデルを協調的にトレーニングすることを可能にする。
FLの主な課題の1つは、クライアントリソースの制限と断続的なネットワーク接続のため、サーバが各ラウンドで各クライアントからローカル更新を受けられないことである。
利用できないクライアントの存在は、全体のFL性能を著しく悪化させる。
本稿では,新しいクライアント更新アルゴリズム FL を提案する。
FedARは、すべてのクライアントをグローバルモデルアップデートに参加させて、サーバ上の高品質なグローバルモデルを達成することができます。
この目的のために、サーバは、各クライアントからの最新のアップデートを、現在のアップデートのサロゲートとして使用する。
次に、各クライアントのサロゲート更新に異なる重みを割り当て、グローバルモデルを導出し、利用可能なクライアントと利用できないクライアントの両方からのコントリビューションを保証する。
理論的解析により,FedARは凸および非凸の滑らかな損失関数に対して,非IIDデータセット上で最適収束率を達成できることが証明された。
大規模な実験研究により、FedARはFedAvg、MIFA、FedVARP、Scaffoldといった最先端のFLベースラインを、トレーニング損失、テスト精度、バイアス軽減の観点から総合的に上回っていることが示されている。
さらに、FedARは、多数のクライアントが存在し、クライアントが利用できないという印象的なパフォーマンスも描いている。
Federated learning (FL) enables clients to collaboratively train machine learning models under the coordination of a server in a privacy-preserving manner. One of the main challenges in FL is that the server may not receive local updates from each client in each round due to client resource limitations and intermittent network connectivity. The existence of unavailable clients severely deteriorates the overall FL performance. In this paper, we propose , a novel client update Approximation and Rectification algorithm for FL to address the client unavailability issue. FedAR can get all clients involved in the global model update to achieve a high-quality global model on the server, which also furnishes accurate predictions for each client. To this end, the server uses the latest update from each client as a surrogate for its current update. It then assigns a different weight to each client's surrogate update to derive the global model, in order to guarantee contributions from both available and unavailable clients. Our theoretical analysis proves that FedAR achieves optimal convergence rates on non-IID datasets for both convex and non-convex smooth loss functions. Extensive empirical studies show that FedAR comprehensively outperforms state-of-the-art FL baselines including FedAvg, MIFA, FedVARP and Scaffold in terms of the training loss, test accuracy, and bias mitigation. Moreover, FedAR also depicts impressive performance in the presence of a large number of clients with severe client unavailability. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# ObjectCarver: 3Dオブジェクトの半自動セグメンテーション、再構築、分離
ObjectCarver: Semi-automatic segmentation, reconstruction and separation of 3D objects ( http://arxiv.org/abs/2407.19108v1 ) ライセンス: Link先を確認 | Gemmechu Hassena, Jonathan Moon, Ryan Fujii, Andrew Yuen, Noah Snavely, Steve Marschner, Bharath Hariharan, | (参考訳) 暗黙のニューラルネットワークは、複数の画像から3D表面を再構成する際、顕著な進歩を遂げている。
従来の研究は、Nオブジェクトごとに異なる符号付き距離場(SDF)を同時に訓練するためのフレームワークを導入し、オブジェクトの重複を防止するために正規化項を使用してこの問題に対処しようと試みてきた。
しかし、これらの手法はすべてセグメンテーションマスクを提供する必要があるが、それは必ずしも容易には利用できない。
一つのビューで単に入力をクリックすることからオブジェクト分離の問題に取り組むために、ObjectCarverというメソッドを導入します。
複数ビュー画像とユーザ入力のクリックによって個々のオブジェクトのセグメンテーションを促すことにより,シーンを別々のオブジェクトに分解し,各オブジェクトに対して高品質な3D表面を再構成する。
我々は,フローターを防止し,閉塞による不適切な彫刻を避ける損失関数を導入した。
さらに,従来の手法と比較して幾何的詳細を保存しながら,処理を著しく高速化するシーン初期化手法を提案する。
基礎的な真理マスクも単分子的手がかりも必要とせず, 質的, 定量的にベースラインを上回ります。
さらに,評価のための新しいベンチマークデータセットを導入する。
Implicit neural fields have made remarkable progress in reconstructing 3D surfaces from multiple images; however, they encounter challenges when it comes to separating individual objects within a scene. Previous work has attempted to tackle this problem by introducing a framework to train separate signed distance fields (SDFs) simultaneously for each of N objects and using a regularization term to prevent objects from overlapping. However, all of these methods require segmentation masks to be provided, which are not always readily available. We introduce our method, ObjectCarver, to tackle the problem of object separation from just click input in a single view. Given posed multi-view images and a set of user-input clicks to prompt segmentation of the individual objects, our method decomposes the scene into separate objects and reconstructs a high-quality 3D surface for each one. We introduce a loss function that prevents floaters and avoids inappropriate carving-out due to occlusion. In addition, we introduce a novel scene initialization method that significantly speeds up the process while preserving geometric details compared to previous approaches. Despite requiring neither ground truth masks nor monocular cues, our method outperforms baselines both qualitatively and quantitatively. In addition, we introduce a new benchmark dataset for evaluation. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# パルス励起電気オプトメカニクスによるマイクロ波光の絡み合い
Microwave-Optical Entanglement from Pulse-pumped Electro-optomechanics ( http://arxiv.org/abs/2407.19109v1 ) ライセンス: Link先を確認 | Changchun Zhong, Fangxin Li, Srujan Meesala, Steven Wood, David Lake, Oskar Painter, Liang Jiang, | (参考訳) マイクロ波と光子をエンタングリングすることは、量子テレポーテーションを通じて量子トランスダクションを実現するための有望な方法の1つである。
本稿では,青信号パルスガウスポンプにより駆動される電気光学系のマイクロ波-光子対の絡み合わせについて検討する。
光子対は、弱いパラメトリックダウン変換により得られ、その時間相関は2階相関関数によって明らかにされる。
次に、ベルの不等式違反によって絡み合いが特定される時間ビン自由度で符号化された離散変数の絡み合いについて検討する。
さらに, レーザー誘起加熱を推定し, パルス励起系は, 適正な光子計数率を維持しつつ, 低い加熱効果を示すことを示した。
Entangling microwave and optical photons is one of the promising ways to realize quantum transduction through quantum teleportation. This paper investigates the entanglement of microwave-optical photon pairs generated from an electro-optomechanical system driven by a blue-detuned pulsed Gaussian pump. The photon pairs are obtained through weak parametric-down-conversion, and their temporal correlation is revealed by the second-order correlation function. We then study the discrete variable entanglement encoded in the time bin degree of freedom, where entanglement is identified by Bell inequality violation. Furthermore, we estimate the laser-induced heating and show that the pulse-pumped system features lower heating effects while maintaining a reasonable coincidence photon counting rate. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# GPTによるFedspeakの解読:ホークとダブ間の距離の定量化
GPT Deciphering Fedspeak: Quantifying Dissent Among Hawks and Doves ( http://arxiv.org/abs/2407.19110v1 ) ライセンス: Link先を確認 | Denis Peskoff, Adam Visokay, Sander Schulhoff, Benjamin Wachspress, Alan Blinder, Brandon M. Stewart, | (参考訳) 世界中の市場や政策立案者は、連邦公開市場委員会(FOMC)が行った一連の金融政策決定に固執している。
彼らの会議に関する公開文書は、メンバーの経済に対する態度についての洞察を提供する。
我々は、GPT-4を用いてインフレの話題について、メンバー間の不満を定量化する。
記録と分は、マクロ経済の展望に関するメンバの見解の多様性を、公開声明から失われたり省略されたりしているのを反映している。
実際、委員会の「真の」態度に光を当てた意見の多様化は、最終声明からほぼ完全に排除されている。
したがって、声明のみに基づくFOMC感情の予測は、タカやダブの間での不満を十分に反映していないと論じる。
Markets and policymakers around the world hang on the consequential monetary policy decisions made by the Federal Open Market Committee (FOMC). Publicly available textual documentation of their meetings provides insight into members' attitudes about the economy. We use GPT-4 to quantify dissent among members on the topic of inflation. We find that transcripts and minutes reflect the diversity of member views about the macroeconomic outlook in a way that is lost or omitted from the public statements. In fact, diverging opinions that shed light upon the committee's "true" attitudes are almost entirely omitted from the final statements. Hence, we argue that forecasting FOMC sentiment based solely on statements will not sufficiently reflect dissent among the hawks and doves. | 翻訳日:2024-07-30 19:52:44 公開日:2024-07-26 |
# VIMs: 一重鎖を用いたテキスト・トゥ・ステイン拡散による仮想免疫組織化学多重染色
VIMs: Virtual Immunohistochemistry Multiplex staining via Text-to-Stain Diffusion Trained on Uniplex Stains ( http://arxiv.org/abs/2407.19113v1 ) ライセンス: Link先を確認 | Shikha Dubey, Yosep Chong, Beatrice Knudsen, Shireen Y. Elhabian, | (参考訳) 本稿では,1つのヘマトキシリンおよびエオシン(H&E)染色組織から複数の免疫組織化学染色(IHC)染色を生成するために設計された仮想免疫組織化学多重染色(VIMs)モデルを提案する。
IHC染色は、複雑な診断問題を解決し、患者の治療決定を導くために、病理学の実践において不可欠である。
商業実験室は400種類の抗体ベースのICC染色を広範囲に提供しているが、小さな生検では複数の染色のための十分な組織が不足し、その後の分子検査のための材料が保存されていることが多い。
これは仮想IHC染色の必要性を強調している。
特に、VIMは、このニーズに対処する最初のモデルであり、IHCマーカーごとにテキストプロンプトを通した仮想IHC多重化のために、大きな視覚言語による単一ステップ拡散モデルを活用する。
VIMsは、一方的なH&EとIHCのイメージに基づいて訓練されており、対向的なトレーニングモジュールを使用している。
VIMのテストにはペア画像とペア画像の両方が含まれる。
計算効率を向上させるため、VIMはLoRA(Lo-Rank Adapter)アプローチを通じて、小さく訓練可能な重量で微調整された訓練済みの大型潜伏拡散モデルを利用する。
核および細胞質IHCマーカーの実験により、VIMは基底拡散モデルより優れ、対画像変換の標準生成モデルであるPix2Pixに匹敵する性能を発揮することが示された。
2人の病理医による評価を含む複数の評価手法を用いて、VIMの性能を判定する。
さらに、異なるプロンプトによる実験は、テキストコンディショニングの影響を強調している。
本論文は, 単一H&E入力からの複数のIHC染色の発生を, 単体データのみを訓練した単一モデルを用いて実証し, 病理組織学研究を加速する最初の試みである。
This paper introduces a Virtual Immunohistochemistry Multiplex staining (VIMs) model designed to generate multiple immunohistochemistry (IHC) stains from a single hematoxylin and eosin (H&E) stained tissue section. IHC stains are crucial in pathology practice for resolving complex diagnostic questions and guiding patient treatment decisions. While commercial laboratories offer a wide array of up to 400 different antibody-based IHC stains, small biopsies often lack sufficient tissue for multiple stains while preserving material for subsequent molecular testing. This highlights the need for virtual IHC staining. Notably, VIMs is the first model to address this need, leveraging a large vision-language single-step diffusion model for virtual IHC multiplexing through text prompts for each IHC marker. VIMs is trained on uniplex paired H&E and IHC images, employing an adversarial training module. Testing of VIMs includes both paired and unpaired image sets. To enhance computational efficiency, VIMs utilizes a pre-trained large latent diffusion model fine-tuned with small, trainable weights through the Low-Rank Adapter (LoRA) approach. Experiments on nuclear and cytoplasmic IHC markers demonstrate that VIMs outperforms the base diffusion model and achieves performance comparable to Pix2Pix, a standard generative model for paired image translation. Multiple evaluation methods, including assessments by two pathologists, are used to determine the performance of VIMs. Additionally, experiments with different prompts highlight the impact of text conditioning. This paper represents the first attempt to accelerate histopathology research by demonstrating the generation of multiple IHC stains from a single H&E input using a single model trained solely on uniplex data. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# どの参照クラスに属しているか?規範的モデリングによる参照クラスの人種的公正度の測定
To which reference class do you belong? Measuring racial fairness of reference classes with normative modeling ( http://arxiv.org/abs/2407.19114v1 ) ライセンス: Link先を確認 | Saige Rutherford, Thomas Wolfers, Charlotte Fraza, Nathaniel G. Harrnet, Christian F. Beckmann, Henricus G. Ruhe, Andre F. Marquand, | (参考訳) 医療における基準クラスは、身長と体重の小児の成長チャートのような健康的な基準を確立し、潜在的な臨床リスクを表すこれらの基準からの逸脱をチャート化するために使用される。
基準クラスの人口層が偏差の臨床的解釈にどのように影響するかは不明である。
基準クラス構築の手法である規範モデルを用いて、精神医学や神経学で広く用いられている構造脳画像の基準モデルにおける公平性(人種バイアス)を評価する。
モデルにレースを含めることが、より公平なモデルを生み出すかどうかをテストする。
我々は、3つの異なる参照クラス規範モデルからの偏差スコアを用いて自己申告されたレースを予測し、統合された多変量感覚のバイアスをよりよく理解する。
これらすべてのタスクにまたがって、既存のデータや一般的に使用されるモデリング技術では対処できない人種的格差を明らかにします。
本研究は,標準値からの偏差は,基準値との人口的ミスマッチによる可能性があることを示唆し,これらの偏差に臨床的意義を割り当てることに注意が必要であることを示唆する。
また,本手法は,より詳細なサンプルの取得が緊急研究の優先事項であることも示唆している。
Reference classes in healthcare establish healthy norms, such as pediatric growth charts of height and weight, and are used to chart deviations from these norms which represent potential clinical risk. How the demographics of the reference class influence clinical interpretation of deviations is unknown. Using normative modeling, a method for building reference classes, we evaluate the fairness (racial bias) in reference models of structural brain images that are widely used in psychiatry and neurology. We test whether including race in the model creates fairer models. We predict self-reported race using the deviation scores from three different reference class normative models, to better understand bias in an integrated, multivariate sense. Across all of these tasks, we uncover racial disparities that are not easily addressed with existing data or commonly used modeling techniques. Our work suggests that deviations from the norm could be due to demographic mismatch with the reference class, and assigning clinical meaning to these deviations should be done with caution. Our approach also suggests that acquiring more representative samples is an urgent research priority. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# 非線形RNNのスケーラブルで安定な並列化に向けて
Towards Scalable and Stable Parallelization of Nonlinear RNNs ( http://arxiv.org/abs/2407.19115v1 ) ライセンス: Link先を確認 | Xavier Gonzalez, Andrew Warrington, Jimmy T. H. Smith, Scott W. Linderman, | (参考訳) 従来の非線形RNNはシーケンス長を並列化できないが、変換器と線形RNNは並列化可能である。
したがって、Lim et al [2024] は、ニュートン法で解いた固定点問題として、非線形 RNN の並列化評価に取り組む。
ニュートンの手法の並列化形式を導出し、適用することにより、逐次評価よりも大きなスピードアップを達成する。
しかし、それらの手法は立方体計算の複雑さと数値不安定性を継承する。
これらの弱点に対処する。
計算複雑性を低減するため、準ニュートン近似を適用し、それらをフルニュートンに整合的に収束させ、メモリを少なくし、より高速であることを示す。
ニュートン法を安定化させるために、信頼領域に減衰したニュートン法とカルマン平滑化の接続を利用する。
この接続により、信頼領域ごとにニュートン法を安定化し、効率的な並列化カルマンアルゴリズムを用いて性能を維持することができる。
これらの手法を実証的に比較し,各アルゴリズムが優れているユースケースを強調した。
Conventional nonlinear RNNs are not naturally parallelizable across the sequence length, whereas transformers and linear RNNs are. Lim et al. [2024] therefore tackle parallelized evaluation of nonlinear RNNs by posing it as a fixed point problem, solved with Newton's method. By deriving and applying a parallelized form of Newton's method, they achieve huge speedups over sequential evaluation. However, their approach inherits cubic computational complexity and numerical instability. We tackle these weaknesses. To reduce the computational complexity, we apply quasi-Newton approximations and show they converge comparably to full-Newton, use less memory, and are faster. To stabilize Newton's method, we leverage a connection between Newton's method damped with trust regions and Kalman smoothing. This connection allows us to stabilize Newtons method, per the trust region, while using efficient parallelized Kalman algorithms to retain performance. We compare these methods empirically, and highlight the use cases where each algorithm excels. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# NERSCにおけるDMTCPを用いたHPCのチェックポイント再起動機構の最適化
Optimizing Checkpoint-Restart Mechanisms for HPC with DMTCP in Containers at NERSC ( http://arxiv.org/abs/2407.19117v1 ) ライセンス: Link先を確認 | Madan Timalsina, Lisa Gerhardt, Nicholas Tyler, Johannes P. Blaschke, William Arndt, | (参考訳) 本稿では,ハイパフォーマンスコンピューティング(HPC)におけるチェックポイント再起動機構について詳細に検討する。
分散マルチスレッドチェックポイント(DMTCP)をコンテナ内と外部の両方を含むさまざまな計算設定で使用することに焦点を当てている。
この研究は、最先端のスーパーコンピュータシステムであるNERSC Perlmutter上で動作する現実世界のアプリケーションに基礎を置いている。
我々は,HPCにおける複雑で長い計算を管理する上でのチェックポイント再起動(C/R)の利点について論じ,その効率性と信頼性を強調した。
DMTCPがこれらのワークフロー、特にマルチスレッドおよび分散アプリケーションに果たす役割は、徹底的に検討されている。
さらにこの論文では、ShifterやPodman-HPCといったHPCコンテナの利用も検討している。
この研究の方法、成果、将来的な方向性についても、様々な科学的分野に応用することを含め、この研究を通じて計算手法における重要な進歩を示す。
This paper presents an in-depth examination of checkpoint-restart mechanisms in High-Performance Computing (HPC). It focuses on the use of Distributed MultiThreaded CheckPointing (DMTCP) in various computational settings, including both within and outside of containers. The study is grounded in real-world applications running on NERSC Perlmutter, a state-of-the-art supercomputing system. We discuss the advantages of checkpoint-restart (C/R) in managing complex and lengthy computations in HPC, highlighting its efficiency and reliability in such environments. The role of DMTCP in enhancing these workflows, especially in multi-threaded and distributed applications, is thoroughly explored. Additionally, the paper delves into the use of HPC containers, such as Shifter and Podman-HPC, which aid in the management of computational tasks, ensuring uniform performance across different environments. The methods, results, and potential future directions of this research, including its application in various scientific domains, are also covered, showcasing the critical advancements made in computational methodologies through this study. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# 医学における因果推論のコパイロットとしての大規模言語モデル
Large Language Models as Co-Pilots for Causal Inference in Medical Studies ( http://arxiv.org/abs/2407.19118v1 ) ライセンス: Link先を確認 | Ahmed Alaa, Rachael V. Phillips, Emre Kıcıman, Laura B. Balzer, Mark van der Laan, Maya Petersen, | (参考訳) 実際の臨床データに基づく医学研究の妥当性は、医学的介入に関する因果的な結論を導くのに必要な重要な仮定に依存する。
多くの公表された研究は、これらの仮定に反し、残差の相違、選択バイアス、治療と測定時間の相違などのバイアスを伴うため、欠陥がある。
研究者はこれらの落とし穴を知ってはいるものの、特定の研究の文脈でそれらを予測し、対処することは、広範囲の専門知識を持つ大きな、しばしば扱いにくい、学際的なチームなしでは困難である可能性があるため、引き続き起こる。
この専門的ギャップに対処するため,大言語モデル(LLM)を共同操縦ツールとして活用し,因果推論の妥当性を損なう研究設計上の欠陥の同定を支援する。
本研究では,LLMの概念的枠組みを,様々な分野のドメイン知識を符号化する因果コパイロットとして提案する。
本稿では, LLM を因果的コパイロットとして機能させる方法の具体例を示し, 既存の因果的推論フレームワークを基盤とした構造的枠組みを提案し, 疫学研究で信頼性の高い利用に LLM を適用する上でのユニークな課題と機会を強調した。
The validity of medical studies based on real-world clinical data, such as observational studies, depends on critical assumptions necessary for drawing causal conclusions about medical interventions. Many published studies are flawed because they violate these assumptions and entail biases such as residual confounding, selection bias, and misalignment between treatment and measurement times. Although researchers are aware of these pitfalls, they continue to occur because anticipating and addressing them in the context of a specific study can be challenging without a large, often unwieldy, interdisciplinary team with extensive expertise. To address this expertise gap, we explore the use of large language models (LLMs) as co-pilot tools to assist researchers in identifying study design flaws that undermine the validity of causal inferences. We propose a conceptual framework for LLMs as causal co-pilots that encode domain knowledge across various fields, engaging with researchers in natural language interactions to provide contextualized assistance in study design. We provide illustrative examples of how LLMs can function as causal co-pilots, propose a structured framework for their grounding in existing causal inference frameworks, and highlight the unique challenges and opportunities in adapting LLMs for reliable use in epidemiological research. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# フェデレートラーニングにおける会員推測攻撃の軽減における精度・職業トレードオフ
Accuracy-Privacy Trade-off in the Mitigation of Membership Inference Attack in Federated Learning ( http://arxiv.org/abs/2407.19119v1 ) ライセンス: Link先を確認 | Sayyed Farid Ahamed, Soumya Banerjee, Sandip Roy, Devin Quinn, Marc Vucovich, Kevin Choi, Abdul Rahman, Alison Hu, Edward Bowen, Sachin Shetty, | (参考訳) ここ数年、フェデレートドラーニング(FL)は機械学習において顕著な方法として現れ、複数のクライアントがトレーニングデータをプライベートに保ちながら、協力的にモデルを構築することによって、プライバシ保護を強調してきた。
プライバシに重点を置いているにもかかわらず、FLモデルは、メンバシップ推論攻撃(MIA)など、さまざまな攻撃を受けやすいため、データの機密性に対する深刻な脅威がある。
最近の研究で、Rezaei \textit{et al } は深層アンサンブルにおける精度の高いプライバシトレードオフの存在を明らかにし、それを克服するためのいくつかの融合戦略を提案した。
本稿では,深層アンサンブルとFLの関係について検討する。
具体的には、深層アンサンブルから派生した信頼度に基づくメトリクスがFLに適用されるかどうか、およびMIAに関してFLの精度とプライバシのトレードオフがあるかどうかを検討する。
実証的な調査では、クライアント数と精度とプライバシのトレードオフとの間には、モノトニックな相関が欠如していることが示されている。
各種のフェデレーションクライアント、データセット、信頼度基準に基づく融合戦略を実験することにより、精度プライバシトレードオフの明確な存在を特定し、分析的に正当化する。
Over the last few years, federated learning (FL) has emerged as a prominent method in machine learning, emphasizing privacy preservation by allowing multiple clients to collaboratively build a model while keeping their training data private. Despite this focus on privacy, FL models are susceptible to various attacks, including membership inference attacks (MIAs), posing a serious threat to data confidentiality. In a recent study, Rezaei \textit{et al.} revealed the existence of an accuracy-privacy trade-off in deep ensembles and proposed a few fusion strategies to overcome it. In this paper, we aim to explore the relationship between deep ensembles and FL. Specifically, we investigate whether confidence-based metrics derived from deep ensembles apply to FL and whether there is a trade-off between accuracy and privacy in FL with respect to MIA. Empirical investigations illustrate a lack of a non-monotonic correlation between the number of clients and the accuracy-privacy trade-off. By experimenting with different numbers of federated clients, datasets, and confidence-metric-based fusion strategies, we identify and analytically justify the clear existence of the accuracy-privacy trade-off. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# 単光子検出によるマルチフォノンフォック状態隠蔽
Multi-phonon Fock state heralding with single-photon detection ( http://arxiv.org/abs/2407.19120v1 ) ライセンス: Link先を確認 | Andrew J. Shepherd, Ryan O. Behunin, | (参考訳) 量子技術の潜在的な資源として認識され、基礎物理学のためのテストベッドとして、機械振動子の非古典状態の制御と準備が広く研究されている。
光力学において、量子状態合成は光学とフォノン論の自由度を絡ませ、光検出によって実現される。
単一光子検出は、そのような隠蔽された量子状態の最も強力な形の1つを可能にし、従来のキャビティ光学系に適用された場合の単一フォノン状態の生成を可能にする。
光学系の複雑さが増大するにつれて、単一光子検出はより大規模なエキゾチックな量子状態へのアクセスを与える可能性がある。
ここでは,1つのフォノンモードが等間隔光共鳴の集合間の遷移を媒介するブリルアン散乱を前方に許す光学系の量子力学について検討する。
この系に対するシュロディンガー方程式とリンドブラッドマスター方程式の両方を解くと、単一光子または弱いレーザーパルスからなる初期状態が、単一の光子状態とフォノン占有数の周波数が絡み合う複雑な量子状態へと進化する。
物理的には、これらの相互作用によって単一の光子が低い周波数に散乱し、各散乱事象に対してフォノン励起が起こる。
この結果と周波数フィルタリングを組み合わせることで、光損失があっても、単光子検出によって選択された多重フォノンフォック状態が決定できることを示す。
また,音素状態の量子トモグラフィーへのアプローチも提案する。
Recognized as a potential resource for quantum technologies and a possible testbed for fundamental physics, the control and preparation of nonclassical states of mechanical oscillators has been explored extensively. Within optomechanics, quantum state synthesis can be realized by entangling photonic and phononic degrees of freedom followed by optical detection. Single-photon detection enables one of the most powerful forms of such heralded quantum state preparation, permitting the creation of single phonon states when applied to conventional cavity optomechanical systems. As the complexity of optomechanical systems increases, single-photon detection may provide heralded access to a larger class of exotic quantum states. Here, we examine the quantum dynamics of optomechanical systems that permit forward Brillouin scattering, where a single phonon mode mediates transitions between a collection of equally spaced optical resonances. Solving both the Schrodinger equation and the Lindblad master equation for this system, we find that initial states comprised of single photons or weak laser pulses evolve into complex quantum states where the frequency of single photon states and the phonon occupation number are entangled. Physically, these interactions permit a single photon to scatter to lower frequencies, where phonon excitation occurs for each scattering event. Combining this result with frequency filtering, we show how single-photon detection can herald selected multi-phonon Fock states, even in the presence of optical losses. We also present an approach for quantum tomography of the heralded phonon states. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# 深層強化学習によるフォグコンピューティングにおけるタスクオフロード:セキュリティと効率向上に基づく今後の研究方向
Task Offloading in Fog Computing with Deep Reinforcement Learning: Future Research Directions Based on Security and Efficiency Enhancements ( http://arxiv.org/abs/2407.19121v1 ) ライセンス: Link先を確認 | Amir Pakmehr, | (参考訳) IoT(Internet of Things)デバイスとデータ生成の急増は、即時性、Quality of Service、ロケーション対応サービスの要求を満たす上で、従来のクラウドコンピューティングの限界を浮き彫りにしている。
フォグコンピューティングは、計算、ストレージ、ネットワークをデータソースに近づけるソリューションとして登場します。
本研究では,フォグコンピューティングのタスクオフロード向上におけるDeep Reinforcement Learningの役割について検討する。
この論文は、現在の戦略を見直し、今後の研究方向性を提案することによって、リソース使用の最適化、レスポンスの高速化、脆弱性対策におけるDeep Reinforcement Learningの可能性を示す。
フォグコンピューティングのためのDeep Reinforcement Learningの進歩、セキュリティ向上のためのブロックチェーンの探索、IoTエコシステムを改善するためのエネルギー効率のよいモデル追求などが提案されている。
人工知能を取り入れた結果,タスク完了時間,エネルギー消費,セキュリティインシデント低減といった重要な指標の潜在的な改善が示唆された。
これらの知見は、霧計算アーキテクチャの最適化における将来の研究と実用化のための具体的な基盤を提供する。
The surge in Internet of Things (IoT) devices and data generation highlights the limitations of traditional cloud computing in meeting demands for immediacy, Quality of Service, and location-aware services. Fog computing emerges as a solution, bringing computation, storage, and networking closer to data sources. This study explores the role of Deep Reinforcement Learning in enhancing fog computing's task offloading, aiming for operational efficiency and robust security. By reviewing current strategies and proposing future research directions, the paper shows the potential of Deep Reinforcement Learning in optimizing resource use, speeding up responses, and securing against vulnerabilities. It suggests advancing Deep Reinforcement Learning for fog computing, exploring blockchain for better security, and seeking energy-efficient models to improve the Internet of Things ecosystem. Incorporating artificial intelligence, our results indicate potential improvements in key metrics, such as task completion time, energy consumption, and security incident reduction. These findings provide a concrete foundation for future research and practical applications in optimizing fog computing architectures. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# Binary Bleed: 自動モデル選択のための高速分散並列方式
Binary Bleed: Fast Distributed and Parallel Method for Automatic Model Selection ( http://arxiv.org/abs/2407.19125v1 ) ライセンス: Link先を確認 | Ryan Barron, Maksim E. Eren, Manish Bhattarai, Ismael Boureima, Cynthia Matuszek, Boian S. Alexandrov, | (参考訳) 非負行列分解(NMF)、RESCAL、K-Meansクラスタリングなどの機械学習(ML)クラスタリングと次元削減アプローチでは、サンプルやクリーンクラスタの理想的な分離をもたらすクラスタやコンポーネントの数を定義するために、ハイパーパラメータkを選択する必要がある。
この選択は難しいが、データの過度な適合や過度な適合を避けることが不可欠である。
いくつかのMLアプリケーションは、特定のkに対するクラスタパターンの安定性を評価するのにスコアリング方法(例:Silhouette、Davies Bouldingスコア)を使用している。
スコアは、kの範囲で異なる試行に対して算出され、理想kは、エルボ曲線プロットに類似したスコアの減少または増加によって、モデルがオーバーフィットを開始する前に、値としてヒューリスティックに選択される。
グリッド探索法は良いk値を正確に見つけるのに使えるが、kの範囲を訪れると時間と計算資源が集中する。
本稿では,二進探索に基づく二進 Bleed 法を導入し,これらの格子探索ML アルゴリズムの k 探索空間を,スコアをしきい値で割ったヒューリスティックを用いて探索空間から目標 k 値を切り離すことにより,大幅に削減する。
Binary Bleedはシングルノードシリアル、シングルノードマルチプロセッサ、分散コンピューティングリソースで動作するように設計されている。
実験では,NMFk,K-Means pyDNMFk,pyDRESCALkとSilhouette,Davies Bouldingの正解 k に対して,理想 k の単純連続探索と二項 Bleed の精度を比較検討した。
NMFアルゴリズムのためのBinary Bleedの実装をGitHubで公開しています。
In several Machine Learning (ML) clustering and dimensionality reduction approaches, such as non-negative matrix factorization (NMF), RESCAL, and K-Means clustering, users must select a hyper-parameter k to define the number of clusters or components that yield an ideal separation of samples or clean clusters. This selection, while difficult, is crucial to avoid overfitting or underfitting the data. Several ML applications use scoring methods (e.g., Silhouette and Davies Boulding scores) to evaluate the cluster pattern stability for a specific k. The score is calculated for different trials over a range of k, and the ideal k is heuristically selected as the value before the model starts overfitting, indicated by a drop or increase in the score resembling an elbow curve plot. While the grid-search method can be used to accurately find a good k value, visiting a range of k can become time-consuming and computationally resource-intensive. In this paper, we introduce the Binary Bleed method based on binary search, which significantly reduces the k search space for these grid-search ML algorithms by truncating the target k values from the search space using a heuristic with thresholding over the scores. Binary Bleed is designed to work with single-node serial, single-node multi-processing, and distributed computing resources. In our experiments, we demonstrate the reduced search space gain over a naive sequential search of the ideal k and the accuracy of the Binary Bleed in identifying the correct k for NMFk, K-Means pyDNMFk, and pyDRESCALk with Silhouette and Davies Boulding scores. We make our implementation of Binary Bleed for the NMF algorithm available on GitHub. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# グリーディ出力近似:リトレーニングを伴わないLLMの効率的な構造化プルーニングを目指して
Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining ( http://arxiv.org/abs/2407.19126v1 ) ライセンス: Link先を確認 | Jianwei Li, Yijun Dong, Qi Lei, | (参考訳) 大規模言語モデル(LLM)の冗長なコンポーネントを計算コストを伴わずに除去するために、この研究は訓練段階を経ずに単発プルーニングに焦点を当てる。
独立に機能する深さ2プルーニング構造を同定することにより,トランスフォーマー型LCMのプルーニング処理を簡素化する。
さらに、出力近似の最適化の観点から導いた2つの推論対応プルーニング基準を提案し、これは勾配やヘッセンといった従来のトレーニング対応指標よりも優れている。
また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
実験結果から,本手法は様々なデータセットやモデルに対して優れた性能を維持しつつ,計算コストとハードウェア要件を著しく低減することが示された。
To remove redundant components of large language models (LLMs) without incurring significant computational costs, this work focuses on single-shot pruning without a retraining phase. We simplify the pruning process for Transformer-based LLMs by identifying a depth-2 pruning structure that functions independently. Additionally, we propose two inference-aware pruning criteria derived from the optimization perspective of output approximation, which outperforms traditional training-aware metrics such as gradient and Hessian. We also introduce a two-step reconstruction technique to mitigate pruning errors without model retraining. Experimental results demonstrate that our approach significantly reduces computational costs and hardware requirements while maintaining superior performance across various datasets and models. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-26 |
# 大規模言語モデルのセキュリティと安全性のためのブロックチェーン - 全体的調査
Blockchain for Large Language Model Security and Safety: A Holistic Survey ( http://arxiv.org/abs/2407.20181v1 ) ライセンス: Link先を確認 | Caleb Geren, Amanda Board, Gaby G. Dagher, Tim Andersen, Jun Zhuang, | (参考訳) 大きな言語モデルと対話するためのアクセス可能なインターフェースの出現により、彼らの商業的興味と学術的関心の両方に、関連する爆発が起こった。
その結果、大規模でユーザデータを危険にさらすような、大規模な言語モデルに関連する新たな攻撃が突然発生した。
ブロックチェーンは、その開発に匹敵するクロスロードにあり、その急成長の中でLLMに匹敵する存在であり、近年、データ処理のアプローチ方法を再定義する可能性を持つ破壊的な技術として出現している。
特に、データ不変性と不溶性に関する強力な保証に加えて、固有のデータ保証も備えているため、LLMに影響を与える一連の攻撃を防御し、応答の品質をさらに向上する手段として、ブロックチェーンは大きな注目を集めている。
この調査では、LLMの脆弱性を保護するためにブロックチェーンがどのように使われているのか、また、新しいアプリケーションでどのように使われるのか、という現在の研究をホリスティックに評価する。
これらの目的を達成するために、我々は、大規模言語モデル(BC4LLM)のためのブロックチェーンの分類を導入し、また、これらの領域におけるさまざまな研究の性質を正確に捉えるために、さまざまな定義を開発する。
さらに、論文全体を通して、より広い研究活動の文脈化のためのフレームワークを提示し、この分野をさらに動機付けるために、我々は、将来の研究目標と、大規模言語モデル(BC4LLM)分野におけるブロックチェーンにおける課題を特定します。
With the advent of accessible interfaces for interacting with large language models, there has been an associated explosion in both their commercial and academic interest. Consequently, there has also been an sudden burst of novel attacks associated with large language models, jeopardizing user data on a massive scale. Situated at a comparable crossroads in its development, and equally prolific to LLMs in its rampant growth, blockchain has emerged in recent years as a disruptive technology with the potential to redefine how we approach data handling. In particular, and due to its strong guarantees about data immutability and irrefutability as well as inherent data provenance assurances, blockchain has attracted significant attention as a means to better defend against the array of attacks affecting LLMs and further improve the quality of their responses. In this survey, we holistically evaluate current research on how blockchains are being used to help protect against LLM vulnerabilities, as well as analyze how they may further be used in novel applications. To better serve these ends, we introduce a taxonomy of blockchain for large language models (BC4LLM) and also develop various definitions to precisely capture the nature of different bodies of research in these areas. Moreover, throughout the paper, we present frameworks to contextualize broader research efforts, and in order to motivate the field further, we identify future research goals as well as challenges present in the blockchain for large language model (BC4LLM) space. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-26 |
# 量子ビューチオートマタ
Quantum Büchi Automata ( http://arxiv.org/abs/1804.08982v2 ) ライセンス: Link先を確認 | Qisheng Wang, Mingsheng Ying, | (参考訳) 量子有限オートマトン(QFA)は文献で広く研究されている。
本稿では,QFAを拡張した量子系の長期挙動をモデル化するために,無限語上の量子B\「内オートマトン」(QBA)を定義し,体系的に研究する。
QBAが認識する$\omega$-Languagesのクラスを、ほぼ確実に、厳密で非制限しきい値意味論で紹介する。
いくつかのポンプ補題とQBAの閉鎖特性が証明された。
QBAの意思決定問題について検討した。
特に、QBAによって認識される$\omega$-Languageの少なくとも4つの実質的に異なるクラスが存在する(数えきれないほど無限である)。
従来の$\omega$-LanguagesとQBAの関係は,ポンプ補題を用いて明らかにした。
QBAによって認識される$\omega$- languageも、ほぼ確実なセマンティクスの下で見つけることができ、$\omega$-context-freeではない。
Quantum finite automata (QFAs) have been extensively studied in the literature. In this paper, we define and systematically study quantum B\"uchi automata (QBAs) over infinite words to model the long-term behavior of quantum systems, which extend QFAs. We introduce the classes of $\omega$-languages recognized by QBAs in probable, almost sure, strict and non-strict threshold semantics. Several pumping lemmas and closure properties for QBAs are proved. Some decision problems for QBAs are investigated. In particular, we show that there are surprisingly only at most four substantially different classes of $\omega$-languages recognized by QBAs (out of uncountably infinite). The relationship between classical $\omega$-languages and QBAs is clarified using our pumping lemmas. We also find an $\omega$-language recognized by QBAs under the almost sure semantics, which is not $\omega$-context-free. | 翻訳日:2024-07-29 18:55:44 公開日:2024-07-26 |
# 効率的な合成データへの一歩
One Step to Efficient Synthetic Data ( http://arxiv.org/abs/2006.02397v7 ) ライセンス: Link先を確認 | Jordan Awan, Zhanrui Cai, | (参考訳) 合成データに対する一般的なアプローチは、適合したモデルからサンプルをサンプリングすることである。
一般的な仮定では、この手法は非効率な推定器を持ち、真の分布と矛盾する結合分布を持つサンプルとなる。
そこで本研究では,パラメトリックモデルに広く適用可能な合成データの生成方法を提案する。
提案手法により,特定の要約統計を保存した部分合成データセットと,同一の漸近的保証を持つ差分プライバシー(DP)の強い保証を満たす完全合成データの両方を構築することができる。
また、我々の手順からの分布が真の分布に収束する理論的および経験的証拠を提供する。
合成データに焦点をあてる以外に,提案手法は難易度関数の存在下で近似仮説テストを行うためにも利用できる。
A common approach to synthetic data is to sample from a fitted model. We show that under general assumptions, this approach results in a sample with inefficient estimators and whose joint distribution is inconsistent with the true distribution. Motivated by this, we propose a general method of producing synthetic data, which is widely applicable for parametric models, has asymptotically efficient summary statistics, and is both easily implemented and highly computationally efficient. Our approach allows for the construction of both partially synthetic datasets, which preserve certain summary statistics, as well as fully synthetic data which satisfy the strong guarantee of differential privacy (DP), both with the same asymptotic guarantees. We also provide theoretical and empirical evidence that the distribution from our procedure converges to the true distribution. Besides our focus on synthetic data, our procedure can also be used to perform approximate hypothesis tests in the presence of intractable likelihood functions. | 翻訳日:2024-07-29 18:55:44 公開日:2024-07-26 |
# 分散ネットワーク制御における無線スケジューリングのための深層強化学習
Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control ( http://arxiv.org/abs/2109.12562v4 ) ライセンス: Link先を確認 | Gaoyang Pang, Kang Huang, Daniel E. Quevedo, Branka Vucetic, Yonghui Li, Wanchun Liu, | (参考訳) 完全分散無線ネットワーク制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。
確率的システム理論の要素を用いて、制御系パラメータと通信系パラメータの両方で記述されるWNCSの十分な安定性条件を導出する。
条件が満たされると、WNCSのすべての植物を安定させることができる定常的で決定論的スケジューリングポリシーが存在する。
有限長可算ベクトル状態を用いてWNCSのステップあたりのコスト関数を解析し、表現することにより、マルコフ決定プロセスに最適な送信スケジューリング問題を定式化し、それを解くための深層強化学習(DRL)ベースのフレームワークを開発する。
本稿では,DQN(Deep Q-Network)やDDPG(Deep Deterministic Policy Gradient),Twin Delayed Deep Deterministic Policy Gradient(TD3)など,さまざまなアルゴリズムに適用可能な,DRLフレームワークのアクション空間削減とアクション埋め込み手法を提案する。
数値計算の結果,提案アルゴリズムはベンチマークポリシーを著しく上回る結果となった。
We consider a joint uplink and downlink scheduling problem of a fully distributed wireless networked control system (WNCS) with a limited number of frequency channels. Using elements of stochastic systems theory, we derive a sufficient stability condition of the WNCS, which is stated in terms of both the control and communication system parameters. Once the condition is satisfied, there exists a stationary and deterministic scheduling policy that can stabilize all plants of the WNCS. By analyzing and representing the per-step cost function of the WNCS in terms of a finite-length countable vector state, we formulate the optimal transmission scheduling problem into a Markov decision process and develop a deep reinforcement learning (DRL) based framework for solving it. To tackle the challenges of a large action space in DRL, we propose novel action space reduction and action embedding methods for the DRL framework that can be applied to various algorithms, including Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), and Twin Delayed Deep Deterministic Policy Gradient (TD3). Numerical results show that the proposed algorithm significantly outperforms benchmark policies. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# 網膜光コヒーレンス断層画像からのメタデータによるコントラスト学習
Metadata-enhanced contrastive learning from retinal optical coherence tomography images ( http://arxiv.org/abs/2208.02529v3 ) ライセンス: Link先を確認 | Robbie Holland, Oliver Leingang, Hrvoje Bogunović, Sophie Riedl, Lars Fritsche, Toby Prevost, Hendrik P. N. Scholl, Ursula Schmidt-Erfurth, Sobha Sivaprasad, Andrew J. Lotery, Daniel Rueckert, Martin J. Menten, | (参考訳) 深層学習は、医学画像における疾患のスクリーニング、モニタリング、グレードを自動化する可能性がある。
対照的な学習による事前トレーニングにより、モデルが自然な画像データセットから堅牢で一般化可能な特徴を抽出し、ラベル効率のよい下流画像解析を容易にする。
しかし、従来のコントラスト法を直接医療データセットに適用することは、ドメイン固有の2つの問題をもたらす。
第一に、効果的なコントラスト学習に不可欠ないくつかの画像変換は、自然画像から医用画像領域に変換されない。
第二に、従来の2つの画像が異なるという仮定は、同じ解剖学と病気を描いた医学データセットを体系的に誤解している。
これは、同じ患者のコホートを何度も画像化して、時間とともに病気の進行をモニターする縦画像データセットで悪化する。
本稿では,従来のコントラストフレームワークを新しいメタデータ強化戦略で拡張することで,これらの課題に対処する。
本手法では,画像間のコントラスト関係の真のセットを近似するために,患者メタデータを広く活用する。
この目的のために、患者の身元、目の位置(左または右)、時系列情報に記録を用いる。
老化関連黄斑変性症(AMD)患者7,912例の網膜OCT像を170,427例を含む2つの大きな経時的データセットを用いて実験を行った。
我々のメタデータ強化アプローチは、AMDに関連する6つの画像レベル下流タスクのうち5つにおいて、標準コントラスト法と網膜画像基盤モデルの両方より優れている。
モジュール性のため,提案手法を迅速かつ費用対効果で検証し,コントラスト的な事前学習に利用可能なメタデータを組み込むことによる潜在的なメリットを確立することができる。
Deep learning has potential to automate screening, monitoring and grading of disease in medical images. Pretraining with contrastive learning enables models to extract robust and generalisable features from natural image datasets, facilitating label-efficient downstream image analysis. However, the direct application of conventional contrastive methods to medical datasets introduces two domain-specific issues. Firstly, several image transformations which have been shown to be crucial for effective contrastive learning do not translate from the natural image to the medical image domain. Secondly, the assumption made by conventional methods, that any two images are dissimilar, is systematically misleading in medical datasets depicting the same anatomy and disease. This is exacerbated in longitudinal image datasets that repeatedly image the same patient cohort to monitor their disease progression over time. In this paper we tackle these issues by extending conventional contrastive frameworks with a novel metadata-enhanced strategy. Our approach employs widely available patient metadata to approximate the true set of inter-image contrastive relationships. To this end we employ records for patient identity, eye position (i.e. left or right) and time series information. In experiments using two large longitudinal datasets containing 170,427 retinal OCT images of 7,912 patients with age-related macular degeneration (AMD), we evaluate the utility of using metadata to incorporate the temporal dynamics of disease progression into pretraining. Our metadata-enhanced approach outperforms both standard contrastive methods and a retinal image foundation model in five out of six image-level downstream tasks related to AMD. Due to its modularity, our method can be quickly and cost-effectively tested to establish the potential benefits of including available metadata in contrastive pretraining. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# 事象時間関係抽出のためのマルチスケール知識の蒸留
Distilling Multi-Scale Knowledge for Event Temporal Relation Extraction ( http://arxiv.org/abs/2209.00568v3 ) ライセンス: Link先を確認 | Hao-Ren Yao, Luke Breitfeller, Aakanksha Naik, Chunxiao Zhou, Carolyn Rose, | (参考訳) イベント時間関係抽出(ETRE)は最重要だが困難である。
談話の中では、イベントペアは異なる距離またはいわゆる近接バンドに配置される。
時間的順序付けは、より遠隔(例えば ``long'' )またはより遠隔(すなわち ``short'' )に近いバンドが異なるエンコードされるイベントペアについて通信した。
SOTAモデルは、短距離または長距離の近接バンドに位置するイベントでもうまく機能する傾向にあるが、両方ではない。
それでも、現実世界の自然のテキストには、あらゆる時間的なイベントペアが含まれている。
本稿では,MulCo: Distilling Multi-Scale Knowledge via Contrastive Learningについて述べる。
実験の結果,MulCoは近距離帯域と近距離帯域の時間的推論に関連する言語的手がかりをうまく統合し,複数のETREベンチマークデータセットで新たな最先端結果を得ることができた。
Event Temporal Relation Extraction (ETRE) is paramount but challenging. Within a discourse, event pairs are situated at different distances or the so-called proximity bands. The temporal ordering communicated about event pairs where at more remote (i.e., ``long'') or less remote (i.e., ``short'') proximity bands are encoded differently. SOTA models have tended to perform well on events situated at either short or long proximity bands, but not both. Nonetheless, real-world, natural texts contain all types of temporal event-pairs. In this paper, we present MulCo: Distilling Multi-Scale Knowledge via Contrastive Learning, a knowledge co-distillation approach that shares knowledge across multiple event pair proximity bands to improve performance on all types of temporal datasets. Our experimental results show that MulCo successfully integrates linguistic cues pertaining to temporal reasoning across both short and long proximity bands and achieves new state-of-the-art results on several ETRE benchmark datasets. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# サンプル選択による不均一処理効果とソーシャルメディアの政治分極効果への応用
Heterogeneous Treatment Effect Bounds under Sample Selection with an Application to the Effects of Social Media on Political Polarization ( http://arxiv.org/abs/2209.04329v5 ) ライセンス: Link先を確認 | Phillip Heiler, | (参考訳) 一般試料選択モデルにおいて, 結果が観察されるか否かに影響を及ぼし, 排他的制約がない場合において, 不均一因果効果パラメータのバウンダリを推定し, 推定する手法を提案する。
この方法は、ポリシーに関連する事前処理変数の関数として条件効果境界を提供する。
特定されていない条件効果について有効な統計的推測を行うことができる。
フレキシブルなデバイアス/ダブルな機械学習アプローチを使用して、非線形機能形式や高次元の共同創設者に対応しています。
簡易に検証可能な高レベルな推定条件、不特定性頑健な信頼区間、均一な信頼帯域も提供される。
我々は、Facebook上の大規模フィールド実験から、アトリクションを伴う対人ニュース購読に関するデータを再分析する。
提案手法は,従来の方法に比べてかなり厳密な効果を示し,若年者に対する脱分極効果を提案する。
We propose a method for estimation and inference for bounds for heterogeneous causal effect parameters in general sample selection models where the treatment can affect whether an outcome is observed and no exclusion restrictions are available. The method provides conditional effect bounds as functions of policy relevant pre-treatment variables. It allows for conducting valid statistical inference on the unidentified conditional effects. We use a flexible debiased/double machine learning approach that can accommodate non-linear functional forms and high-dimensional confounders. Easily verifiable high-level conditions for estimation, misspecification robust confidence intervals, and uniform confidence bands are provided as well. We re-analyze data from a large scale field experiment on Facebook on counter-attitudinal news subscription with attrition. Our method yields substantially tighter effect bounds compared to conventional methods and suggests depolarization effects for younger users. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# 光ばねを用いた標準量子限界通過
Surpassing the Standard Quantum Limit using an Optical Spring ( http://arxiv.org/abs/2210.12222v2 ) ライセンス: Link先を確認 | Torrey Cullen, Scott Aronson, Ron Pagano, Jonathan Cripe, Safura Sharifi, Michelle Lollie, Henry Cain, Paula Heu, David Follman, Garrett D Cole, Nancy Aggarwal, Thomas Corbitt, | (参考訳) 量子力学は、物理的測定にノイズの制限と感度の制限を課す。
望ましくないバックアクションと光学測定の精度のバランスは、インターフェロメトリシステムに標準量子限界(SQL)を課す。
SQLの下の感度を実現するには、バックアクション回避測定技術を利用するか、検出器の余剰ノイズコントリビューションのキャンセルを利用する必要がある。
% 原則実験の多くの証明が実施されているが、最近になってSQLよりも感度が低い実験が実施された。
本研究では,その初期実験を拡張し,従来の測定値の約2倍の感度を実現するとともに,干渉法重力波検出器にも適用できるアーキテクチャについて述べる。
実際、この技術はAdvanced LIGOに直接適用でき、信号のリサイクルキャビティで同様の効果を観測できる。
光バネによって生成される量子相関を利用して、量子限界以下でのノイズパワーの減少に対応する$\textbf{2.8}$ dBでSQL以下の総感度を測定する。
劣化した光バネを用いることで、このノイズ低減を調整可能とし、SQLより低い周波数範囲を選択することができる。
この結果は、LIGOに適用可能な周波数範囲でSQLのかなり下にある感度にアクセスでき、重力波検出器の到達範囲を宇宙に広げる可能性を示している。
Quantum mechanics places noise limits and sensitivity restrictions on physical measurements. The balance between unwanted backaction and the precision of optical measurements impose a standard quantum limit (SQL) on interferometric systems. In order to realize a sensitivity below the SQL, it is necessary to leverage a back-action evading measurement technique, or else exploit cancellations of any excess noise contributions at the detector. %Many proof of principle experiments have been performed, but only recently has an experiment achieved sensitivity below the SQL. In this work, we extend that initial demonstration and realize sub-SQL measurement sensitivity nearly two times better than previous measurements, and with architecture applicable to interferometric gravitational wave detectors. In fact, this technique is directly applicable to Advanced LIGO, which could observe similar effects with a detuned signal recycling cavity. By exploiting quantum correlations created by an optical spring, we measure a total sensitivity below the SQL by $\textbf{2.8}$ dB, corresponding to a reduction in the noise power by $\textbf{72}\pm\textbf{5.1}$ \% below the quantum limit. Through the use of a detuned optical spring, this noise reduction is tunable, allowing us to choose the desired range of frequencies that fall below the SQL. This result demonstrates access to sensitivities well below the SQL at frequencies ranges applicable to LIGO, with the potential to extend the reach of gravitational wave detectors further into the universe. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# 量子エラー検出符号による表現回路の保護
Protecting Expressive Circuits with a Quantum Error Detection Code ( http://arxiv.org/abs/2211.06703v2 ) ライセンス: Link先を確認 | Chris N. Self, Marcello Benedetti, David Amaro, | (参考訳) 量子エラー訂正プロトコルが成功すると、量子コンピュータはノイズの影響を受けずにアルゴリズムを実行できる。
しかし、完全フォールトトレラントな量子エラー補正は、既存の量子コンピュータでは資源集約的すぎる。
この文脈では、既存の閉じ込められたイオンコンピュータの実装のための量子エラー検出コードを開発する。
k$論理キュービットを$k+2$物理キュービットに符号化することにより、単一キュービットエラーを検出できるフォールトトレラントな状態初期化とシンドローム測定回路を提示する。
局所的および大域的論理的回転の普遍的な集合を提供し、2つの量子ビットのみを物理的に支持する。
高忠実性 -- 非フォールトトレラントでも -- このユニバーサルゲートセットのコンパイルは、すべて接続可能なトラップイオンコンピュータに存在する2ビット物理回転のおかげで可能である。
論理演算子の特定の構造を考えると、アイスバーグ符号と呼ばれる。
最大256層までの8個の論理量子ビットの回路保護を実証し、論理量子体積を2^8$に飽和させ、回路内でのシンドローム測定の頻度を増大させる正の効果を示す。
これらの結果は、既存の閉じ込められたイオン量子コンピュータ上で表現回路を保護するためのアイスバーグ符号の実用的有用性を示している。
A successful quantum error correction protocol would allow quantum computers to run algorithms without suffering from the effects of noise. However, fully fault-tolerant quantum error correction is too resource intensive for existing quantum computers. In this context we develop a quantum error detection code for implementations on existing trapped-ion computers. By encoding $k$ logical qubits into $k+2$ physical qubits, this code presents fault-tolerant state initialisation and syndrome measurement circuits that can detect any single-qubit error. It provides a universal set of local and global logical rotations that have physical support on only two qubits. A high-fidelity -- though non fault-tolerant -- compilation of this universal gate set is possible thanks to the two-qubit physical rotations present in trapped-ion computers with all-to-all connectivity. Given the particular structure of the logical operators, we nickname it the Iceberg code. We demonstrate the protection of circuits of 8 logical qubits with up to 256 layers, saturate the logical quantum volume of $2^8$, and show the positive effect of increasing the frequency of syndrome measurements within the circuit. These results illustrate the practical usefulness of the Iceberg code to protect expressive circuits on existing trapped-ion quantum computers. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# Point-DAE: 自己教師型ポイントクラウド学習のためのオートエンコーダ
Point-DAE: Denoising Autoencoders for Self-supervised Point Cloud Learning ( http://arxiv.org/abs/2211.06841v4 ) ライセンス: Link先を確認 | Yabin Zhang, Jiehong Lin, Ruihuang Li, Kui Jia, Lei Zhang, | (参考訳) Masked Autoencoderは、自己教師付きポイントクラウド学習において、その効果を実証している。
マスキングは一種の汚職であり、この研究では、マスキング以外の多くの種類の汚職を調査することによって、ポイントクラウドラーニング(Point-DAE)のためのより一般的なオートエンコーダを探索する。
具体的には、特定の破損を入力としてポイントクラウドを分解し、エンコーダ・デコーダモデルを学び、元のポイントクラウドを破損したバージョンから再構築する。
従来の非トランスフォーマーエンコーダを用いて,3つの汚職家族(クッキー,密度/マスキング,ノイズ,アフィン変換)と合計14の汚職タイプを調査した。
一般的なマスキングの汚職に加えて、別の効果的な汚職家族 \ie, affine transformation も特定する。
アフィン変換は世界中に全ての点を乱し、これはいくつかの局所領域が落とされたマスキングの腐敗を補完する。
また、トランスフォーマーのバックボーンによるアフィン変換破壊の有効性を検証し、完全点雲の再構成を詳細な局所パッチと粗大域形状の再構成に分解し、復元における位置漏洩問題を緩和する。
対象分類, 少数ショット学習, 頑健性試験, 部分分割, および3次元物体検出のタスクに対する広範囲な実験により, 提案手法の有効性が検証された。
コードは \url{https://github.com/YBZh/Point-DAE} で公開されている。
Masked autoencoder has demonstrated its effectiveness in self-supervised point cloud learning. Considering that masking is a kind of corruption, in this work we explore a more general denoising autoencoder for point cloud learning (Point-DAE) by investigating more types of corruptions beyond masking. Specifically, we degrade the point cloud with certain corruptions as input, and learn an encoder-decoder model to reconstruct the original point cloud from its corrupted version. Three corruption families (\ie, density/masking, noise, and affine transformation) and a total of fourteen corruption types are investigated with traditional non-Transformer encoders. Besides the popular masking corruption, we identify another effective corruption family, \ie, affine transformation. The affine transformation disturbs all points globally, which is complementary to the masking corruption where some local regions are dropped. We also validate the effectiveness of affine transformation corruption with the Transformer backbones, where we decompose the reconstruction of the complete point cloud into the reconstructions of detailed local patches and rough global shape, alleviating the position leakage problem in the reconstruction. Extensive experiments on tasks of object classification, few-shot learning, robustness testing, part segmentation, and 3D object detection validate the effectiveness of the proposed method. The codes are available at \url{https://github.com/YBZh/Point-DAE}. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# 最小コピーから対称状態の物理的性質を推定する
Inferring physical properties of symmetric states from the fewest copies ( http://arxiv.org/abs/2301.10982v3 ) ライセンス: Link先を確認 | Da-Jian Zhang, D. M. Tong, | (参考訳) 高次元状態の物理的特性の学習は量子技術の発達に不可欠であるが、実際には非常に多くのサンプルを消費する。
このレターでは、量子力学の方法論を用いてこの問題に対処し、絡み合った測定に基づく戦略を提案し、サンプルの複雑さを劇的に低減する。
観測可能な物質の対称性を特徴とするこの戦略は、物理学においてユビキタスな状態の対称構造を探索することによるものである。
これはいくつかの自然な仮定の下で証明可能な最適であり、様々な状況で効率的に実装でき、基本的なビルディングブロックとして既存のメソッドに組み込むことができる。
実験によって動機付けられた様々なシナリオに戦略を適用し、サンプルの複雑さを指数関数的に減少させることを実証する。
Learning physical properties of high-dimensional states is crucial for developing quantum technologies but usually consumes an exceedingly large number of samples which are difficult to afford in practice. In this Letter, we use the methodology of quantum metrology to tackle this difficulty, proposing a strategy built upon entangled measurements for dramatically reducing sample complexity. The strategy, whose characteristic feature is symmetrization of observables, is powered by the exploration of symmetric structures of states which are ubiquitous in physics. It is provably optimal under some natural assumption, efficiently implementable in a variety of contexts, and capable of being incorporated into existing methods as a basic building block. We apply the strategy to different scenarios motivated by experiments, demonstrating exponential reductions in sample complexity. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# グラフ変換器を用いた生成逆数ネットワークを用いた薬物候補分子のターゲット特異的デノボ設計
Target Specific De Novo Design of Drug Candidate Molecules with Graph Transformer-based Generative Adversarial Networks ( http://arxiv.org/abs/2302.07868v6 ) ライセンス: Link先を確認 | Atabey Ünlü, Elif Çevrim, Ahmet Sarıgün, Melih Gökay Yiğit, Hayriye Çelikbilek, Osman Bayram, Heval Ataş Güvenilir, Altay Koyaş, Deniz Cansen Kahraman, Abdurrahman Olğaç, Ahmet Rifaioğlu, Erden Banoğlu, Tunca Doğan, | (参考訳) 新規な薬物候補分子の発見は、薬物開発における最も基本的で重要なステップの1つである。
確率分布を与えられた合成データを生成する生成的ディープラーニングモデルは、デノボ分子を設計するための高い可能性を提供する。
しかし、現実の医薬品開発パイプラインで有用であるためには、これらのモデルが薬物様で標的中心の分子を設計できる必要がある。
本研究では,標的タンパク質と相互作用する薬物候補分子のデノボ設計のための,エンド・ツー・エンドな生成システムであるDragonGENを提案する。
提案手法は, 分子をグラフとして表現し, グラフトランスフォーマー層からなる生成逆ネットワークを介して処理する。
このシステムは、薬物様化合物の大規模なデータセットと標的特異的な生物活性分子を用いて訓練され、様々な種類のがんの治療の開発において重要なAKT1タンパク質に対する効果的な阻害分子を設計する。
そこで本研究では,分子ドッキングとダイナミックスを用いて,モデルにおける目標中心生成性能の評価を行い,注意点の可視化を行い,モデルの解釈可能性について検討した。
以上の結果から,我々のデノボ分子はAKT1タンパク質と相互作用する可能性が高いことが示唆された。
オープンアクセスの薬原コードベースを使用することで、実験で知られている生物活性分子のデータセットから、他の薬剤性タンパク質のモデルを容易に訓練することができる。
Discovering novel drug candidate molecules is one of the most fundamental and critical steps in drug development. Generative deep learning models, which create synthetic data given a probability distribution, offer a high potential for designing de novo molecules. However, for them to be useful in real-life drug development pipelines, these models should be able to design drug-like and target-centric molecules. In this study, we propose an end-to-end generative system, DrugGEN, for the de novo design of drug candidate molecules that interact with intended target proteins. The proposed method represents molecules as graphs and processes them via a generative adversarial network comprising graph transformer layers. The system is trained using a large dataset of drug-like compounds and target-specific bioactive molecules to design effective inhibitory molecules against the AKT1 protein, which is critically important in developing treatments for various types of cancer. We conducted molecular docking and dynamics to assess the target-centric generation performance of the model, as well as attention score visualisation to examine model interpretability. Results indicate that our de novo molecules have a high potential for interacting with the AKT1 protein at the level of its native ligands. Using the open-access DrugGEN codebase, it is possible to easily train models for other druggable proteins, given a dataset of experimentally known bioactive molecules. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# SCBデータセット: 生徒の授業行動を検出するデータセット
SCB-dataset: A Dataset for Detecting Student Classroom Behavior ( http://arxiv.org/abs/2304.02488v2 ) ライセンス: Link先を確認 | Fan Yang, | (参考訳) 生徒の授業行動を自動的に検出する深層学習手法は,授業成績を分析し,教育効果を高める上で有望なアプローチである。
しかし、学生行動に関する公開データセットの欠如は、この分野の研究者にとって課題となっている。
この問題に対処するために,実生活シナリオを反映した学生クラスルーム行動データセット(SCBデータセット)を提案する。
データセットには11,248のラベルと4,003のイメージが含まれており、手作り行動に焦点を当てている。
YOLOv7アルゴリズムを用いてデータセットを評価し,平均精度(マップ)を85.3%まで向上させた。
我々のSCBデータセットは、学生行動検出の分野における将来の研究の堅牢な基盤として機能し、この分野のさらなる進歩を促進することができると信じており、https://github.com/Whiffe/SCBデータセットからダウンロードすることができる。
The use of deep learning methods for automatic detection of students' classroom behavior is a promising approach to analyze their class performance and enhance teaching effectiveness. However, the lack of publicly available datasets on student behavior poses a challenge for researchers in this field. To address this issue, we propose a Student Classroom Behavior dataset (SCB-dataset) that reflects real-life scenarios. Our dataset includes 11,248 labels and 4,003 images, with a focus on hand-raising behavior. We evaluated the dataset using the YOLOv7 algorithm, achieving a mean average precision (map) of up to 85.3%. We believe that our dataset can serve as a robust foundation for future research in the field of student behavior detection and promote further advancements in this area.Our SCB-dataset can be downloaded from: https://github.com/Whiffe/SCB-dataset | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# ボース・アインシュタイン凝縮体に浸漬したフェルミオン不純物の集合流動
Collective flow of fermionic impurities immersed in a Bose-Einstein Condensate ( http://arxiv.org/abs/2304.07663v2 ) ライセンス: Link先を確認 | Zoe Z. Yan, Yiqi Ni, Alexander Chuang, Pavel E. Dolgirev, Kushal Seetharam, Eugene Demler, Carsten Robens, Martin Zwierlein, | (参考訳) ボソンとフェルミオンの相互作用する混合物は自然界においてユビキタスである。
これらは物理学の標準モデルのバックボーンを形成し、量子材料を理解するための枠組みを提供し、ヘリウム希釈冷凍機において技術的に重要である。
しかし、それらの熱力学と集合的挙動の結合の記述は困難である。
極低温原子のボース・フェルミ混合物は、種濃度と相互作用強度を自由に調整できる高度に制御可能な環境において、それらの性質を研究するための基盤を提供する。
ここでは, 相互作用強度と温度の関数として, ボース・アインシュタイン凝縮体に浸漬したスピン偏極性フェルミオン不純物の集合振動を特徴づける。
強い相互作用のために、フェルミガスは低エネルギーの四重極モードから高次ファラデー励起まで、凝縮体の超流動流体モードを完璧に模倣する。
ボソニックな熱励起が増加するにつれて、不純物の動力学は衝突のない状態から流体力学状態に渡り、2次元の電子流体における流体力学の出現を思い出させる。
Interacting mixtures of bosons and fermions are ubiquitous in nature. They form the backbone of the standard model of physics, provide a framework for understanding quantum materials and are of technological importance in helium dilution refrigerators. However, the description of their coupled thermodynamics and collective behaviour is challenging. Bose-Fermi mixtures of ultracold atoms provide a platform to investigate their properties in a highly controllable environment, where the species concentration and interaction strength can be tuned at will. Here we characterize the collective oscillations of spin-polarized fermionic impurities immersed in a Bose-Einstein condensate as a function of the interaction strength and temperature. For strong interactions, the Fermi gas perfectly mimics the superfluid hydrodynamic modes of the condensate, from low-energy quadrupole modes to high-order Faraday excitations. With an increasing number of bosonic thermal excitations, the dynamics of the impurities cross over from the collisionless to the hydrodynamic regime, reminiscent of the emergence of hydrodynamics in two-dimensional electron fluids. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# DistriBlock:出力分布の特性を利用した対向音声サンプルの同定
DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution ( http://arxiv.org/abs/2305.17000v6 ) ライセンス: Link先を確認 | Matías P. Pizarro B., Dorothea Kolossa, Asja Fischer, | (参考訳) 敵対的攻撃は、自動音声認識(ASR)システムを誤って任意のターゲットテキストを予測し、明確なセキュリティ脅威を引き起こす可能性がある。
このような攻撃を防止するために,各ステップで出力トークン上の確率分布を予測するASRシステムに適用可能な,効率的な検出戦略であるDistriBlockを提案する。
出力確率に対する中央値,最大値,最小値,分布のエントロピー,Kulback-LeiblerおよびJensen-Shannon分散といった分布の特性を,その後の時間ステップの分布に関して測定する。
そして、良性データと逆性データの両方で観測される特徴を活用することにより、単純なしきい値に基づく分類、そのような分類器のアンサンブル、ニューラルネットワークなどのバイナリ分類器を適用する。
現状のASRシステムと言語データセットの多種多様な分析を通じて, 対象の敵対的事例を, 99%, 97%のクリーンデータとノイズデータとを区別する受信者動作特性曲線下の平均領域を用いて, このアプローチの最高性能を実証した。
提案手法のロバスト性を評価するため,DistriBlockを回避可能な適応的対向例は,フィルタにより検出しやすくなり,システムのロバスト性を維持するための新たな道がもたらされた。
Adversarial attacks can mislead automatic speech recognition (ASR) systems into predicting an arbitrary target text, thus posing a clear security threat. To prevent such attacks, we propose DistriBlock, an efficient detection strategy applicable to any ASR system that predicts a probability distribution over output tokens in each time step. We measure a set of characteristics of this distribution: the median, maximum, and minimum over the output probabilities, the entropy of the distribution, as well as the Kullback-Leibler and the Jensen-Shannon divergence with respect to the distributions of the subsequent time step. Then, by leveraging the characteristics observed for both benign and adversarial data, we apply binary classifiers, including simple threshold-based classification, ensembles of such classifiers, and neural networks. Through extensive analysis across different state-of-the-art ASR systems and language data sets, we demonstrate the supreme performance of this approach, with a mean area under the receiver operating characteristic curve for distinguishing target adversarial examples against clean and noisy data of 99% and 97%, respectively. To assess the robustness of our method, we show that adaptive adversarial examples that can circumvent DistriBlock are much noisier, which makes them easier to detect through filtering and creates another avenue for preserving the system's robustness. | 翻訳日:2024-07-29 18:51:23 公開日:2024-07-26 |
# 表現バランスを用いたクラスタデータからの条件平均線量応答の学習
Using representation balancing to learn conditional-average dose responses from clustered data ( http://arxiv.org/abs/2309.03731v2 ) ライセンス: Link先を確認 | Christopher Bockel-Rickermann, Toon Vanderschueren, Jeroen Berrevoets, Tim Verdonck, Wouter Verbeke, | (参考訳) 関連する用量による介入に対するユニットの反応を推定する「条件平均用量反応」(CADR)は、医療からビジネス、経済学など、様々な領域で関係がある。
このような応答は通常、いくつかの課題をもたらす観測データから推定する必要がある。
そのため、機械学習(ML)コミュニティは、いくつかのカスタマイズされたCADR推定器を提案している。
しかし、これらの手法のほとんどの提案は、因果推論における標準的な仮定を超えて、データの分布と介入の割り当てについて強い仮定を必要とする。
これまでの研究は、線量間の共変量分布のスムーズな変化に重点を置いてきたが、本研究では、クラスタ化されたデータからCADRを推定し、異なる線量が集団の異なるセグメントに割り当てられる場所について検討する。
新たなベンチマークデータセットでは,クラスタ化データのモデル性能への影響を示すとともに,非バイアスCADR推論の表現バランスによるクラスタ非依存的,従って線量非依存な共変量表現を学習する推定器CBRNetを提案する。
提案手法の動作を説明するために広範囲な実験を行い,CADR推定のためのMLの最先端技術と比較した。
Estimating a unit's responses to interventions with an associated dose, the "conditional average dose response" (CADR), is relevant in a variety of domains, from healthcare to business, economics, and beyond. Such a response typically needs to be estimated from observational data, which introduces several challenges. That is why the machine learning (ML) community has proposed several tailored CADR estimators. Yet, the proposal of most of these methods requires strong assumptions on the distribution of data and the assignment of interventions, which go beyond the standard assumptions in causal inference. Whereas previous works have so far focused on smooth shifts in covariate distributions across doses, in this work, we will study estimating CADR from clustered data and where different doses are assigned to different segments of a population. On a novel benchmarking dataset, we show the impacts of clustered data on model performance and propose an estimator, CBRNet, that learns cluster-agnostic and hence dose-agnostic covariate representations through representation balancing for unbiased CADR inference. We run extensive experiments to illustrate the workings of our method and compare it with the state of the art in ML for CADR estimation. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# 駆動散逸非線形発振器における圧縮およびコヒーレント重ね合わせの量子メモリ
Quantum memories for squeezed and coherent superpositions in a driven-dissipative nonlinear oscillator ( http://arxiv.org/abs/2309.06300v2 ) ライセンス: Link先を確認 | Adrià Labay-Mora, Roberta Zambrini, Gian Luca Giorgi, | (参考訳) 非線形駆動と散逸項を持つ量子発振器は、普遍的な量子計算のためにキャットステートを安定化する能力によって注目されている。
近年、超伝導回路は、コヒーレントな状態に保存された長寿命の量子ビットを実現するために用いられている。
これらの振動子の一般化はコヒーレントな状態に限らず、駆動や散逸において異なる非線形性が存在し、異なる次数について探索する。
具体的には, 漸近的動的特徴の広範な解析と, 圧縮状態の保存について述べる。
圧縮された状態のコヒーレントな重ね合わせは、強い対称性の存在下で達成可能であることを実証し、圧縮された猫状態の保存を可能にする。
線形散逸を考慮に入れた弱対称性状態において、これらの非線形駆動散逸共振器の量子コンピューティングおよび量子連想メモリへの応用の可能性について検討し、スクイーズの影響を解析する。
Quantum oscillators with nonlinear driving and dissipative terms have gained significant attention due to their ability to stabilize cat-states for universal quantum computation. Recently, superconducting circuits have been employed to realize such long-lived qubits stored in coherent states. We present a generalization of these oscillators, which are not limited to coherent states, in the presence of different nonlinearities in driving and dissipation, exploring different degrees. Specifically, we present an extensive analysis of the asymptotic dynamical features and of the storage of squeezed states. We demonstrate that coherent superpositions of squeezed states are achievable in the presence of a strong symmetry, thereby allowing for the storage of squeezed cat-states. In the weak symmetry regime, accounting for linear dissipation, we investigate the potential application of these nonlinear driven-dissipative resonators for quantum computing and quantum associative memory and analyze the impact of squeezing on their performance. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# 視点テキストインバージョン:2次元拡散モデルにおけるシーン表現と3次元ビュー制御の発見
Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models ( http://arxiv.org/abs/2309.07986v2 ) ライセンス: Link先を確認 | James Burgess, Kuan-Chieh Wang, Serena Yeung-Levy, | (参考訳) テキストと画像の拡散モデルは印象的でリアルな画像を生成しますが、彼らは2Dの監督だけで3Dの世界を表現することを学んでいますか?
安定拡散(Stable Diffusion)のようなモデルのテキスト埋め込み空間に,ある3次元シーン表現がエンコードされていることを実証する。
ビューポイント・ニューラルテクスチュアル・インバージョン(ViewNeTI)は、3次元ビュートークンを発見することを目的としており、これらのトークンは生成された画像の3次元ビューポイント(シーン内のレンダリングポーズ)を制御する。
具体的には、小さなニューラルマッパーを訓練し、連続したカメラ視点パラメータを抽出し、ビュートークン(単語埋め込み)を予測する。
このトークンは、クロスアテンションによる拡散生成を条件とし、所望のカメラ視点で画像を生成する。
評価ツールとしてViewNeTIを用いて,テキストラテント空間は特定の3次元シーンに対して連続的なビュー制御多様体を持ち,また,すべてのシーンに対して一般化されたビュー制御多様体が存在することを示す。
ビュートークンが3D `rendering' の視点を制御しているため,凍結した2次元拡散モデルに埋め込まれたシーン表現が存在する可能性が示唆された。
最後に,3次元視覚タスク,すなわちビュー制御されたテキスト・ツー・イメージ生成のための3次元シーン表現と,単一画像からの新規ビュー合成を利用する。
https://github.com/jmhb0/view_neti
Text-to-image diffusion models generate impressive and realistic images, but do they learn to represent the 3D world from only 2D supervision? We demonstrate that yes, certain 3D scene representations are encoded in the text embedding space of models like Stable Diffusion. Our approach, Viewpoint Neural Textual Inversion (ViewNeTI), is to discover 3D view tokens; these tokens control the 3D viewpoint - the rendering pose in a scene - of generated images. Specifically, we train a small neural mapper to take continuous camera viewpoint parameters and predict a view token (a word embedding). This token conditions diffusion generation via cross-attention to produce images with the desired camera viewpoint. Using ViewNeTI as an evaluation tool, we report two findings: first, the text latent space has a continuous view-control manifold for particular 3D scenes; second, we find evidence for a generalized view-control manifold for all scenes. We conclude that since the view token controls the 3D `rendering' viewpoint, there is likely a scene representation embedded in frozen 2D diffusion models. Finally, we exploit the 3D scene representations for 3D vision tasks, namely, view-controlled text-to-image generation, and novel view synthesis from a single image, where our approach sets state-of-the-art for LPIPS. Code available at https://github.com/jmhb0/view_neti | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# 共感応答生成のための大規模言語モデルの力の調和:実証的研究と改善
Harnessing the Power of Large Language Models for Empathetic Response Generation: Empirical Investigations and Improvements ( http://arxiv.org/abs/2310.05140v4 ) ライセンス: Link先を確認 | Yushan Qian, Wei-Nan Zhang, Ting Liu, | (参考訳) 共感的対話は、調和した社会的関係を構築するのに必要な部分であり、有用なAIの開発に寄与する。
従来のアプローチは主に小さな言語モデルに基づいていた。
ChatGPTの出現により、この分野における大規模言語モデル(LLM)の適用効果に大きな注目を集めている。
本研究は, 共感応答生成におけるLLMの性能を実証的に検討し, 意味論的に類似したインコンテキスト学習, 2段階対話生成, 知識ベースの組み合わせの3つの改善手法を提案する。
大規模な実験により, LLMは提案手法の利点を大いに生かし, 自動評価と人的評価の両方で最先端の性能を達成できることが示されている。
また,GPT-4によるヒト評価の可能性についても検討した。
Empathetic dialogue is an indispensable part of building harmonious social relationships and contributes to the development of a helpful AI. Previous approaches are mainly based on fine small-scale language models. With the advent of ChatGPT, the application effect of large language models (LLMs) in this field has attracted great attention. This work empirically investigates the performance of LLMs in generating empathetic responses and proposes three improvement methods of semantically similar in-context learning, two-stage interactive generation, and combination with the knowledge base. Extensive experiments show that LLMs can significantly benefit from our proposed methods and is able to achieve state-of-the-art performance in both automatic and human evaluations. Additionally, we explore the possibility of GPT-4 simulating human evaluators. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# AEP$n$P: 異方性スケーリングを用いた詩推定のための低制約EP$n$Pソルバー
AEP$n$P: A Less-constrained EP$n$P Solver for Pose Estimation with Anisotropic Scaling ( http://arxiv.org/abs/2310.09982v4 ) ライセンス: Link先を確認 | Jiaxin Wei, Stefan Leutenegger, Laurent Kneip, | (参考訳) Perspective-$n$-Point (P$n$P) は、様々なアプリケーションにおけるポーズ推定の基本的なアルゴリズムである。
本稿では,制約緩和によるP$n$P問題に対する新しいアプローチを提案する。
古典的なEP$n$Pソルバをベースとして、一般的な6次元変換に加えて未知の異方性スケーリング因子を扱えるため、AEP$n$Pと呼ぶ。
いくつかの代数的操作と十分に整合的な参照フレームを通じて、この新しい問題は単純な線型なヌル空間問題に沸騰させ、その後に点登録に基づく類似性変換の同定を行うことができる。
AEP$n$Pがオブジェクトのポーズ推定に柔軟で実用的な解であることを示す。
コード:https://github.com/goldoak/AEPnP。
Perspective-$n$-Point (P$n$P) stands as a fundamental algorithm for pose estimation in various applications. In this paper, we present a new approach to the P$n$P problem with relaxed constraints, eliminating the need for precise 3D coordinates, which is especially suitable for object pose estimation where corresponding object models may not be available in practice. Built upon the classical EP$n$P solver, we refer to it as AEP$n$P due to its ability to handle unknown anisotropic scaling factors in addition to the common 6D transformation. Through a few algebraic manipulations and a well-chosen frame of reference, this new problem can be boiled down to a simple linear null-space problem followed by point registration-based identification of a similarity transformation. Experimental results on both simulated and real datasets demonstrate the effectiveness of AEP$n$P as a flexible and practical solution to object pose estimation. Code: https://github.com/goldoak/AEPnP. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# Janusインターフェース: 大規模言語モデルにおける微調整がプライバシリスクをいかに増幅するか
The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks ( http://arxiv.org/abs/2310.15469v3 ) ライセンス: Link先を確認 | Xiaoyi Chen, Siyuan Tang, Rui Zhu, Shijun Yan, Lei Jin, Zihao Wang, Liya Su, Zhikun Zhang, XiaoFeng Wang, Haixu Tang, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、個人識別可能な情報(PII)のプライバシー漏洩を、広範囲にわたるトレーニングデータセット内で公に懸念している。
近年の研究では、敵が慎重に設計されたプロンプトを用いて、LLMのトレーニングデータから高感度なプライバシーデータを抽出できることが示されている。
しかし、これらの攻撃は、訓練前の段階での幻覚と破滅的忘れ(CF)の傾向に悩まされ、希釈されたPIIの正確性は無視できない。
本研究では,LLMの事前学習データから忘れられたPIIを復元するために,微調整インタフェースを利用した新しい攻撃であるJanusを提案する。
LLMのプライバシリーク問題を形式化し,オープンソース言語モデルの実証分析により,なぜ忘れられたPIIを回収できるのかを説明する。
これらの知見に基づき、Janusのオープンソース言語モデルと最新のLLMであるGPT-3.5-TurboとLLaMA-2-7bの性能を評価する。
実験の結果,Janusはベースラインと比較して10倍以上のプライバシーリスクを増幅し,プレフィックス攻撃やテキスト内学習(ICL)を含む最先端のプライバシ抽出攻撃を著しく上回っていることがわかった。
さらに、我々の分析は、OpenAIとAzure AI Studioが提供する既存の微調整APIがJanus攻撃の影響を受けやすいことを検証し、敵がそのような攻撃を低コストで実施できるようにする。
The rapid advancements of large language models (LLMs) have raised public concerns about the privacy leakage of personally identifiable information (PII) within their extensive training datasets. Recent studies have demonstrated that an adversary could extract highly sensitive privacy data from the training data of LLMs with carefully designed prompts. However, these attacks suffer from the model's tendency to hallucinate and catastrophic forgetting (CF) in the pre-training stage, rendering the veracity of divulged PIIs negligible. In our research, we propose a novel attack, Janus, which exploits the fine-tuning interface to recover forgotten PIIs from the pre-training data in LLMs. We formalize the privacy leakage problem in LLMs and explain why forgotten PIIs can be recovered through empirical analysis on open-source language models. Based upon these insights, we evaluate the performance of Janus on both open-source language models and two latest LLMs, i.e., GPT-3.5-Turbo and LLaMA-2-7b. Our experiment results show that Janus amplifies the privacy risks by over 10 times in comparison with the baseline and significantly outperforms the state-of-the-art privacy extraction attacks including prefix attacks and in-context learning (ICL). Furthermore, our analysis validates that existing fine-tuning APIs provided by OpenAI and Azure AI Studio are susceptible to our Janus attack, allowing an adversary to conduct such an attack at a low cost. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# RCAgent: ツール強化大規模言語モデルを用いた自律エージェントによるクラウドルート解析
RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models ( http://arxiv.org/abs/2310.16340v2 ) ライセンス: Link先を確認 | Zefan Wang, Zichuan Liu, Yingying Zhang, Aoxiao Zhong, Jihong Wang, Fengbin Yin, Lunting Fan, Lingfei Wu, Qingsong Wen, | (参考訳) 近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。
しかし、現在のメソッドは手動のワークフロー設定に依存しており、LCMの意思決定と環境相互作用能力を解き放たない。
RCAgentは、実用的でプライバシに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。
RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。
私たちのフレームワークは、アクショントラジェクトリのためのユニークなセルフ一貫性や、コンテキスト管理、安定化、ドメイン知識のインポートのための一連のメソッドなど、さまざまな拡張を組み合わせています。
我々の実験は、RCAのすべての側面 – 根本原因、ソリューション、エビデンス、責任の予測 -- におけるReActに対するRCAgentの明らかかつ一貫した優位性、そして、自動化されたメトリクスと人的評価の両方によって検証された現在のルールによってカバーまたは明らかにされたタスクを示しています。
さらに、RCAgentはすでにAlibaba CloudのApache Flink用のReal-time Compute Platformの診断と問題発見ワークフローに統合されている。
Large language model (LLM) applications in cloud root cause analysis (RCA) have been actively explored recently. However, current methods are still reliant on manual workflow settings and do not unleash LLMs' decision-making and environment interaction capabilities. We present RCAgent, a tool-augmented LLM autonomous agent framework for practical and privacy-aware industrial RCA usage. Running on an internally deployed model rather than GPT families, RCAgent is capable of free-form data collection and comprehensive analysis with tools. Our framework combines a variety of enhancements, including a unique Self-Consistency for action trajectories, and a suite of methods for context management, stabilization, and importing domain knowledge. Our experiments show RCAgent's evident and consistent superiority over ReAct across all aspects of RCA -- predicting root causes, solutions, evidence, and responsibilities -- and tasks covered or uncovered by current rules, as validated by both automated metrics and human evaluations. Furthermore, RCAgent has already been integrated into the diagnosis and issue discovery workflow of the Real-time Compute Platform for Apache Flink of Alibaba Cloud. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# AMIR: COVID-19ワクチンデータセットに基づく推奨システム
AMIR: Automated MisInformation Rebuttal -- A COVID-19 Vaccination Datasets based Recommendation System ( http://arxiv.org/abs/2310.19834v2 ) ライセンス: Link先を確認 | Shakshi Sharma, Anwitaman Datta, Rajesh Sharma, | (参考訳) 近年、誤報は社会の脅威として現れており、特に新型コロナウイルス(COVID-19)のパンデミックの文脈では、ワクチンのヘシタシーを燃やすことによって、ハボックを破滅させてきた。
偽情報と戦うためのコスト効率が高くスケーラブルなソリューションは、時間の必要性です。
本研究では、ソーシャルメディアから得られた既存の情報と、より厳密な事実チェックデータレポジトリを用いて、大規模な誤報の自動配信を容易にする方法について検討した。
この考え方は、様々な情報ソースを用いた誤情報緩和の幅広い文脈において一般化・再適用できるが、この研究は、概念実証として機能し、ツイートの配信のみに限定され、また、COVID-19に関する誤情報特定の文脈では、その範囲に限られている。
公開されている2つのデータセット、vizを利用する。
FaCov(ファクトチェック記事)と誤解を招く(ソーシャルメディアTwitter) COVID-19ワクチンに関するデータ。
Misinformation has emerged as a major societal threat in recent years in general; specifically in the context of the COVID-19 pandemic, it has wrecked havoc, for instance, by fuelling vaccine hesitancy. Cost-effective, scalable solutions for combating misinformation are the need of the hour. This work explored how existing information obtained from social media and augmented with more curated fact checked data repositories can be harnessed to facilitate automated rebuttal of misinformation at scale. While the ideas herein can be generalized and reapplied in the broader context of misinformation mitigation using a multitude of information sources and catering to the spectrum of social media platforms, this work serves as a proof of concept, and as such, it is confined in its scope to only rebuttal of tweets, and in the specific context of misinformation regarding COVID-19. It leverages two publicly available datasets, viz. FaCov (fact-checked articles) and misleading (social media Twitter) data on COVID-19 Vaccination. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# 工学的環境による非平衡ボース・アインシュタイン凝縮の制御
Controlling Nonequilibrium Bose-Einstein Condensation with Engineered Environments ( http://arxiv.org/abs/2311.02170v4 ) ライセンス: Link先を確認 | Francesco Petiziol, André Eckardt, | (参考訳) 熱平衡から、ボーソニック量子系はボース・コンデンスを基底状態から遠ざけ、いわゆるボース・セレクションのシナリオでは、励起状態のマクロな占有や複数の状態の占有を特徴とする。
以前の研究では、駆動散逸理想のボース気体凝縮状態を予測する理論が開発された。
ここでは逆問題に対処する: ある単一粒子状態において、所望の凝縮分数を持つ対象状態が与えられた場合、この構成は、利用可能な制御パラメータをチューニングすることによって、どのように達成できるのか?
どの実験装置がフレキシブルな凝縮制御を可能にするのか?
共振器列の固有状態へのボース凝縮を人工量子浴への結合を通じて駆動し、補助的な2レベルシステムによって実現される超伝導回路において実験的に実装可能なボース「凝縮器」を提案することにより、これらの問題を解決する。
一方,線形計画法に基づく逆問題の解法を考案する。
さらに、増幅、熱流制御、高構造量子浴の設計に応用できる様々なボース凝縮構成間の遷移点の工学について論じる。
Out of thermal equilibrium, bosonic quantum systems can Bose-condense away from the ground state, featuring a macroscopic occupation of an excited state or even of multiple states in the so-called Bose-selection scenario. In previous work, a theory was developed that predicts, in which states a driven-dissipative ideal Bose gas condenses. Here, we address the inverse problem: Given a target state with desired condensate fractions in certain single-particle states, how can this configuration be achieved by tuning available control parameters? Which type of experimental setup allows for flexible condensation control? We solve these problems, on the one hand, by proposing a Bose `condenser', experimentally implementable in a superconducting circuit, where targeted Bose condensation into eigenstates of a chain of resonators is driven through the coupling to artificial quantum baths, realized via auxiliary two-level systems. On the other, we develop a theory to solve the inverse problem based on linear programming methods. We further discuss the engineering of transition points between different Bose condensation configurations, which may find application for amplification, heat-flow control, and the design of highly-structured quantum baths. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# Meta-Learningがオンラインと継続的学習に出会った時: 調査より
When Meta-Learning Meets Online and Continual Learning: A Survey ( http://arxiv.org/abs/2311.05241v2 ) ライセンス: Link先を確認 | Jaehyeon Son, Soochan Lee, Gunhee Kim, | (参考訳) 過去10年間で、ディープニューラルネットワークは、広範囲なデータセットに対するミニバッチ確率勾配降下を伴うトレーニングスキームを使用して大きな成功を収めた。
この成果により、他の学習シナリオにおけるニューラルネットワークの適用を探求する研究が急増した。
注目すべきフレームワークのひとつにメタラーニングがある。
メタラーニングは、学習アルゴリズムを最適化するためのデータ駆動のアプローチである。
その他の関心分野としては、連続的な学習とオンライン学習があり、どちらもストリーミングデータでモデルを漸進的に更新する。
これらのフレームワークは当初独立して開発されたが、最近の研究はそれらの組み合わせを調査し始め、新しい問題設定と学習アルゴリズムを提案している。
しかし、複雑化と統一用語の欠如により、経験豊富な研究者でさえ、学習フレームワークの違いを識別することは困難である。
本稿では,一貫した用語と形式的記述を用いて,様々な問題設定を整理する総合的な調査を行う。
本研究は,これらの学習パラダイムの概要を提供することで,この将来性のある研究分野のさらなる進歩を促進することを目的としている。
Over the past decade, deep neural networks have demonstrated significant success using the training scheme that involves mini-batch stochastic gradient descent on extensive datasets. Expanding upon this accomplishment, there has been a surge in research exploring the application of neural networks in other learning scenarios. One notable framework that has garnered significant attention is meta-learning. Often described as "learning to learn," meta-learning is a data-driven approach to optimize the learning algorithm. Other branches of interest are continual learning and online learning, both of which involve incrementally updating a model with streaming data. While these frameworks were initially developed independently, recent works have started investigating their combinations, proposing novel problem settings and learning algorithms. However, due to the elevated complexity and lack of unified terminology, discerning differences between the learning frameworks can be challenging even for experienced researchers. To facilitate a clear understanding, this paper provides a comprehensive survey that organizes various problem settings using consistent terminology and formal descriptions. By offering an overview of these learning paradigms, our work aims to foster further advancements in this promising area of research. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# アスペクトに基づく感性分析の体系的レビュー:ドメイン,方法,動向
A Systematic Review of Aspect-based Sentiment Analysis: Domains, Methods, and Trends ( http://arxiv.org/abs/2311.10777v5 ) ライセンス: Link先を確認 | Yan Cathy Hua, Paul Denny, Katerina Taskova, Jörg Wicker, | (参考訳) アスペクトベース感情分析(Aspect-based Sentiment Analysis、ABSA)は、特定のテキストからアスペクトとその関連する意見を識別する、きめ細かいタイプの感情分析である。
デジタル評価されたテキストデータの増加に伴い、ABSAはより詳細で目標とする洞察を掘り下げる能力で人気を博した。
ABSAサブタスクとソリューション方法論に関する多くのレビュー論文があるが、研究アプリケーションドメイン、データセット、ソリューションアプローチに関連する時間的または体系的な問題に関するトレンドにはほとんど焦点を当てていない。
このギャップを埋めるために,本論文は,これらの基本コンポーネント間の傾向と高レベルな関係に着目したABSA研究の体系的文献レビュー(SLR)を提示する。
このレビューはABSAにおける最大のSLRの1つである。
我々の知る限り、ABSA研究とドメイン間のデータ分散の相互関係や、ソリューションパラダイムやアプローチのトレンドを体系的に調査するのは、これが初めてである。
このサンプルには,8550件の検索結果から,革新的な自動フィルタリングプロセスによる時間制約のない727件の一次研究が含まれている。
我々の定量分析は、ABSA研究の20年近くにおけるトレンドを識別するだけでなく、データセットとドメインの多様性の体系的な欠如と、将来のABSA研究の発展を妨げる可能性のあるドメインミスマッチも明らかにしている。
本稿では,これらの知見とその意義について論じ,今後の研究への提案を行う。
Aspect-based Sentiment Analysis (ABSA) is a fine-grained type of sentiment analysis that identifies aspects and their associated opinions from a given text. With the surge of digital opinionated text data, ABSA gained increasing popularity for its ability to mine more detailed and targeted insights. Many review papers on ABSA subtasks and solution methodologies exist, however, few focus on trends over time or systemic issues relating to research application domains, datasets, and solution approaches. To fill the gap, this paper presents a Systematic Literature Review (SLR) of ABSA studies with a focus on trends and high-level relationships among these fundamental components. This review is one of the largest SLRs on ABSA. To our knowledge, it is also the first to systematically examine the interrelations among ABSA research and data distribution across domains, as well as trends in solution paradigms and approaches. Our sample includes 727 primary studies screened from 8550 search results without time constraints via an innovative automatic filtering process. Our quantitative analysis not only identifies trends in nearly two decades of ABSA research development but also unveils a systemic lack of dataset and domain diversity as well as domain mismatch that may hinder the development of future ABSA research. We discuss these findings and their implications and propose suggestions for future research. | 翻訳日:2024-07-29 18:41:36 公開日:2024-07-26 |
# MUVO:自律運転のための空間表現を用いたマルチモーダル世界モデル
MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving ( http://arxiv.org/abs/2311.11762v3 ) ライセンス: Link先を確認 | Daniel Bogdoll, Yitian Yang, Tim Joseph, J. Marius Zöllner, | (参考訳) 自律運転のための教師なしの世界モデルを学ぶことは、今日のシステムの推論能力を大幅に改善する可能性がある。
しかし、ほとんどの研究は世界の物理的特性を無視し、センサーデータのみに焦点を当てている。
本稿では,この課題に対処するため,空間的VOxel表現を持つMUVOを提案する。
我々は、生のカメラとライダーデータを用いて、世界のセンサに依存しない幾何学的表現を学習する。
我々は,マルチモーダルな将来予測を実証し,空間表現がカメラ画像とライダー点雲の予測品質を改善することを示す。
Learning unsupervised world models for autonomous driving has the potential to improve the reasoning capabilities of today's systems dramatically. However, most work neglects the physical attributes of the world and focuses on sensor data alone. We propose MUVO, a MUltimodal World Model with spatial VOxel representations, to address this challenge. We utilize raw camera and lidar data to learn a sensor-agnostic geometric representation of the world. We demonstrate multimodal future predictions and show that our spatial representation improves the prediction quality of both camera images and lidar point clouds. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# フェデレートラーニングにおけるフェアネスの攻撃
Attacks on fairness in Federated Learning ( http://arxiv.org/abs/2311.12715v2 ) ライセンス: Link先を確認 | Joseph Rance, Filip Svoboda, | (参考訳) フェデレートラーニング(Federated Learning)は、クライアント上でデータをプライベートにするための重要な分散トレーニングパラダイムである。
現在、FLクライアントのごく一部のサブセットだけを制御することで、特定の属性の存在下で、連合学習モデルにバックドアを導入することが可能であることがよく理解されている。
本稿では,学習モデルの公平性を損なう新たな攻撃手法を提案する。
公正さは、訓練されたモデルの属性レベルのパフォーマンス分布であると理解されている。
例えば、サブポピュレーション間の精度の差別が破滅的な結果をもたらすような領域では特に顕著である。
攻撃者は、バックドア攻撃と同様の脅威モデルを用いることで、任意の属性セット間で不公平な性能分布を持つように集約されたモデルに影響を与えることができる。
さらに、この攻撃は1つのクライアントだけを制御することで可能となる。
FLにおいて自然に誘導される不公平さと戦うことは、これまで深く議論されてきたが、その人工的に誘導される種類は無視されている。
トレーニングモデルにおける不公平さがトレーニングに参加したユーザにとって利益となるような状況においては,公平性に対する攻撃に対する防御が重要な考慮事項であることが示される。
Federated Learning is an important emerging distributed training paradigm that keeps data private on clients. It is now well understood that by controlling only a small subset of FL clients, it is possible to introduce a backdoor to a federated learning model, in the presence of certain attributes. In this paper, we present a new type of attack that compromises the fairness of the trained model. Fairness is understood to be the attribute-level performance distribution of a trained model. It is particularly salient in domains where, for example, skewed accuracy discrimination between subpopulations could have disastrous consequences. We find that by employing a threat model similar to that of a backdoor attack, an attacker is able to influence the aggregated model to have an unfair performance distribution between any given set of attributes. Furthermore, we find that this attack is possible by controlling only a single client. While combating naturally induced unfairness in FL has previously been discussed in depth, its artificially induced kind has been neglected. We show that defending against attacks on fairness should be a critical consideration in any situation where unfairness in a trained model could benefit a user who participated in its training. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# 複雑PDEのためのソリューションの強化:フーリエニューラル演算子における相補的畳み込みと同変注意の導入
Enhancing Solutions for Complex PDEs: Introducing Complementary Convolution and Equivariant Attention in Fourier Neural Operators ( http://arxiv.org/abs/2311.12902v2 ) ライセンス: Link先を確認 | Xuanle Zhao, Yue Sun, Tielin Zhang, Bo Xu, | (参考訳) ニューラル演算子は、偏微分方程式(PDE)を解くために、異なる関数空間間の関数写像の能力を拡大することで、従来のニューラルネットワークを改善する。
最も重要な手法の1つはフーリエニューラル演算子(FNO)であり、これはグリーンの関数法からインスピレーションを得て、周波数領域の演算子カーネルを直接近似する。
しかし、実験的な観察の後、理論的な検証を行い、FNOは主に比較的低周波領域の核を近似することを示した。
このことは、複雑なPDE、特に急激な係数変化と解空間での発振を特徴とする問題の解決能力に限界があることを示唆している。
このようなケースは、大気の対流や海洋循環といった特定のシナリオにおいて重要である。
この課題に対処するために、畳み込みカーネルの変換同変にインスパイアされた新しい階層型フーリエニューラル演算子と畳み込み残余層とアテンション機構を提案し、複雑なPDEを解くために周波数領域でそれらを補完する。
我々は,多スケール楕円型方程式,ナビエ・ストークス方程式,その他の物理シナリオの前方および逆問題に関する実験を行い,提案手法がこれらのPDEベンチマークにおいて,特に高速係数の変動を特徴とする方程式に対して,優れた性能を達成できることを見出した。
Neural operators improve conventional neural networks by expanding their capabilities of functional mappings between different function spaces to solve partial differential equations (PDEs). One of the most notable methods is the Fourier Neural Operator (FNO), which draws inspiration from Green's function method and directly approximates operator kernels in the frequency domain. However, after empirical observation followed by theoretical validation, we demonstrate that the FNO approximates kernels primarily in a relatively low-frequency domain. This suggests a limited capability in solving complex PDEs, particularly those characterized by rapid coefficient changes and oscillations in the solution space. Such cases are crucial in specific scenarios, like atmospheric convection and ocean circulation. To address this challenge, inspired by the translation equivariant of the convolution kernel, we propose a novel hierarchical Fourier neural operator along with convolution-residual layers and attention mechanisms to make them complementary in the frequency domain to solve complex PDEs. We perform experiments on forward and reverse problems of multiscale elliptic equations, Navier-Stokes equations, and other physical scenarios, and find that the proposed method achieves superior performance in these PDE benchmarks, especially for equations characterized by rapid coefficient variations. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# 13C NMR分光におけるピークアサインメントの強化:マルチモーダルアライメントを用いた新しいアプローチ
Enhancing Peak Assignment in 13C NMR Spectroscopy: A Novel Approach Using Multimodal Alignment ( http://arxiv.org/abs/2311.13817v4 ) ライセンス: Link先を確認 | Hao Xu, Zhengyang Zhou, Pengyu Hong, | (参考訳) 核磁気共鳴分光法(NMR)は分子構造や動的挙動の解読において重要な役割を担っている。
AIによって強化されたNMR予測モデルには将来性があるが、分子検索、異性体認識、ピーク割り当てといったタスクには依然として課題が残っている。
そこで本研究では,分子グラフとNMRスペクトルの2つの不均一なモードの対応性を確立する,知識誘導型インスタンスワイズ識別を用いたマルチレベルマルチモーダルアライメント(K-M3AID)を提案する。
K-M3AIDは、グラフレベルのアライメントモジュール、ノードレベルのアライメントモジュール、通信チャネルの3つの主要なモジュールを持つ二重協調型コントラスト学習アーキテクチャを採用している。
特に、K-M3AIDは、ノードレベルのアライメントモジュール内での対照的な学習に、知識誘導型インスタンスワイズ識別を導入している。
さらに、K-M3AIDは、ノードレベルのアライメント中に獲得したスキルがグラフレベルのアライメントに肯定的な影響を与えることを示し、メタラーニングを固有の特性として認める。
経験的検証は、複数のゼロショットタスクにおけるK-M3AIDの有効性を裏付ける。
Nuclear magnetic resonance (NMR) spectroscopy plays an essential role in deciphering molecular structure and dynamic behaviors. While AI-enhanced NMR prediction models hold promise, challenges still persist in tasks such as molecular retrieval, isomer recognition, and peak assignment. In response, this paper introduces a novel solution, Multi-Level Multimodal Alignment with Knowledge-Guided Instance-Wise Discrimination (K-M3AID), which establishes correspondences between two heterogeneous modalities: molecular graphs and NMR spectra. K-M3AID employs a dual-coordinated contrastive learning architecture with three key modules: a graph-level alignment module, a node-level alignment module, and a communication channel. Notably, K-M3AID introduces knowledge-guided instance-wise discrimination into contrastive learning within the node-level alignment module. In addition, K-M3AID demonstrates that skills acquired during node-level alignment have a positive impact on graph-level alignment, acknowledging meta-learning as an inherent property. Empirical validation underscores K-M3AID's effectiveness in multiple zero-shot tasks. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# UGG: 統一ジェネレーティブ・グラッピング
UGG: Unified Generative Grasping ( http://arxiv.org/abs/2311.16917v2 ) ライセンス: Link先を確認 | Jiaxin Lu, Hao Kang, Haoxiang Li, Bo Liu, Yiding Yang, Qixing Huang, Gang Hua, | (参考訳) 難易度把握は、多種多様な把握姿勢を高い把握成功率で実現することを目的としている。
オブジェクトが与えられたときの把握パラメータを直接予測する回帰ベースの手法は、高い成功率を達成するが、しばしば多様性を欠く。
対象物に条件付けされた把握姿勢を生成するジェネレーションベースの手法は、多種多様な把握をもたらすことがあるが、識別情報の欠如により、高い把握成功には不十分である。
そこで本研究では,オブジェクトポイントクラウドとハンドパラメータ空間内で動作するUGGという,拡散に基づくデクスタラスグリップ生成モデルを導入する。
我々のオールトランスフォーマーアーキテクチャは、オブジェクト、手、連絡先からの情報を統一し、接触モデリングを改善するための新しい接触点の表現を導入します。
モデルの柔軟性と品質は、高い多様性を保ちながら高い成功率を推し進める、シミュレートされた識別データの恩恵を受けながら、軽量な判別器の統合を可能にする。
また,手書き情報に基づいてオブジェクトを生成でき,オブジェクト設計に関する貴重な洞察を提供し,生成モデルがオブジェクトをどのように知覚するかを研究することができる。
提案モデルでは,大規模なDexGraspNetデータセットのデキスタラス・グルーピングを実現するとともに,人中心のオブジェクト設計を容易にし,デキスタラス・グルーピング研究の大幅な進歩を図っている。
私たちのプロジェクトページはhttps://jiaxin-lu.github.io/ugg/です。
Dexterous grasping aims to produce diverse grasping postures with a high grasping success rate. Regression-based methods that directly predict grasping parameters given the object may achieve a high success rate but often lack diversity. Generation-based methods that generate grasping postures conditioned on the object can often produce diverse grasping, but they are insufficient for high grasping success due to lack of discriminative information. To mitigate, we introduce a unified diffusion-based dexterous grasp generation model, dubbed the name UGG, which operates within the object point cloud and hand parameter spaces. Our all-transformer architecture unifies the information from the object, the hand, and the contacts, introducing a novel representation of contact points for improved contact modeling. The flexibility and quality of our model enable the integration of a lightweight discriminator, benefiting from simulated discriminative data, which pushes for a high success rate while preserving high diversity. Beyond grasp generation, our model can also generate objects based on hand information, offering valuable insights into object design and studying how the generative model perceives objects. Our model achieves state-of-the-art dexterous grasping on the large-scale DexGraspNet dataset while facilitating human-centric object design, marking a significant advancement in dexterous grasping research. Our project page is https://jiaxin-lu.github.io/ugg/. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# ソフトMAC:予測型接触モデルと人工剛体と衣服の双方向結合による異種軟体シミュレーション
SoftMAC: Differentiable Soft Body Simulation with Forecast-based Contact Model and Two-way Coupling with Articulated Rigid Bodies and Clothes ( http://arxiv.org/abs/2312.03297v3 ) ライセンス: Link先を確認 | Min Liu, Gang Yang, Siyuan Luo, Lin Shao, | (参考訳) 微分物理学シミュレーションは、勾配に基づく最適化を通じて、これまで難解だった課題に対処する方法を提供し、それによってロボット関連問題の解法効率を大幅に改善する。
多様なロボット操作シナリオに微分可能シミュレーションを適用するためには、様々な材料を統一されたフレームワークに統合することが課題である。
我々は,柔らかい体と硬い体と衣服を結合する,微分可能なシミュレーションフレームワークであるSoftMACを提案する。
ソフトMACは、連続力学に基づくマテリアルポイント法(MPM)で軟体をシミュレートする。
非自然的リバウンドのような他のアーティファクトを導入することなく、侵入を効果的に抑制できる新しい予測ベースのMPM接触モデルを提供する。
変形性および非体積性の衣服メッシュとMPM粒子を結合するために,局所領域の符号付き距離場を再構成する浸透追跡アルゴリズムを提案する。
以前の研究と異なり、SoftMACは各モードの完全なダイナミクスをシミュレートし、明示的で微分可能なカップリング機構を持つ凝集系にそれらを組み込む。
この機能はSoftMACに、マニピュレータとして機能するソフトボディや不動システムなど、幅広い相互作用のスペクトルを扱う権限を与える。
下流ロボット操作アプリケーションにおいて,提案した差別化可能なパイプラインの有効性と精度を検証するための総合的な実験を行った。
追加資料とビデオは、プロジェクトのWebサイトでhttps://damianliumin.github.io/SoftMAC.comで公開されている。
Differentiable physics simulation provides an avenue to tackle previously intractable challenges through gradient-based optimization, thereby greatly improving the efficiency of solving robotics-related problems. To apply differentiable simulation in diverse robotic manipulation scenarios, a key challenge is to integrate various materials in a unified framework. We present SoftMAC, a differentiable simulation framework that couples soft bodies with articulated rigid bodies and clothes. SoftMAC simulates soft bodies with the continuum-mechanics-based Material Point Method (MPM). We provide a novel forecast-based contact model for MPM, which effectively reduces penetration without introducing other artifacts like unnatural rebound. To couple MPM particles with deformable and non-volumetric clothes meshes, we also propose a penetration tracing algorithm that reconstructs the signed distance field in local area. Diverging from previous works, SoftMAC simulates the complete dynamics of each modality and incorporates them into a cohesive system with an explicit and differentiable coupling mechanism. The feature empowers SoftMAC to handle a broader spectrum of interactions, such as soft bodies serving as manipulators and engaging with underactuated systems. We conducted comprehensive experiments to validate the effectiveness and accuracy of the proposed differentiable pipeline in downstream robotic manipulation applications. Supplementary materials and videos are available on our project website at https://damianliumin.github.io/SoftMAC. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# AIイノベーションが米国占領に与える影響
The Potential Impact of AI Innovations on U.S. Occupations ( http://arxiv.org/abs/2312.04714v4 ) ライセンス: Link先を確認 | Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia, | (参考訳) 職業は相互接続されたタスクで構成されており、AIの影響を受けているのは職業自身ではなく、これらのタスクである。
タスクがどのように影響されるかを評価するために、以前のアプローチでは手動アノテーションや粗い粒度のマッチングを使用していた。
機械学習の最近の進歩を活用して、粗い粒度のマッチングをより正確なディープラーニングアプローチに置き換える。
AI Impact(AII)測定の導入では、Deep Learning Natural Language Processingを使用して、さまざまな作業タスクに影響を及ぼす可能性のあるAI特許を自動的に識別する。
われわれの手法は、2015年から2022年にかけて米国特許商標庁(USPTO)に提出された24,758件のAI特許の分析を通じて、17,879件のタスク記述の包括的なデータセットに依存し、AIの潜在的な影響を定量化する。
我々の結果は、いくつかの職業が潜在的に影響を受け、その影響は特定のスキルに複雑に結びついていることを示している。
これらの中には、これまで考えられていたようなルーチンタスク(一連のステップとしてコーディングされた)だけでなく、非ルーチンタスク(例えば、健康状態の診断、コンピュータのプログラミング、飛行経路の追跡など)も含まれている。
しかしながら、AIが労働に与える影響は、影響を受ける職業のいくつかが置き換えられるのではなく、強化されているという事実(例えば、神経学者、ソフトウェアエンジニア、航空交通管制官)と、影響を受けるセクターが労働不足(例えば、IT、ヘルスケア、運輸)によって制限されている。
An occupation is comprised of interconnected tasks, and it is these tasks, not occupations themselves, that are affected by AI. To evaluate how tasks may be impacted, previous approaches utilized manual annotations or coarse-grained matching. Leveraging recent advancements in machine learning, we replace coarse-grained matching with more precise deep learning approaches. Introducing the AI Impact (AII) measure, we employ Deep Learning Natural Language Processing to automatically identify AI patents that may impact various occupational tasks at scale. Our methodology relies on a comprehensive dataset of 17,879 task descriptions and quantifies AI's potential impact through analysis of 24,758 AI patents filed with the United States Patent and Trademark Office (USPTO) between 2015 and 2022. Our results reveal that some occupations will potentially be impacted, and that impact is intricately linked to specific skills. These include not only routine tasks (codified as a series of steps), as previously thought, but also non-routine ones (e.g., diagnosing health conditions, programming computers, and tracking flight routes). However, AI's impact on labour is limited by the fact that some of the occupations affected are augmented rather than replaced (e.g., neurologists, software engineers, air traffic controllers), and the sectors affected are experiencing labour shortages (e.g., IT, Healthcare, Transport). | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# エボダイドレーザー攻撃:エージェントによるロバスト非接触攻撃に先立つ場面
Embodied Laser Attack:Leveraging Scene Priors to Achieve Agent-based Robust Non-contact Attacks ( http://arxiv.org/abs/2312.09554v3 ) ライセンス: Link先を確認 | Yitong Sun, Yao Huang, Xingxing Wei, | (参考訳) 物理的敵攻撃が、特に動的シナリオにおいて、セキュリティクリティカルなシナリオの潜在的なリスクを発掘するために広範囲に適用されるようになると、それらの環境変動に対する脆弱性も明らかになってきた。
物理的敵攻撃手法の非破壊的な性質は、結果としてより不安定な性能をもたらす。
EOTのような手法は、敵のパッチのような従来の接触攻撃の堅牢性を高めるが、現実性や交通シナリオのような動的環境の隠蔽は不十分である。
一方、非接触レーザー攻撃は適応性の向上を提供する一方で、属性の最適化スペースが限られているため制約に直面し、EOTの効率は低下した。
この制限は、そのようなプラクティスの堅牢性を高めるための新しい戦略を開発する必要性を浮き彫りにする。
これらの問題に対処するため,本研究では,知覚・決定・制御の具体的インテリジェンスパラダイムを活用し,非接触レーザー攻撃を動的に調整する新しいフレームワークであるEmbodied Laser Attack (ELA)を紹介する。
フルイメージ変換による被害者の視界のシミュレートという課題を踏まえて,ELAは交通シーンの内在的な事前知識に基づいて,局所的な視点変換ネットワークを革新的に開発し,効果的かつ効率的な推定を可能にした。
判定制御モジュールに対して、ERAは、時間を要するヒューリスティックアルゴリズムを採用するのではなく、データ駆動強化学習による攻撃エージェントを訓練し、適切に設計された報酬によって認識された情報で有効な攻撃戦略を即時に決定し、制御可能なレーザーエミッタによって実行されるようにする。
実験では,デジタル・物理的両世界の多様な交通シナリオに適用し,動的連続シーン下での手法の有効性を検証した。
As physical adversarial attacks become extensively applied in unearthing the potential risk of security-critical scenarios, especially in dynamic scenarios, their vulnerability to environmental variations has also been brought to light. The non-robust nature of physical adversarial attack methods brings less-than-stable performance consequently. Although methods such as EOT have enhanced the robustness of traditional contact attacks like adversarial patches, they fall short in practicality and concealment within dynamic environments such as traffic scenarios. Meanwhile, non-contact laser attacks, while offering enhanced adaptability, face constraints due to a limited optimization space for their attributes, rendering EOT less effective. This limitation underscores the necessity for developing a new strategy to augment the robustness of such practices. To address these issues, this paper introduces the Embodied Laser Attack (ELA), a novel framework that leverages the embodied intelligence paradigm of Perception-Decision-Control to dynamically tailor non-contact laser attacks. For the perception module, given the challenge of simulating the victim's view by full-image transformation, ELA has innovatively developed a local perspective transformation network, based on the intrinsic prior knowledge of traffic scenes and enables effective and efficient estimation. For the decision and control module, ELA trains an attack agent with data-driven reinforcement learning instead of adopting time-consuming heuristic algorithms, making it capable of instantaneously determining a valid attack strategy with the perceived information by well-designed rewards, which is then conducted by a controllable laser emitter. Experimentally, we apply our framework to diverse traffic scenarios both in the digital and physical world, verifying the effectiveness of our method under dynamic successive scenes. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# 固有分解とポス制御を併用したリラクタ型ニューラルアクチュエータ
Relightable Neural Actor with Intrinsic Decomposition and Pose Control ( http://arxiv.org/abs/2312.11587v2 ) ライセンス: Link先を確認 | Diogo Luvizon, Vladislav Golyanik, Adam Kortylewski, Marc Habermann, Christian Theobalt, | (参考訳) 固定照明付き多視点映像から制御可能で光沢のあるデジタルアバターを作成することは、人間が高度に調音され、ポーズ依存の外観効果を生み出し、衣服だけでなく肌も空間変化のあるBRDFモデリングを必要とするため、非常に難しい問題である。
既存のアニマティブルなアバターを作成する作業は、全くリライティングに重点を置いていないか、制御された照明装置を必要としているか、または単一のRGBビデオのような非常に低コストのセットアップからリライト可能なアバターを復元しようとする。
これを解決するために,ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法であるRelightable Neural Actorを提案する。
重要なことは、トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とすることである。
この課題に対処するために、アクターの暗黙的幾何表現と、ポーズ依存の変形をモデル化し、正常、可視、材料を効果的に符号化した3D空間と紫外線空間の動的マッピングを導出するドライビング密度場を利用する。
実世界のシナリオにおける我々のアプローチを評価するために、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集し、人間のリライティングのための最初のベンチマークを提供し、新しい人間のポーズに対する最先端のリライティング結果を実証した。
Creating a controllable and relightable digital avatar from multi-view video with fixed illumination is a very challenging problem since humans are highly articulated, creating pose-dependent appearance effects, and skin as well as clothing require space-varying BRDF modeling. Existing works on creating animatible avatars either do not focus on relighting at all, require controlled illumination setups, or try to recover a relightable avatar from very low cost setups, i.e. a single RGB video, at the cost of severely limited result quality, e.g. shadows not even being modeled. To address this, we propose Relightable Neural Actor, a new video-based method for learning a pose-driven neural human model that can be relighted, allows appearance editing, and models pose-dependent effects such as wrinkles and self-shadows. Importantly, for training, our method solely requires a multi-view recording of the human under a known, but static lighting condition. To tackle this challenging problem, we leverage an implicit geometry representation of the actor with a drivable density field that models pose-dependent deformations and derive a dynamic mapping between 3D and UV spaces, where normal, visibility, and materials are effectively encoded. To evaluate our approach in real-world scenarios, we collect a new dataset with four identities recorded under different light conditions, indoors and outdoors, providing the first benchmark of its kind for human relighting, and demonstrating state-of-the-art relighting results for novel human poses. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# 構造誘導材料のための機械学習とプロセス設計
Machine learning for structure-guided materials and process design ( http://arxiv.org/abs/2312.14552v2 ) ライセンス: Link先を確認 | Lukas Morand, Tarek Iraki, Johannes Dornheim, Stefan Sandfeld, Norbert Link, Dirk Helm, | (参考訳) 近年、プロセス構造-プロパティチェーンの文脈において、材料革新の加速への関心が高まっている。
この点において、下流プロセス設計のアプローチを支援するために、製造工程や仕立て材設計のアプローチを考慮することが不可欠である。
この方向への大きなステップとして、材料工学におけるプロセス構造-プロパティチェーン全体を網羅する全体最適化アプローチを提案する。
本手法では, 材料設計問題と, 所望の特性を示す準最適材料構造を同定するプロセス設計問題と, それらの構造を製造するための最適処理経路を見つけるプロセス設計問題という, 2つの重要な識別問題に機械学習を用いて対処する。
どちらの識別問題も典型的には不十分であり、ソリューションアプローチにおいて重要な課題となる。
しかし、これらの問題の非特異性は、処理に重要な利点をもたらす: 同様に機能するターゲット構造を複数持つことにより、プロセスは最適な到達可能な構造を製造するために効率的にガイドすることができる。
本手法は, 金属成形プロセスにおいて, 所望の特性を有する結晶テクスチャを作製し, その特性を実証する。
In recent years, there has been a growing interest in accelerated materials innovation in the context of the process-structure-property chain. In this regard, it is essential to take into account manufacturing processes and tailor materials design approaches to support downstream process design approaches. As a major step into this direction, we present a holistic optimization approach that covers the entire process-structure-property chain in materials engineering. Our approach specifically employs machine learning to address two critical identification problems: a materials design problem, which involves identifying near-optimal material structures that exhibit desired properties, and a process design problem that is to find an optimal processing path to manufacture these structures. Both identification problems are typically ill-posed, which presents a significant challenge for solution approaches. However, the non-unique nature of these problems offers an important advantage for processing: By having several target structures that perform similarly well, processes can be efficiently guided towards manufacturing the best reachable structure. The functionality of the approach will be demonstrated manufacturing crystallographic textures with desired properties in a metal forming process. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# 微粒なシーングラフ生成のための適応的自己学習フレームワーク
Adaptive Self-training Framework for Fine-grained Scene Graph Generation ( http://arxiv.org/abs/2401.09786v2 ) ライセンス: Link先を確認 | Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park, | (参考訳) シーングラフ生成(SGG)モデルは、長い尾の述語分布やアノテーションの欠如といったベンチマークデータセットに固有の問題に悩まされている。
本研究では, 注釈のない三つ子を用いて, SGGの長期化問題を緩和することを目的とする。
そこで本研究では,SGGモデルがトレーニングされている無注釈三重項に対して擬似ラベルを割り当てる,SGG(ST-SGG)の自己評価フレームワークを提案する。
画像認識のための自己学習には大きな進歩があったが、意味的あいまいさや述語クラスの長期分布といった固有の性質から、SGGタスクのための自己学習フレームワークを設計することはより困難である。
そこで本研究では,既存のSGGモデルに適用可能なモデルに依存しないフレームワークであるClass-specific Adaptive Thresholding with Momentum (CATM)を提案する。
さらに,提案する自己学習フレームワークをMPNNベースのSGGモデルに導入する際に有用なグラフ構造学習器(GSL)を考案した。
各種SGGモデルにおけるST-SGGの有効性を検証し,特に細粒度述語クラスの性能向上について検討した。
Scene graph generation (SGG) models have suffered from inherent problems regarding the benchmark datasets such as the long-tailed predicate distribution and missing annotation problems. In this work, we aim to alleviate the long-tailed problem of SGG by utilizing unannotated triplets. To this end, we introduce a Self-Training framework for SGG (ST-SGG) that assigns pseudo-labels for unannotated triplets based on which the SGG models are trained. While there has been significant progress in self-training for image recognition, designing a self-training framework for the SGG task is more challenging due to its inherent nature such as the semantic ambiguity and the long-tailed distribution of predicate classes. Hence, we propose a novel pseudo-labeling technique for SGG, called Class-specific Adaptive Thresholding with Momentum (CATM), which is a model-agnostic framework that can be applied to any existing SGG models. Furthermore, we devise a graph structure learner (GSL) that is beneficial when adopting our proposed self-training framework to the state-of-the-art message-passing neural network (MPNN)-based SGG models. Our extensive experiments verify the effectiveness of ST-SGG on various SGG models, particularly in enhancing the performance on fine-grained predicate classes. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# 任意の次元におけるギブス状態の相関の強い崩壊
Strong decay of correlations for Gibbs states in any dimension ( http://arxiv.org/abs/2401.10147v2 ) ライセンス: Link先を確認 | Andreas Bluhm, Ángela Capel, Antonio Pérez-Hernández, | (参考訳) 熱平衡における量子系はギブス状態を用いて記述される。
このような状態の相関は、それらの記述やシミュレートがどれほど難しいかを決定する。
本稿では、量子系のギブズ状態が、各辺が短距離相互作用を持つ局所実効ハミルトニアンを許容していることを満足するならば、任意の領域に対して$A$,$C$、還元状態の$\rho_{AC}$からそれらの領域の積への距離$$\| \rho_{AC} \rho_A^{-1} \otimes \rho_C^{-1} - 1_{AC}\|\, ,$$$は、領域の$A$と$C$の間の距離と指数関数的に崩壊する。
この混合条件は、他のよく研究されている相関の指標よりも強い。
特に、遠方領域間の相互情報の指数的崩壊を意味する。
混合条件は、例えば正の対数ソボレフ定数を証明するために用いられる。
途中、系のハミルトニアンが通勤中であり、ギブス状態のすべての辺りで通勤している場合、局所実効ハミルトニアンに関する条件が満足していることを証明する。
これらの結果の証明には、アラキの膨張、量子信念の伝播、クラスターの膨張といった様々なツールが使用されている。
Quantum systems in thermal equilibrium are described using Gibbs states. The correlations in such states determine how difficult it is to describe or simulate them. In this article, we show that if the Gibbs state of a quantum system satisfies that each of its marginals admits a local effective Hamiltonian with short-range interactions, then it satisfies a mixing condition, that is, for any regions $A$, $C$ the distance of the reduced state $\rho_{AC}$ on these regions to the product of its marginals, $$\| \rho_{AC} \rho_A^{-1} \otimes \rho_C^{-1} - 1_{AC}\|\, ,$$ decays exponentially with the distance between regions $A$ and $C$. This mixing condition is stronger than other commonly studied measures of correlation. In particular, it implies the exponential decay of the mutual information between distant regions. The mixing condition has been used, for example, to prove positive log-Sobolev constants. On the way, we prove that the the condition regarding local effective Hamiltonian is satisfied if the Hamiltonian of the system is commuting and also commutes with every marginal of the Gibbs state. The proof of these results employs a variety of tools such as Araki's expansionals, quantum belief propagation and cluster expansions. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# アクションを視覚的に接続する学習とその効果
Learning to Visually Connect Actions and their Effects ( http://arxiv.org/abs/2401.10805v3 ) ライセンス: Link先を確認 | Paritosh Parmar, Eric Peh, Basura Fernando, | (参考訳) 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
CATEの概念の2つの異なる側面:アクション選択(AS)とエフェクト親和性評価(EAA)。
我々はASとESAのための様々なベースラインモデルを設計する。
このタスクの直感的な性質にもかかわらず、モデルが苦しむのを観察し、人間は大きなマージンでそれらを上回ります。
実験の結果,AS と EAA を解く場合,モデルはオブジェクト追跡などの直感的な特性を学習し,明示的な監督を伴わずに符号化を行うことがわかった。
CATEは、ラベルのないビデオからビデオ表現を学習するための効果的な自己教師型タスクであることを示す。
この研究は、先進的な定式化とモデルに刺激を与えることを期待して、CATEの基本的な性質と汎用性を実証することを目的としている。
We introduce the novel concept of visually Connecting Actions and Their Effects (CATE) in video understanding. CATE can have applications in areas like task planning and learning from demonstration. We identify and explore two different aspects of the concept of CATE: Action Selection (AS) and Effect-Affinity Assessment (EAA), where video understanding models connect actions and effects at semantic and fine-grained levels, respectively. We design various baseline models for AS and EAA. Despite the intuitive nature of the task, we observe that models struggle, and humans outperform them by a large margin. Our experiments show that in solving AS and EAA, models learn intuitive properties like object tracking and pose encoding without explicit supervision. We demonstrate that CATE can be an effective self-supervised task for learning video representations from unlabeled videos. The study aims to showcase the fundamental nature and versatility of CATE, with the hope of inspiring advanced formulations and models. | 翻訳日:2024-07-29 18:31:34 公開日:2024-07-26 |
# 強化学習実験を用いた意思決定ダイナミクスの発見のためのHMM
HMM for Discovering Decision-Making Dynamics Using Reinforcement Learning Experiments ( http://arxiv.org/abs/2401.13929v2 ) ライセンス: Link先を確認 | Xingche Guo, Donglin Zeng, Yuanjia Wang, | (参考訳) MDD(Major depressive disorder)は、その複雑で異質な性質から、診断と治療の課題を呈する疾患である。
新たな証拠は、報酬処理異常がMDDの行動マーカーとなる可能性があることを示している。
報酬処理を測定するために、患者は選択や異なる結果に関連する刺激に反応するコンピュータベースの行動タスクを実行する。
強化学習(Reinforcement Learning, RL)モデルは、報酬処理の様々な側面を測定するパラメータを抽出し、患者が行動タスクでどのように意思決定するかを特徴付ける。
近年の研究では,1つのRLモデルのみに基づいて報酬学習を特徴付ける能力の欠如が示唆されている。
重要な科学的疑問は、意思決定における学習戦略のダイナミクスがMDDを持つ個人の報酬学習能力にどのように影響するかである。
EMBARC研究の確率的報酬タスク(PRT)に動機付けられ,報酬に基づく意思決定を解析するための新しいRL-HMMフレームワークを提案する。
我々のモデルは,隠れマルコフモデル(HMM)の下での2つの異なるアプローチ間の学習戦略の切り替えに対応している。
我々は連続RL状態空間を説明し、HMMにおける時間変化遷移確率を許容する。
パラメータ推定のための計算効率の良いEMアルゴリズムを導入し、推論に非パラメトリックブートストラップを用いる。
本研究はEMBARC研究に応用し,MDD患者は健常者に比べてRLへの関与が低く,情緒的コンフリクト作業中の負の影響回路における関与が脳活動と関連していることを示した。
Major depressive disorder (MDD) presents challenges in diagnosis and treatment due to its complex and heterogeneous nature. Emerging evidence indicates that reward processing abnormalities may serve as a behavioral marker for MDD. To measure reward processing, patients perform computer-based behavioral tasks that involve making choices or responding to stimulants that are associated with different outcomes. Reinforcement learning (RL) models are fitted to extract parameters that measure various aspects of reward processing to characterize how patients make decisions in behavioral tasks. Recent findings suggest the inadequacy of characterizing reward learning solely based on a single RL model; instead, there may be a switching of decision-making processes between multiple strategies. An important scientific question is how the dynamics of learning strategies in decision-making affect the reward learning ability of individuals with MDD. Motivated by the probabilistic reward task (PRT) within the EMBARC study, we propose a novel RL-HMM framework for analyzing reward-based decision-making. Our model accommodates learning strategy switching between two distinct approaches under a hidden Markov model (HMM): subjects making decisions based on the RL model or opting for random choices. We account for continuous RL state space and allow time-varying transition probabilities in the HMM. We introduce a computationally efficient EM algorithm for parameter estimation and employ a nonparametric bootstrap for inference. We apply our approach to the EMBARC study to show that MDD patients are less engaged in RL compared to the healthy controls, and engagement is associated with brain activities in the negative affect circuitry during an emotional conflict task. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# 機械学習を用いた拡散MRI
Diffusion MRI with Machine Learning ( http://arxiv.org/abs/2402.00019v2 ) ライセンス: Link先を確認 | Davood Karimi, | (参考訳) 拡散強調MRI(Diffusion-weighted magnetic resonance imaging)は、脳の組織微細構造と構造的接続性の非侵襲的探傷を含むユニークな機能を提供する。
脳病理の臨床評価や神経科学研究に広く用いられている。
医学や科学的目的のために有用な情報を抽出するためにdMRIデータを解析することは困難である。
dMRI測定は、しばしば強いノイズやアーティファクトに悩まされ、通常、データには高いセッション間およびスキャン間ばらつきがあり、脳構造におけるかなりのサブジェクト間不均一性がある。
さらに、測定値と興味現象の関係は非常に複雑である。
近年,dMRI解析における機械学習手法の利用が増加している。
本書は, データの事前処理と調和, 微構造マッピング, トラクトグラフィ, ホワイトマタートラクト解析に焦点をあてて, これらの取り組みを評価することを目的としている。
本研究は,既存手法の主な発見,強み,弱点について考察し,今後の研究課題を提案する。
機械学習は、dMRI分析の難しい課題に取り組むのに非常に適しているかもしれない。
しかし、そのためには、既存のメソッドのいくつかの欠点と、未解決の問題に対処する必要がある。
これには、不十分な評価プラクティス、リッチなトレーニングデータセットと検証ベンチマークの欠如、モデルの一般化可能性、信頼性、説明可能性に関する懸念が含まれている。
Diffusion-weighted magnetic resonance imaging (dMRI) offers unique capabilities including noninvasive probing of brain's tissue microstructure and structural connectivity. It is widely used for clinical assessment of brain pathologies and for neuroscience research. Analyzing the dMRI data to extract useful information for medical and scientific purposes can be challenging. The dMRI measurements often suffer from strong noise and artifacts, there is usually high inter-session and inter-scanner variability in the data, and considerable inter-subject heterogeneity in brain structure. Moreover, the relationship between measurements and the phenomena of interest can be highly complex. Recent years have witnessed increasing use of machine learning methods for dMRI analysis. This manuscript aims to assess these efforts, with a focus on methods that have addressed data preprocessing and harmonization, microstructure mapping, tractography, and white matter tract analysis. We study the main findings, strengths, and weaknesses of the existing methods and suggest topics for future research. We find that machine learning may be exceptionally suited to tackle some of the difficult tasks in dMRI analysis. However, for this to happen, several shortcomings of existing methods and critical unresolved issues need to be addressed. These include deficient evaluation practices, lack of rich training datasets and validation benchmarks, as well as model generalizability, reliability, and explainability concerns. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# ソフトウェアパッチの自動記述生成
Automated Description Generation for Software Patches ( http://arxiv.org/abs/2402.03805v2 ) ライセンス: Link先を確認 | Thanh Trong Vu, Tuan-Dung Bui, Thanh-Dat Do, Thu-Trang Nguyen, Hieu Dinh Vo, Son Nguyen, | (参考訳) ソフトウェアパッチは、コードベースの精製と進化、バグ、脆弱性、最適化に重要である。
パッチ記述は変更の詳細な説明を提供し、開発者間の理解とコラボレーションを支援する。
しかしながら、手作業による記述作成は、時間消費と品質と詳細のバリエーションの観点から、課題を提起する。
本稿では,パッチ記述生成を機械翻訳タスクとしてフレーミングすることで,これらの課題に対処するPATCHEXPLAINERを提案する。
PATCHEXPLAINERでは、重要な要素、歴史的文脈、統語規則の明示的な表現を活用する。
さらに、PATCHEXPLAINERの翻訳モデルは、記述類似性を意識して設計されている。
特に、このモデルは、グループにクラスタ化されたパッチ記述に存在する類似性を認識し、組み込むように明示的に訓練されており、類似したパッチ全体にわたって正確で一貫した記述を生成する能力が改善されている。
2つの目的は類似性を最大化し、アフィリエイト群を正確に予測する。
PATCHEXPLAINERはBLEUが189%、Exact Matchが5.7X、Semantic similarityが154%改善し、ソフトウェアパッチ記述の生成の有効性が確認された。
Software patches are pivotal in refining and evolving codebases, addressing bugs, vulnerabilities, and optimizations. Patch descriptions provide detailed accounts of changes, aiding comprehension and collaboration among developers. However, manual description creation poses challenges in terms of time consumption and variations in quality and detail. In this paper, we propose PATCHEXPLAINER, an approach that addresses these challenges by framing patch description generation as a machine translation task. In PATCHEXPLAINER, we leverage explicit representations of critical elements, historical context, and syntactic conventions. Moreover, the translation model in PATCHEXPLAINER is designed with an awareness of description similarity. Particularly, the model is explicitly trained to recognize and incorporate similarities present in patch descriptions clustered into groups, improving its ability to generate accurate and consistent descriptions across similar patches. The dual objectives maximize similarity and accurately predict affiliating groups. Our experimental results on a large dataset of real-world software patches show that PATCHEXPLAINER consistently outperforms existing methods, with improvements up to 189% in BLEU, 5.7X in Exact Match rate, and 154% in Semantic Similarity, affirming its effectiveness in generating software patch descriptions. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# テーブル処理のための大規模言語モデル:サーベイ
Large Language Model for Table Processing: A Survey ( http://arxiv.org/abs/2402.05121v2 ) ライセンス: Link先を確認 | Weizheng Lu, Jing Zhang, Ju Fan, Zihao Fu, Yueguo Chen, Xiaoyong Du, | (参考訳) テーブルは一般的に2次元で、大量のデータを格納するために構成され、データベースクエリ、スプレッドシートの操作、ウェブテーブルの質問応答、画像テーブルの情報抽出といった日々の作業に欠かせない。
これらのテーブル中心のタスクをLLM(Large Language Models)やVisual Language Models(Visual Language Models)で自動化することは、学術や産業からの関心を惹きつける、大きな公共の利益をもたらす。
この調査は、ユーザシナリオと技術的な側面の両方を調べ、テーブル関連のタスクの包括的な概要を提供する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
テーブル処理に適したLLMとVLMのトレーニングテクニックを要約する。
さらに,様々なテーブル関連タスクに対して,プロンプトエンジニアリング,特にLLMエージェントの使用について論じる。
最後に、暗黙のユーザ意図の処理や、さまざまなテーブルソースからの情報抽出など、いくつかの課題を強調した。
Tables, typically two-dimensional and structured to store large amounts of data, are essential in daily activities like database queries, spreadsheet manipulations, web table question answering, and image table information extraction. Automating these table-centric tasks with Large Language Models (LLMs) or Visual Language Models (VLMs) offers significant public benefits, garnering interest from academia and industry. This survey provides a comprehensive overview of table-related tasks, examining both user scenarios and technical aspects. It covers traditional tasks like table question answering as well as emerging fields such as spreadsheet manipulation and table data analysis. We summarize the training techniques for LLMs and VLMs tailored for table processing. Additionally, we discuss prompt engineering, particularly the use of LLM-powered agents, for various table-related tasks. Finally, we highlight several challenges, including processing implicit user intentions and extracting information from various table sources. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# Tag-LLM:特殊ドメインのための汎用LLMの再利用
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains ( http://arxiv.org/abs/2402.05140v3 ) ライセンス: Link先を確認 | Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi, | (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。
しかし、その能力は、身体科学や生物医学など、事前訓練されたコーパスにおいて、高度に専門化された領域において低下した。
本研究は、汎用LLMを特殊領域の効率的なタスク解決器に再利用する方法を探求する。
LLMの埋め込み層に付加される連続ベクトルとしてパラメータ化されるカスタム入力タグを学習するための,新しいモデルに依存しないフレームワークを提案する。
ドメインタグは、特殊表現(例えば、化学式)を分離し、ドメイン関連コンテキストを提供するのに使われ、関数タグは特定の関数(例えば、分子特性の予測)を表現し、関数解決命令を圧縮するために使用される。
補助データとドメイン知識を用いて,これらのタグを学習するための3段階のプロトコルを開発した。
タスクドメインをタスク関数から明示的に切り離すことにより、入力タグの多種多様な組み合わせによってゼロショットの一般化による問題発見を可能にする。
また、タンパク質や化学的性質の予測や薬物と標的の相互作用のモデリングなど、様々な専門分野におけるLLMのパフォーマンスも向上し、これらのタスクに適した専門家モデルよりも優れています。
Large Language Models (LLMs) have demonstrated remarkable proficiency in understanding and generating natural language. However, their capabilities wane in highly specialized domains underrepresented in the pretraining corpus, such as physical and biomedical sciences. This work explores how to repurpose general LLMs into effective task solvers for specialized domains. We introduce a novel, model-agnostic framework for learning custom input tags, which are parameterized as continuous vectors appended to the LLM's embedding layer, to condition the LLM. We design two types of input tags: domain tags are used to delimit specialized representations (e.g., chemical formulas) and provide domain-relevant context; function tags are used to represent specific functions (e.g., predicting molecular properties) and compress function-solving instructions. We develop a three-stage protocol to learn these tags using auxiliary data and domain knowledge. By explicitly disentangling task domains from task functions, our method enables zero-shot generalization to unseen problems through diverse combinations of the input tags. It also boosts LLM's performance in various specialized domains, such as predicting protein or chemical properties and modeling drug-target interactions, outperforming expert models tailored to these tasks. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# 量子力学の因果性と解釈の可能性
Causality and a possible interpretation of quantum mechanics ( http://arxiv.org/abs/2402.05450v3 ) ライセンス: Link先を確認 | Kaixun Tu, Qing Wang, | (参考訳) 古代アインシュタイン・ポドルスキー・ローゼンのパラドックスから最近のソルキン型不可能な測定問題に至るまで、相対論的因果性、量子非局所性、量子測定の矛盾は続いている。
量子場理論に基づいて、我々の研究はこれらの3つの側面を調和的に統合する枠組みを提供する。
この枠組みは、密度行列の減少で表される因果関係と、量子力学が完備であると考える量子力学の解釈から成り立っている。
具体的には、還元密度行列を用いて量子状態の局所的な情報を表現し、還元密度行列が超光的に進化できないことを示す。
検出器を記述するための新しい演算子の導入による因果関係に焦点をあてる最近のアプローチとは違って、全ての-検出器、環境、人間を含む-は、同じ基本場から成り、シュロディンガーの猫パラドックスの導出の妥当性を疑問視し、追加の仮定を必要としない相対性理論の解釈を提案する。
From the ancient Einstein-Podolsky-Rosen paradox to the recent Sorkin-type impossible measurements problem, the contradictions between relativistic causality, quantum non-locality, and quantum measurement have persisted. Based on quantum field theory, our work provides a framework that harmoniously integrates these three aspects. This framework consists of causality expressed by reduced density matrices and an interpretation of quantum mechanics that considers quantum mechanics to be complete. Specifically, we use reduced density matrices to represent the local information of the quantum state and show that the reduced density matrices cannot evolve superluminally. Unlike recent approaches that focus on causality by introducing new operators to describe detectors, we consider that everything--including detectors, environments, and humans--is composed of the same fundamental fields, which prompts us to question the validity of the derivation of Schrodinger's cat paradox and leads us to propose an interpretation of quantum mechanics that does not require any additional assumptions and is compatible with relativity. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# スキップスポンジ攻撃:ディープニューラルネットワークのスポンジ重量のポジティング
The SkipSponge Attack: Sponge Weight Poisoning of Deep Neural Networks ( http://arxiv.org/abs/2402.06357v3 ) ライセンス: Link先を確認 | Jona te Lintelo, Stefanos Koffas, Stjepan Picek, | (参考訳) スポンジ攻撃は、ハードウェアアクセラレータにデプロイされたニューラルネットワークのエネルギー消費と計算時間を増加させることを目的としている。
既存のスポンジアタックは、スポンジの例による推論や、スポンジポジティングによるトレーニングで実行することができる。
スポンジの例では、モデル入力に加えられた摂動を利用してエネルギーと遅延を増大させ、スポンジポゾンはモデルの目的関数を変更して推論時エネルギー効果を誘導する。
本研究では,SkipSpongeと呼ばれる新しいスポンジ攻撃を提案する。
SkipSpongeは、いくつかのデータサンプルのみを使用して事前訓練されたモデルのパラメータに直接実行される最初のスポンジ攻撃である。
実験の結果,SkipSpongeは画像分類モデル,GAN,オートエンコーダのエネルギー消費を,スポンジポゾンよりも少ないサンプルで向上させることができることがわかった。
我々は,SkipSpongeに対する防御のために特別に調整されていない場合(すなわち,標的層バイアス値を減少させる)に,毒の防御は効果がないことを示す。
我々の研究は、SkipSpongeが最先端技術よりもGANやオートエンコーダに効果的であることを示している。
さらに、SkipSpongeは、被害者モデルの重みに大きな変更を必要としないため、以前のスポンジ・ポゾン攻撃よりステルス性が高い。
実験の結果,攻撃者がデータセット全体の1%しかアクセスできず,最大13%のエネルギー増加を達成した場合でも,SkipSponge攻撃が実行可能であることがわかった。
Sponge attacks aim to increase the energy consumption and computation time of neural networks deployed on hardware accelerators. Existing sponge attacks can be performed during inference via sponge examples or during training via Sponge Poisoning. Sponge examples leverage perturbations added to the model's input to increase energy and latency, while Sponge Poisoning alters the objective function of a model to induce inference-time energy effects. In this work, we propose a novel sponge attack called SkipSponge. SkipSponge is the first sponge attack that is performed directly on the parameters of a pre-trained model using only a few data samples. Our experiments show that SkipSponge can successfully increase the energy consumption of image classification models, GANs, and autoencoders with fewer samples required than Sponge Poisoning. We show that poisoning defenses are ineffective if not adjusted specifically for the defense against SkipSponge (i.e., they decrease target layer bias values). Our work shows that SkipSponge is more effective on the GANs and the autoencoders than the state-of-the-art. Additionally, SkipSponge is stealthier than the previous Sponge Poisoning attack as it does not require significant changes in the victim model's weights. Our experiments indicate that the SkipSponge attack can be performed even when an attacker has access to only 1% of the entire dataset and reaches up to 13% energy increase. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# AIのための協調的な欠陥開示 - セキュリティ脆弱性を超えて
Coordinated Flaw Disclosure for AI: Beyond Security Vulnerabilities ( http://arxiv.org/abs/2402.07039v3 ) ライセンス: Link先を確認 | Sven Cattell, Avijit Ghosh, Lucie-Aimée Kaffee, | (参考訳) 人工知能(AI)におけるHarmレポートは、現在、アルゴリズムの欠陥を開示し、対処するための構造化されたプロセスが欠落しており、主にアドホックなアプローチに依存している。
これは、ソフトウェアセキュリティにおいて確立されたCoordinated Vulnerability Disclosure(CVD)エコシステムとは対照的である。
AIの透明性とコラボレーションのためのフレームワークを確立するためのグローバルな取り組みが進行中である一方で、マシンラーニング(ML)モデルが提示するユニークな課題には、特殊なアプローチが必要だ。
このギャップに対処するために、MLとAIの問題の複雑さに合わせて、協調的欠陥開示(CFD)フレームワークを実装することを提案する。
本稿では、アドホックな報告から新たな参加型監査手法まで、ML開示の実践の進化をレビューし、それらをサイバーセキュリティ基準と比較する。
本フレームワークは,拡張モデルカード,ダイナミックスコープ拡張,独立適応パネル,自動検証プロセスなどのイノベーションを導入している。
また、近く登場するCFDの実世界のパイロットについても概説する。
CFDはAIシステムに対する公的な信頼を著しく向上させる可能性があると我々は主張する。
組織とコミュニティの関心のバランスをとることによって、CFDは、急速に進化する技術的状況において、AIの説明責任を改善することを目指している。
Harm reporting in Artificial Intelligence (AI) currently lacks a structured process for disclosing and addressing algorithmic flaws, relying largely on an ad-hoc approach. This contrasts sharply with the well-established Coordinated Vulnerability Disclosure (CVD) ecosystem in software security. While global efforts to establish frameworks for AI transparency and collaboration are underway, the unique challenges presented by machine learning (ML) models demand a specialized approach. To address this gap, we propose implementing a Coordinated Flaw Disclosure (CFD) framework tailored to the complexities of ML and AI issues. This paper reviews the evolution of ML disclosure practices, from ad hoc reporting to emerging participatory auditing methods, and compares them with cybersecurity norms. Our framework introduces innovations such as extended model cards, dynamic scope expansion, an independent adjudication panel, and an automated verification process. We also outline a forthcoming real-world pilot of CFD. We argue that CFD could significantly enhance public trust in AI systems. By balancing organizational and community interests, CFD aims to improve AI accountability in a rapidly evolving technological landscape. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# AIR-Bench: 生成的理解による大規模オーディオ言語モデルのベンチマーク
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension ( http://arxiv.org/abs/2402.07729v2 ) ライセンス: Link先を確認 | Qian Yang, Jin Xu, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou, Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou, | (参考訳) 近年,指示追従型音声-音声モデルが人間と音声の相互作用に広く注目されている。
しかし、音声中心のインタラクション能力を評価するためのベンチマークが欠如していることは、この分野の進歩を妨げている。
従来のモデルは、ASR(Automatic Speech Recognition)のような様々な基本的なタスクの評価に重点を置いており、音声を中心としたオープンな生成能力の評価に欠けていた。
したがって,LALM(Large Audio-Language Models)領域の進展の追跡と今後の改善のためのガイダンスの提供が困難である。
本稿では, LALMの音声信号(音声, 自然音, 音楽など)の理解能力を評価するための最初のベンチマークであるAIR-Bench(\textbf{A}udio \textbf{I}nst\textbf{R}uction \textbf{Bench}mark)を紹介する。
AIR-Benchは2つの次元を含む: \textit{foundation} と \textit{chat} ベンチマーク。
前者は19のタスクと約19kの単座質問で構成され、LALMの基本的な単座能力を調べることを目的としている。
後者は、複雑な音声におけるモデルの理解と、その指示に従う能力を直接評価する、オープンエンドのQ&Aデータの2kインスタンスを含む。
どちらのベンチマークも、仮説を直接生成するためにモデルが必要である。
我々は、GPT-4のような高度な言語モデルを活用する統一的なフレームワークを設計し、音声のメタ情報から生成された仮説のスコアを評価する。
実験の結果, GPT-4による評価と人的評価との間には高い一貫性が認められた。
評価結果を通じて既存のLALMの限界を明らかにすることで、AIR-Benchは将来の研究の方向性についての洞察を提供することができる。
Recently, instruction-following audio-language models have received broad attention for human-audio interaction. However, the absence of benchmarks capable of evaluating audio-centric interaction capabilities has impeded advancements in this field. Previous models primarily focus on assessing different fundamental tasks, such as Automatic Speech Recognition (ASR), and lack an assessment of the open-ended generative capabilities centered around audio. Thus, it is challenging to track the progression in the Large Audio-Language Models (LALMs) domain and to provide guidance for future improvement. In this paper, we introduce AIR-Bench (\textbf{A}udio \textbf{I}nst\textbf{R}uction \textbf{Bench}mark), the first benchmark designed to evaluate the ability of LALMs to understand various types of audio signals (including human speech, natural sounds, and music), and furthermore, to interact with humans in the textual format. AIR-Bench encompasses two dimensions: \textit{foundation} and \textit{chat} benchmarks. The former consists of 19 tasks with approximately 19k single-choice questions, intending to inspect the basic single-task ability of LALMs. The latter one contains 2k instances of open-ended question-and-answer data, directly assessing the comprehension of the model on complex audio and its capacity to follow instructions. Both benchmarks require the model to generate hypotheses directly. We design a unified framework that leverages advanced language models, such as GPT-4, to evaluate the scores of generated hypotheses given the meta-information of the audio. Experimental results demonstrate a high level of consistency between GPT-4-based evaluation and human evaluation. By revealing the limitations of existing LALMs through evaluation results, AIR-Bench can provide insights into the direction of future research. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# オンライン微分プライベートな合成データ生成
Online Differentially Private Synthetic Data Generation ( http://arxiv.org/abs/2402.08012v2 ) ライセンス: Link先を確認 | Yiyun He, Roman Vershynin, Yizhe Zhu, | (参考訳) オンライン微分プライベートな合成データ生成のための多項式時間アルゴリズムを提案する。
ハイパーキューブ$[0,1]^d$と無限時間水平線内のデータストリームに対して,差分プライベートな合成データセットを生成するオンラインアルゴリズムを開発する。
このアルゴリズムは、$O(\log(t)t^{-1/d})$ for $d\geq 2$ and $O(\log^{4.5}(t)t^{-1})$ for $d=1$ in the 1-Wasserstein distanceである。
この結果は、Lipschitzクエリへのクエリをカウントする継続リリースモデルに関する以前の作業を拡張します。
データセット全体が一度に利用可能となるオフラインの場合と比較して、我々のアプローチは精度境界に追加のポリログ係数しか必要としない。
We present a polynomial-time algorithm for online differentially private synthetic data generation. For a data stream within the hypercube $[0,1]^d$ and an infinite time horizon, we develop an online algorithm that generates a differentially private synthetic dataset at each time $t$. This algorithm achieves a near-optimal accuracy bound of $O(\log(t)t^{-1/d})$ for $d\geq 2$ and $O(\log^{4.5}(t)t^{-1})$ for $d=1$ in the 1-Wasserstein distance. This result extends the previous work on the continual release model for counting queries to Lipschitz queries. Compared to the offline case, where the entire dataset is available at once, our approach requires only an extra polylog factor in the accuracy bound. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# アーキテクチャからアプリケーションへ:ニューラル量子状態のレビュー
From Architectures to Applications: A Review of Neural Quantum States ( http://arxiv.org/abs/2402.09402v3 ) ライセンス: Link先を確認 | Hannah Lange, Anka Van de Walle, Atiye Abedinnia, Annabelle Bohrdt, | (参考訳) ヒルベルト空間次元の指数的成長とシステムサイズにより、量子多体系のシミュレーションは今日まで永続的な課題である。
本稿では,ニューラルネットワークのパラメータ化に必要な指数的に多くの係数を格納するのではなく,ネットワークパラメータの項で状態を圧縮することで,指数的スケーリングを克服するニューラルネットワーク量子状態(NQS)のシミュレーションのための,比較的新しい変分状態のクラスを概説する。
量子状態の力学をシミュレートするNQSアプローチと同様に、一般に使われているNQSアーキテクチャとその様々な応用を、基底状態と励起状態、有限温度および開系状態のシミュレーションに導入する。
さらに,NQSを量子状態トモグラフィーの文脈で論じる。
Due to the exponential growth of the Hilbert space dimension with system size, the simulation of quantum many-body systems has remained a persistent challenge until today. Here, we review a relatively new class of variational states for the simulation of such systems, namely neural quantum states (NQS), which overcome the exponential scaling by compressing the state in terms of the network parameters rather than storing all exponentially many coefficients needed for an exact parameterization of the state. We introduce the commonly used NQS architectures and their various applications for the simulation of ground and excited states, finite temperature and open system states as well as NQS approaches to simulate the dynamics of quantum states. Furthermore, we discuss NQS in the context of quantum state tomography. | 翻訳日:2024-07-29 18:21:50 公開日:2024-07-26 |
# クラウドセキュリティ脆弱性検出のためのAI計画の活用
Leveraging AI Planning For Detecting Cloud Security Vulnerabilities ( http://arxiv.org/abs/2402.10985v2 ) ライセンス: Link先を確認 | Mikhail Kazdagli, Mohit Tiwari, Akshat Kumar, | (参考訳) クラウドコンピューティングサービスは、データストレージ、処理、コラボレーションのためのスケーラブルで費用対効果の高いソリューションを提供する。
人気の高まりとともに、データ漏洩やランサムウェアのような高度な攻撃につながるセキュリティ上の脆弱性に関する懸念が高まっている。
まず,ユーザやデータストア,セキュリティロールなど,さまざまなクラウドオブジェクト間の関係を表現し,アクセス制御ポリシをモデル化する汎用フレームワークを提案する。
アクセス制御のミスコンフィグレーションが、クラウドアタックの主要な要因であることが多い。
第2に,セキュリティ脆弱性を検出するPDDLモデルを開発した。
プランナーはクラウド上の脆弱性を特定するために攻撃を発生させることができる。
最後に、当社のアプローチを、異なる商用組織の14のAmazon AWSクラウド構成でテストしています。
我々のシステムは、最先端の業界ツールが検出できない幅広いセキュリティ脆弱性を特定できる。
Cloud computing services provide scalable and cost-effective solutions for data storage, processing, and collaboration. Alongside their growing popularity, concerns related to their security vulnerabilities leading to data breaches and sophisticated attacks such as ransomware are growing. To address these, first, we propose a generic framework to express relations between different cloud objects such as users, datastores, security roles, to model access control policies in cloud systems. Access control misconfigurations are often the primary driver for cloud attacks. Second, we develop a PDDL model for detecting security vulnerabilities which can for example lead to widespread attacks such as ransomware, sensitive data exfiltration among others. A planner can then generate attacks to identify such vulnerabilities in the cloud. Finally, we test our approach on 14 real Amazon AWS cloud configurations of different commercial organizations. Our system can identify a broad range of security vulnerabilities, which state-of-the-art industry tools cannot detect. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# 文脈情報エントロピー制約を用いた適応デコードによる知識紛争の識別と解決
Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint ( http://arxiv.org/abs/2402.11893v3 ) ライセンス: Link先を確認 | Xiaowei Yuan, Zhao Yang, Yequan Wang, Shengping Liu, Jun Zhao, Kang Liu, | (参考訳) 大規模言語モデルは、事前訓練中に膨大なパラメトリック知識を内部化する。
同時に、現実的なアプリケーションは、基礎となるタスクのモデルを支援するために外部のコンテキスト知識を必要とします。
これは知識紛争として知られる重要なジレンマを引き起こし、そこでは文脈的知識が衝突する。 しかし、既存の解読作業は知識紛争の解決に特化しており、紛争のないパフォーマンスを不注意に劣化させる可能性がある。
本稿では,文脈情報エントロピー制約デコーディング(COIECD)と呼ばれる適応的復号法を提案する。
これは、矛盾する文脈に対するモデルの忠実さを改善することができ、また、我々の実験では、実際のデータセットにおける知識衝突に対して、COIECDが強い性能と堅牢性を示すことを示す。
コードは利用可能。
Large language models internalize enormous parametric knowledge during pre-training. Concurrently, realistic applications necessitate external contextual knowledge to aid models on the underlying tasks. This raises a crucial dilemma known as knowledge conflicts, where the contextual knowledge clashes with the However, existing decoding works are specialized in resolving knowledge conflicts and could inadvertently deteriorate performance in absence of conflicts. In this paper, we propose an adaptive decoding method, termed as contextual information-entropy constraint decoding (COIECD), to discern whether the knowledge conflicts occur and resolve them. It can improve the model's faithfulness to conflicting context, and simultaneously maintain high performance among non- Our experiments show that COIECD exhibits strong performance and robustness over knowledge conflicts in realistic datasets. Code is available. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# マルチモーダル大言語モデルのためのモデル構成
Model Composition for Multimodal Large Language Models ( http://arxiv.org/abs/2402.12750v2 ) ライセンス: Link先を確認 | Chi Chen, Yiyang Du, Zheng Fang, Ziyue Wang, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu, | (参考訳) MLLM(Multimodal Large Language Models)の最近の発展は、様々なモーダルからの入力を理解する汎用MLLMを作成するという目標に向かって、急速に進歩している。
しかし、既存の手法は典型的には、リソース集約的で新しいモダリティへの拡張が困難な、ペア化されたマルチモーダル命令データによる共同トレーニングに依存している。
本稿では,既存のMLLMのモデル構成を通した新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
さらに,統合過程におけるパラメータ干渉やミスマッチ問題に対処するためにDAMCを導入し,モデル性能を向上させる。
この領域の研究を容易にするために,MLLMの多様なモーダルからの入力を理解する能力を評価するベンチマークMCUBを提案する。
このベンチマークと他の4つのマルチモーダル理解タスクの実験は、ベースラインよりも大幅に改善され、モデル構成が複数のモーダルから入力を処理できる汎用モデルを作成することができることを示した。
Recent developments in Multimodal Large Language Models (MLLMs) have shown rapid progress, moving towards the goal of creating versatile MLLMs that understand inputs from various modalities. However, existing methods typically rely on joint training with paired multimodal instruction data, which is resource-intensive and challenging to extend to new modalities. In this paper, we propose a new paradigm through the model composition of existing MLLMs to create a new model that retains the modal understanding capabilities of each original model. Our basic implementation, NaiveMC, demonstrates the effectiveness of this paradigm by reusing modality encoders and merging LLM parameters. Furthermore, we introduce DAMC to address parameter interference and mismatch issues during the merging process, thereby enhancing the model performance. To facilitate research in this area, we propose MCUB, a benchmark for assessing ability of MLLMs to understand inputs from diverse modalities. Experiments on this benchmark and four other multimodal understanding tasks show significant improvements over baselines, proving that model composition can create a versatile model capable of processing inputs from multiple modalities. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# 負の客観性を持つ不確かさのアンサンブルによる外乱検出
Outlier detection by ensembling uncertainty with negative objectness ( http://arxiv.org/abs/2402.15374v3 ) ライセンス: Link先を確認 | Anja Delić, Matej Grcić, Siniša Šegvić, | (参考訳) 外乱検出は、教師付き視覚認識の安全クリティカルな応用に欠かせない能力である。
既存の手法のほとんどは、標準クローズドセットモデルを奨励し、負のトレーニングデータに低信頼の予測を生成することで、最良の結果をもたらす。
しかし、この手法は予測の不確かさと負のクラス認識を混同する。
したがって、K の基底クラスと 1 の外れ値クラスに対応する K+1 の対数を直接予測する。
この設定により、非分布不確実性のアンサンブルとして新しい異常スコアを定式化し、負の客観性(英語版)と称する外れ値クラスの後部を定式化することができる。
現在、アウトリーチは独立して検出できる
一 高い予測の不確実性又は
二 陰性データとの類似性
K+2クラスにマスクレベルの認識を組み込んだ高密度予測アーキテクチャに本手法を組み込む。
トレーニング手順は、新しいK+2クラスがペーストされた負のインスタンスで負のオブジェクト性を学ぶことを奨励する。
我々のモデルは、実際の負のデータをトレーニングすることなく、画像全体および画素レベルのアウトレーラ検出のための標準ベンチマークの最先端技術より優れています。
Outlier detection is an essential capability in safety-critical applications of supervised visual recognition. Most of the existing methods deliver best results by encouraging standard closed-set models to produce low-confidence predictions in negative training data. However, that approach conflates prediction uncertainty with recognition of the negative class. We therefore reconsider direct prediction of K+1 logits that correspond to K groundtruth classes and one outlier class. This setup allows us to formulate a novel anomaly score as an ensemble of in-distribution uncertainty and the posterior of the outlier class which we term negative objectness. Now outliers can be independently detected due to i) high prediction uncertainty or ii) similarity with negative data. We embed our method into a dense prediction architecture with mask-level recognition over K+2 classes. The training procedure encourages the novel K+2-th class to learn negative objectness at pasted negative instances. Our models outperform the current state-of-the art on standard benchmarks for image-wide and pixel-level outlier detection with and without training on real negative data. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# CGGM:IoTネットワークにおけるノード異常検出のための適応間隔付き条件付きグラフ生成モデル
CGGM: A conditional graph generation model with adaptive sparsity for node anomaly detection in IoT networks ( http://arxiv.org/abs/2402.17363v2 ) ライセンス: Link先を確認 | Xianshi Su, Munan Li, Tongbang Jiang, Hao Long, | (参考訳) 動的グラフはIoT(Internet of Things)内のノードにおける異常な振る舞いを検出するために広く使用されている。
生成モデルは、動的グラフにおける不均衡ノードカテゴリの問題に対処するためにしばしば使用される。
それにもかかわらず、それらが直面する制約には、隣接関係の単調性、ノードの多次元機能構築の難しさ、ノードの複数カテゴリのエンドツーエンド生成方法の欠如などが含まれる。
本稿では,マイノリティクラスに属するノードを多数生成することを目的として,CGGMと呼ばれる新しいグラフ生成モデルを提案する。
適応的な空間性を通じて隣接行列を生成する機構は、その構造における柔軟性を高める。
多次元特徴生成(MFG)と呼ばれる特徴生成モジュールは、位相情報とともにノード特徴を生成する。
ラベルは埋め込みベクトルに変換され、複数のカテゴリにわたる合成データの生成を制御する条件制約として機能する。
多段階の損失を用いて、合成データの分布を調整し、実際のデータと密に類似させる。
大規模な実験では、CGGMの合成データが様々な指標で最先端の手法よりも優れていることを示す。
本結果は,多カテゴリ分類モデルの性能を強力に向上し,多様なデータカテゴリを効率的に生成することを示す。
Dynamic graphs are extensively employed for detecting anomalous behavior in nodes within the Internet of Things (IoT). Generative models are often used to address the issue of imbalanced node categories in dynamic graphs. Nevertheless, the constraints it faces include the monotonicity of adjacency relationships, the difficulty in constructing multi-dimensional features for nodes, and the lack of a method for end-to-end generation of multiple categories of nodes. This paper presents a novel graph generation model, called CGGM, designed specifically to generate a larger number of nodes belonging to the minority class. The mechanism for generating an adjacency matrix, through adaptive sparsity, enhances flexibility in its structure. The feature generation module, called multidimensional features generator (MFG) to generate node features along with topological information. Labels are transformed into embedding vectors, serving as conditional constraints to control the generation of synthetic data across multiple categories. Using a multi-stage loss, the distribution of synthetic data is adjusted to closely resemble that of real data. In extensive experiments, we show that CGGM's synthetic data outperforms state-of-the-art methods across various metrics. Our results demonstrate efficient generation of diverse data categories, robustly enhancing multi-category classification model performance. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# 局所認識型3次元剛点クラウドマッチングのための結合ラプラシアン固有写像
Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching ( http://arxiv.org/abs/2402.17372v2 ) ライセンス: Link先を確認 | Matteo Bastico, Etienne Decencière, Laurent Corté, Yannick Tillier, David Ryckelynck, | (参考訳) コンピュータビジョン、医療、ロボット分野において重要な技術であるポイントクラウドマッチングは、ポイントクラウドとボクセルのペア間の対応を見つけることに関心がある。
いくつかの実践シナリオでは、正確なマッチングを正確に識別するためには、局所的な差異を強調することが不可欠であり、それによってマッチングプロセスの全体的な堅牢性と信頼性が向上する。
一般的に使用される形状記述子はいくつかの制限があり、しばしばペアのジオメトリに関する意味のある局所的な洞察を得られない。
本研究では,局所構造を微妙に考慮し,点雲に一致するグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、複数の登録されたジオメトリに対して整列した固有空間を容易に生成できるCoupled Laplacian (https://github.com/matteo-bastico/CoupLap)と呼ばれる新しい演算子を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
まず,MVTec 3D-ADデータセット上でのオブジェクト異常な局所化の課題に着目し,提案手法の性能をポイントワイズで評価する。
さらに,結合した固有空間から得られるグローバルな類似度スコアを用いて,BSE(Automatic Bone Side Estimation)と呼ばれる新しい医療タスクを定義する。
そこで本研究では,様々な公開データセットから骨表面構造を収集するベンチマークを提案する。
Coupled Laplacianをベースとしたマッチング手法は,両タスクの精度を著しく向上させることで,他の手法よりも優れている。
Point cloud matching, a crucial technique in computer vision, medical and robotics fields, is primarily concerned with finding correspondences between pairs of point clouds or voxels. In some practical scenarios, emphasizing local differences is crucial for accurately identifying a correct match, thereby enhancing the overall robustness and reliability of the matching process. Commonly used shape descriptors have several limitations and often fail to provide meaningful local insights about the paired geometries. In this work, we propose a new technique, based on graph Laplacian eigenmaps, to match point clouds by taking into account fine local structures. To deal with the order and sign ambiguity of Laplacian eigenmaps, we introduce a new operator, called Coupled Laplacian (https://github.com/matteo-bastico/CoupLap), that allows to easily generate aligned eigenspaces for multiple registered geometries. We show that the similarity between those aligned high-dimensional spaces provides a locally meaningful score to match shapes. We firstly evaluate the performance of the proposed technique in a point-wise manner, focusing on the task of object anomaly localization on the MVTec 3D-AD dataset. Additionally, we define a new medical task, called automatic Bone Side Estimation (BSE), which we address through a global similarity score derived from coupled eigenspaces. In order to test it, we propose a benchmark collecting bone surface structures from various public datasets. Our matching technique, based on Coupled Laplacian, outperforms other methods by reaching an impressive accuracy on both tasks. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# 3MVRD:マルチモーダルマルチタスクマルチタスクのビジュアルリッチフォーム文書理解
3MVRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding ( http://arxiv.org/abs/2402.17983v3 ) ライセンス: Link先を確認 | Yihao Ding, Lorenzo Vaiani, Caren Han, Jean Lee, Paolo Garza, Josiah Poon, Luca Cagliero, | (参考訳) 本稿では,視覚的にリッチな形式文書理解のための,マルチモーダル・マルチタスク・マルチ教師共同知識蒸留モデルを提案する。
このモデルは、トークンとエンティティ表現の微妙な相関を容易にし、フォームドキュメントに固有の複雑さに対処することによって、きめ細かなレベルと粗いレベルの両方の洞察を活用するように設計されている。
さらに, 多様な多教師間知識蒸留プロセスの高度化, 分散ギャップの提示, フォーム文書の調和的理解を実現するために, 新たな粒度間・粒度間損失関数を導入する。
公開形式文書理解データセットの総合的な評価を通じて,提案モデルは既存のベースラインを一貫して上回り,視覚的に複雑な形式文書の複雑な構造や内容を扱う上での有効性を示す。
This paper presents a groundbreaking multimodal, multi-task, multi-teacher joint-grained knowledge distillation model for visually-rich form document understanding. The model is designed to leverage insights from both fine-grained and coarse-grained levels by facilitating a nuanced correlation between token and entity representations, addressing the complexities inherent in form documents. Additionally, we introduce new inter-grained and cross-grained loss functions to further refine diverse multi-teacher knowledge distillation transfer process, presenting distribution gaps and a harmonised understanding of form documents. Through a comprehensive evaluation across publicly available form document understanding datasets, our proposed model consistently outperforms existing baselines, showcasing its efficacy in handling the intricate structures and content of visually complex form documents. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# ビジュアルエンティティ認識のための接地言語モデル
Grounding Language Models for Visual Entity Recognition ( http://arxiv.org/abs/2402.18695v2 ) ライセンス: Link先を確認 | Zilin Xiao, Ming Gong, Paola Cascante-Bonilla, Xingyao Zhang, Jie Wu, Vicente Ordonez, | (参考訳) 私たちは、ビジュアルエンティティ認識のためのAutoregressiveモデルであるAutoVERを紹介します。
自動回帰型マルチモーダル大言語モデルを拡張し,検索制約付き生成手法を適用した。
ドメイン外エンティティの低パフォーマンスを軽減し、視覚的な推論を必要とするクエリに優れています。
提案手法は,外部レトリビュータを使わずに,厳密な負対を並列に学習することにより,ラベル空間内の類似したエンティティを識別する。
推論中、検索された候補回答のリストは、無効なデコードパスを削除することによって、言語生成を明示的にガイドする。
提案手法は,最近提案されたOven-Wikiベンチマークにおいて,データセット分割における大幅な改善を実現する。
エンティティの精度は32.7%から61.5%に上昇した。
また、目に見えないクエリとクエリの分割に対して、実質的な2桁のマージンで優れたパフォーマンスを示す。
We introduce AutoVER, an Autoregressive model for Visual Entity Recognition. Our model extends an autoregressive Multi-modal Large Language Model by employing retrieval augmented constrained generation. It mitigates low performance on out-of-domain entities while excelling in queries that require visually-situated reasoning. Our method learns to distinguish similar entities within a vast label space by contrastively training on hard negative pairs in parallel with a sequence-to-sequence objective without an external retriever. During inference, a list of retrieved candidate answers explicitly guides language generation by removing invalid decoding paths. The proposed method achieves significant improvements across different dataset splits in the recently proposed Oven-Wiki benchmark. Accuracy on the Entity seen split rises from 32.7% to 61.5%. It also demonstrates superior performance on the unseen and query splits by a substantial double-digit margin. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# 計画における LLM の役割--計画図への LLM の埋め込み
On the Roles of LLMs in Planning: Embedding LLMs into Planning Graphs ( http://arxiv.org/abs/2403.00783v2 ) ライセンス: Link先を確認 | Hankz Hankui Zhuo, Xin Chen, Rong Pan, | (参考訳) プラン合成は、与えられた初期状態から目標状態へ移行するための一連のアクションやポリシーを生成することを目的としており、専門家が設計したり、データや世界との対話から学ぶことのできるドメインモデルを提供する。
大規模言語モデル (LLM) における創発的計画能力の主張により, LLM における既成計画技術の利用を考慮せずに, LLM の計画効率を検討する作業が提案されている。
本稿では,既成の計画フレームワークにおけるLCMの役割を解明し,LCMの計画能力に関する知見をさらに研究することを目的とする。
そこで本研究では,LLMをグラフベースの計画フレームワークに組み込むことの有効性について検討し,LLMを2段階の計画グラフ,すなわち相互制約生成レベルと制約解決レベルに組み込んだ新しいLLMベースの計画フレームワークを提案する。
様々な計画領域において提案手法の有効性を実証的に示す。
Plan synthesis aims to generate a course of actions or policies to transit given initial states to goal states, provided domain models that could be designed by experts or learnt from training data or interactions with the world. Intrigued by the claims of emergent planning capabilities in large language models (LLMs), works have been proposed to investigate the planning effectiveness of LLMs, without considering any utilization of off-the-shelf planning techniques in LLMs. In this paper, we aim to further study the insight of the planning capability of LLMs by investigating the roles of LLMs in off-the-shelf planning frameworks. To do this, we investigate the effectiveness of embedding LLMs into one of the well-known planning frameworks, graph-based planning, proposing a novel LLMs-based planning framework with LLMs embedded in two levels of planning graphs, i.e., mutual constraints generation level and constraints solving level. We empirically exhibit the effectiveness of our proposed framework in various planning domains. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# 学習エージェントの不均一集団における道徳行動のダイナミクス
Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents ( http://arxiv.org/abs/2403.04202v4 ) ライセンス: Link先を確認 | Elizaveta Tennant, Stephen Hailes, Mirco Musolesi, | (参考訳) AIシステムの安全性と整合性に関する懸念が高まり、人工知能に道徳的能力を組み込むことの重要性が強調される。
マルチエージェント(社会)環境では、個々の学習エージェント間の相互作用から複雑な集団レベルの現象が発生することがある。
既存の研究の多くは、独立した学習エージェントの相互作用を研究するために、シミュレーションされた社会的ジレンマ環境に依存しているが、実際にはエージェントの社会に存在するであろう道徳的不均一性を無視する傾向がある。
例えば、異なる時点において、単一の学習エージェントは、連続主義者である相手(すなわち、時間とともに成果を最大化することに集中する)、ノルムベース(すなわち、特定の規範に適合する)、徳ベース(すなわち、異なる美徳の組み合わせを考える)と向き合うことができる。
エージェントの共同開発が集団におけるそのような道徳的不均一性によってどの程度影響を受けるかはよく理解されていない。
本稿では,道徳的に異質な集団が社会的ジレンマ設定で相互作用する学習動態について考察する。
パートナー選択機構を備えた反復囚人のジレンマ環境を用いて,集団における多様な道徳的エージェントの出現が,個々のエージェントの学習行動や集団レベルの創発的成果に与える影響について検討する。
我々は,反社会的エージェントと反社会的エージェントの非自明な相互作用を数種類観察し,ある種のモラルエージェントが,より協調的な行動に向けて利己的なエージェントを操ることができることを発見した。
Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents: a promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents; however, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., focused on maximizing outcomes over time), norm-based (i.e., conforming to specific norms), or virtue-based (i.e., considering a combination of different virtues). The extent to which agents' co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using an Iterated Prisoner's Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents' learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain types of moral agents are able to steer selfish agents towards more cooperative behavior. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# MOTを超えて: セマンティックなマルチオブジェクトトラッキング
Beyond MOT: Semantic Multi-Object Tracking ( http://arxiv.org/abs/2403.05021v3 ) ライセンス: Link先を確認 | Yunhao Li, Qin Li, Hao Wang, Xue Ma, Jiali Yao, Shaohua Dong, Heng Fan, Libo Zhang, | (参考訳) 現在のマルチオブジェクト追跡(MOT)は、ビデオ中のターゲット(つまり「場所」)の軌跡を予測することを目的としている。
しかし、多くの重要な応用において単に「場所」を知ることは不十分である。
比較として、きめ細かな振る舞い、相互作用、そして全体的な要約されたキャプション(すなわち「どこ」に関連付けられたビデオの「何」)といった意味理解は、包括的ビデオ分析に強く望まれる。
そこで本研究では,セマンティック・マルチオブジェクト・トラッキング (SMOT) を導入し,オブジェクトの軌跡を推定し,関連するトラジェクトリの意味的詳細を理解するとともに,インスタンスキャプション,インスタンスインタラクション,ビデオキャプション全体を含むセマンティック・マルチオブジェクト・トラッキング(SMOT)を導入し,トラッキングのための"where"と"What"を統合した。
SMOTの探索を促進するため,大規模なセマンティックMOTベンチマークであるBenSMOTを提案する。
具体的には、BenSMOTは3,292本のビデオと151Kフレームで構成され、人間のセマンティックトラッキングのさまざまなシナリオをカバーしている。
BenSMOTは、自然言語の関連するインスタンスキャプション、インスタンスインタラクション、各ビデオシーケンスの全体的なキャプションと共に、ターゲットのトラジェクトリに対するアノテーションを提供する。
私たちの知る限り、BenSMOTはSMOTの最初の公開ベンチマークです。
また,今後の研究を奨励するためにSMOTerという新しいトラッカーを提案し,SMOTのために特別に設計し,エンドツーエンドで訓練し,有望な性能を示す。
BenSMOTのリリースによって、私たちは従来のMOTを超えて、SMOTの"where"と"What"を予測し、ビデオ理解のための新たな方向性を開くことを期待しています。
当社のBenSMOTとSMOTerがリリースされる予定です。
Current multi-object tracking (MOT) aims to predict trajectories of targets (i.e.,"where") in videos. Yet, knowing merely "where" is insufficient in many crucial applications. In comparison, semantic understanding such as fine-grained behaviors, interactions, and overall summarized captions (i.e., "what") from videos, associated with "where", is highly-desired for comprehensive video analysis. Thus motivated, we introduce Semantic Multi-Object Tracking (SMOT), that aims to estimate object trajectories and meanwhile understand semantic details of associated trajectories including instance captions, instance interactions, and overall video captions, integrating "where" and "what" for tracking. In order to foster the exploration of SMOT, we propose BenSMOT, a large-scale Benchmark for Semantic MOT. Specifically, BenSMOT comprises 3,292 videos with 151K frames, covering various scenarios for semantic tracking of humans. BenSMOT provides annotations for the trajectories of targets, along with associated instance captions in natural language, instance interactions, and overall caption for each video sequence. To our best knowledge, BenSMOT is the first publicly available benchmark for SMOT. Besides, to encourage future research, we present a novel tracker named SMOTer, which is specially designed and end-to-end trained for SMOT, showing promising performance. By releasing BenSMOT, we expect to go beyond conventional MOT by predicting "where" and "what" for SMOT, opening up a new direction in tracking for video understanding. Our BenSMOT and SMOTer will be released. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# TrackingがLoRAを発表 - より高速なトレーニング,大規模モデル,パフォーマンス向上
Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance ( http://arxiv.org/abs/2403.05231v2 ) ライセンス: Link先を確認 | Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling, | (参考訳) 大規模言語モデルにおけるパラメータ・エフェクト・ファイン・チューニング(PEFT)の動機付けにより,実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論遅延を追加することなく、モデルパラメータの小さなサブセットを視覚的なトラッキング領域に微調整するテクニックであるLoRAを適用することです。
しかし、ユニークな課題と潜在的なドメインギャップにより、この変換は最初の直観ほど簡単ではない。
まず、変換器ベースのトラッカーがテンプレートと検索画像の非共有位置埋め込みを構成する。
これはLoRAをダウンストリームタスクに、トレーニング済みのバックボーンに適用する場合、設計上の一貫性を必要とする、という問題を引き起こす。
第二に、畳み込みヘッドに固有の誘導バイアスは、追跡モデルにおけるパラメータ効率の良い微調整の有効性を低下させる。
これらの制約を克服するために、まずトランスフォーマーベースのトラッカーに位置埋め込みを分割し、共有空間と独立型に分割する。
多解像度画像(テンプレートと検索画像)の絶対座標を記述する共有埋め込みは、予め訓練されたバックボーンから継承される。
対照的に、独立した埋め込みは各トークンのソースを示し、スクラッチから学習される。
さらに,MPPのみをベースとしたアンカーフリーヘッドの設計を行い,PETRを適応させる。
私たちのデザインで。
1) メモリが25.8GB(バッチサイズ16)のGPU上でViT-gバックボーンでトラッカーを訓練することは現実的になる。
2) L-224 の訓練時間を 35.0 から 10.8 GPU に短縮する。
3) L-224 変種を用いて LaSOT SUC スコアを 0.703 から 0.742 に改善する。
4) L-224変種を52FPSから119FPSに高速化する。
コードとモデルはhttps://github.com/LitingLin/LoRAT.comで公開されている。
Motivated by the Parameter-Efficient Fine-Tuning (PEFT) in large language models, we propose LoRAT, a method that unveils the power of large ViT model for tracking within laboratory-level resources. The essence of our work lies in adapting LoRA, a technique that fine-tunes a small subset of model parameters without adding inference latency, to the domain of visual tracking. However, unique challenges and potential domain gaps make this transfer not as easy as the first intuition. Firstly, a transformer-based tracker constructs unshared position embedding for template and search image. This poses a challenge for the transfer of LoRA, usually requiring consistency in the design when applied to the pre-trained backbone, to downstream tasks. Secondly, the inductive bias inherent in convolutional heads diminishes the effectiveness of parameter-efficient fine-tuning in tracking models. To overcome these limitations, we first decouple the position embeddings in transformer-based trackers into shared spatial ones and independent type ones. The shared embeddings, which describe the absolute coordinates of multi-resolution images (namely, the template and search images), are inherited from the pre-trained backbones. In contrast, the independent embeddings indicate the sources of each token and are learned from scratch. Furthermore, we design an anchor-free head solely based on MLP to adapt PETR, enabling better performance with less computational overhead. With our design, 1) it becomes practical to train trackers with the ViT-g backbone on GPUs with only memory of 25.8GB (batch size of 16); 2) we reduce the training time of the L-224 variant from 35.0 to 10.8 GPU hours; 3) we improve the LaSOT SUC score from 0.703 to 0.742 with the L-224 variant; 4) we fast the inference speed of the L-224 variant from 52 to 119 FPS. Code and models are available at https://github.com/LitingLin/LoRAT. | 翻訳日:2024-07-29 18:11:46 公開日:2024-07-26 |
# ソーシャル統合ナビゲーション: 深層強化学習型ソーシャルアクティベーションロボット
Socially Integrated Navigation: A Social Acting Robot with Deep Reinforcement Learning ( http://arxiv.org/abs/2403.09793v3 ) ライセンス: Link先を確認 | Daniel Flögel, Lars Fischer, Thomas Rudolf, Tobias Schürmann, Sören Hohmann, | (参考訳) 移動ロボットは様々な混み合った状況で大規模に使われており、私たちの社会の一部になっている。
個人を考慮した移動ロボットの社会的に許容されるナビゲーション行動は、スケーラブルなアプリケーションと人間の受容にとって必須の要件である。
深層強化学習(DRL)アプローチは、ロボットのナビゲーションポリシーを学習し、ロボットと人間の複雑な相互作用をモデル化するために最近使用されている。
本稿では,ロボットが提示する社会的行動に基づいて既存のDRLベースのナビゲーションアプローチを分割し,社会的行動の欠如による社会的衝突回避と,社会的行動を明確に定義した社会的行動を伴う社会的認知アプローチを区別することを提案する。
さらに,ロボットの社会的行動が適応的であり,人間との相互作用から生じる,社会的統合ナビゲーション手法を提案する。
我々のアプローチの定式化は、社会的行為が他者の行動に向けられているという社会学的定義から導かれる。
DRLポリシーは、他のエージェントが社会的に統合された相互作用を行い、ロボットの振る舞いを個別に報酬する環境で訓練される。
シミュレーションの結果,提案手法は,環境中のすべてのエージェントに対する負の影響を著しく低減しつつ,エゴナビゲーション性能の観点から社会的に認識されたアプローチよりも優れていたことが示唆された。
Mobile robots are being used on a large scale in various crowded situations and become part of our society. The socially acceptable navigation behavior of a mobile robot with individual human consideration is an essential requirement for scalable applications and human acceptance. Deep Reinforcement Learning (DRL) approaches are recently used to learn a robot's navigation policy and to model the complex interactions between robots and humans. We propose to divide existing DRL-based navigation approaches based on the robot's exhibited social behavior and distinguish between social collision avoidance with a lack of social behavior and socially aware approaches with explicit predefined social behavior. In addition, we propose a novel socially integrated navigation approach where the robot's social behavior is adaptive and emerges from the interaction with humans. The formulation of our approach is derived from a sociological definition, which states that social acting is oriented toward the acting of others. The DRL policy is trained in an environment where other agents interact socially integrated and reward the robot's behavior individually. The simulation results indicate that the proposed socially integrated navigation approach outperforms a socially aware approach in terms of ego navigation performance while significantly reducing the negative impact on all agents within the environment. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# Few-Shot画像分類のための凍結機能拡張
Frozen Feature Augmentation for Few-Shot Image Classification ( http://arxiv.org/abs/2403.10519v2 ) ライセンス: Link先を確認 | Andreas Bär, Neil Houlsby, Mostafa Dehghani, Manoj Kumar, | (参考訳) 事前訓練された視覚モデル出力の上に線形分類器または軽量モデル(いわゆる「凍結機能」)を訓練すると、下流のいくつかのショットタスクにおいて印象的なパフォーマンスが得られる。
現在、凍結した機能はトレーニング中に変更されていない。
一方、ネットワークが直接画像に基づいてトレーニングされる場合、データ拡張は、大幅なオーバーヘッドを伴わずにパフォーマンスを向上させる標準的なレシピである。
本稿では,凍結機能拡張(FroFA)と呼ばれる凍結機能空間にデータ拡張を適用し,20種類の拡張を網羅した画像分類実験を行った。
本研究は,3つのネットワークアーキテクチャ,3つの大規模事前学習データセット,8つの転送データセットにおいて,可視的に単純なFroFA(輝度など)を採用することにより,ショット性能が一貫的に向上することを示した。
Training a linear classifier or lightweight model on top of pretrained vision model outputs, so-called 'frozen features', leads to impressive performance on a number of downstream few-shot tasks. Currently, frozen features are not modified during training. On the other hand, when networks are trained directly on images, data augmentation is a standard recipe that improves performance with no substantial overhead. In this paper, we conduct an extensive pilot study on few-shot image classification that explores applying data augmentations in the frozen feature space, dubbed 'frozen feature augmentation (FroFA)', covering twenty augmentations in total. Our study demonstrates that adopting a deceptively simple pointwise FroFA, such as brightness, can improve few-shot performance consistently across three network architectures, three large pretraining datasets, and eight transfer datasets. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# Particip-AI: 将来のAIユースケース、ハーム、利益を予測するための民主党調査フレームワーク
Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits ( http://arxiv.org/abs/2403.14791v2 ) ライセンス: Link先を確認 | Jimin Mun, Liwei Jiang, Jenny Liang, Inyoung Cheong, Nicole DeCario, Yejin Choi, Tadayoshi Kohno, Maarten Sap, | (参考訳) ChatGPTのような汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を減らしたようだ。
しかし、AIのガバナンスと開発は依然として少数の人の手に委ねられており、開発ペースはリスクを総合的に評価することなく加速している。
汎用AIの民主的リスクアセスメントと設計に向けた第一歩として、レイパーがAIのユースケースとその影響を推測し評価するための慎重に設計されたフレームワークPartialIP-AIを紹介します。
我々のフレームワークは、ユースケースの収集、代替シナリオ(ユースケースの開発と開発)によるリスクアセスメントによる多様な害の顕在化、そしてその開発を決定づけることによるAI開発に対する緊張感の顕在化を通じて、AIに関するよりニュアンスで詳細な世論の研究を可能にします。
民主的なAI開発を実現するためのフレームワークの約束を示すために、295人の人口統計学的に多様な参加者からのインプットを用いた中規模研究を実施している。
我々の分析によると、参加者の反応は、現在のAI開発におけるビジネスの焦点と対照的に、個人生活や社会への応用を強調している。
また、専門家が定義した問題に補完する、AIや機関における不信など、想定されるさまざまな害のセットも見出します。
さらに,AI利用事例が開発されるべきかどうかの参加者の判断を有意に予測し,一般ユーザによるテクノソリューション主義への懸念を浮き彫りにした。
私たちは、PartICIP-AIのようなフレームワークが、民主的なAI開発とガバナンスをさらにガイドする方法についての議論で締めくくります。
General purpose AI, such as ChatGPT, seems to have lowered the barriers for the public to use AI and harness its power. However, the governance and development of AI still remain in the hands of a few, and the pace of development is accelerating without a comprehensive assessment of risks. As a first step towards democratic risk assessment and design of general purpose AI, we introduce PARTICIP-AI, a carefully designed framework for laypeople to speculate and assess AI use cases and their impacts. Our framework allows us to study more nuanced and detailed public opinions on AI through collecting use cases, surfacing diverse harms through risk assessment under alternate scenarios (i.e., developing and not developing a use case), and illuminating tensions over AI development through making a concluding choice on its development. To showcase the promise of our framework towards informing democratic AI development, we run a medium-scale study with inputs from 295 demographically diverse participants. Our analyses show that participants' responses emphasize applications for personal life and society, contrasting with most current AI development's business focus. We also surface diverse set of envisioned harms such as distrust in AI and institutions, complementary to those defined by experts. Furthermore, we found that perceived impact of not developing use cases significantly predicted participants' judgements of whether AI use cases should be developed, and highlighted lay users' concerns of techno-solutionism. We conclude with a discussion on how frameworks like PARTICIP-AI can further guide democratic AI development and governance. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# AutoRE:大規模言語モデルを用いた文書レベル関係抽出
AutoRE: Document-Level Relation Extraction with Large Language Models ( http://arxiv.org/abs/2403.14888v3 ) ライセンス: Link先を確認 | Lilong Xue, Dan Zhang, Yuxiao Dong, Jie Tang, | (参考訳) 大規模言語モデル(LLM)は、テキストの理解と生成において例外的な能力を示しており、関係抽出(RE)を含む情報抽出(IE)の目的のために多くの研究者がそれらを利用する動機となっている。
しかしながら、既存のほとんどの手法は文レベルの関係抽出(SentRE)タスクのために設計されている。
さらに、いくつかのアプローチでは、関係をプロンプトテンプレートに統合した候補選択として扱うことで、ドキュメント・レベル関係抽出(DocRE)タスクに対処する際の非効率な処理と準最適性能を実現している。
これらの制限を克服するために、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンドツーエンドのDocREモデルであるAutoREを紹介する。
既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。
さらに,パラメータ・エフェクト・ファイン・チューニング(PEFT)アルゴリズム(QLoRA)を用いて,容易に拡張可能なREフレームワークを開発した。
RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、開発セットとテストセットでそれぞれ10.03\%と9.03\%を上回り、最先端の結果を達成した。
コードはhttps://github.com/THUDM/AutoREで、デモビデオはhttps://www.youtube.com/watch?
v=IhKRsZUAxKk。
Large Language Models (LLMs) have demonstrated exceptional abilities in comprehending and generating text, motivating numerous researchers to utilize them for Information Extraction (IE) purposes, including Relation Extraction (RE). Nonetheless, most existing methods are predominantly designed for Sentence-level Relation Extraction (SentRE) tasks, which typically encompass a restricted set of relations and triplet facts within a single sentence. Furthermore, certain approaches resort to treating relations as candidate choices integrated into prompt templates, leading to inefficient processing and suboptimal performance when tackling Document-Level Relation Extraction (DocRE) tasks, which entail handling multiple relations and triplet facts distributed across a given document, posing distinct challenges. To overcome these limitations, we introduce AutoRE, an end-to-end DocRE model that adopts a novel RE extraction paradigm named RHF (Relation-Head-Facts). Unlike existing approaches, AutoRE does not rely on the assumption of known relation options, making it more reflective of real-world scenarios. Additionally, we have developed an easily extensible RE framework using a Parameters Efficient Fine Tuning (PEFT) algorithm (QLoRA). Our experiments on the RE-DocRED dataset showcase AutoRE's best performance, achieving state-of-the-art results, surpassing TAG by 10.03\% and 9.03\% respectively on the dev and test set. The code is available at https://github.com/THUDM/AutoRE and the demonstration video is provided at https://www.youtube.com/watch?v=IhKRsZUAxKk. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# 形態的同変PDEとGANに基づく幾何学的生成モデル
Geometric Generative Models based on Morphological Equivariant PDEs and GANs ( http://arxiv.org/abs/2403.14897v3 ) ライセンス: Link先を確認 | El Hadji S. Diop, Thierno Fall, Alioune Mbengue, Mohamed Daoudi, | (参考訳) コンテンツと画像生成は、テクスチャ、エッジ、その他の薄い画像構造などの特定の特徴を抽出することにより、ノイズの多い情報からデータを作成し、生成する。
ここでは生成モデルに興味があり、2つの主要な問題に対処しています。
まず,マルチスケールの幾何学的特徴を考慮した特定特徴抽出の改良,およびその複雑性を低減し,幾何学的解釈性を提供するためのネットワークの等価性について述べる。
そこで本研究では, グループ畳み込みニューラルネットワーク(G-CNN)のための等変偏微分方程式(PDE)に基づく幾何生成モデルを提案する。
等変PDE層はリーマン多様体で定式化されたマルチスケールのダイレーションと浸食で構成され、群対称性はリー群上で定義される。
我々はリー群構造を利用して層内の等式を適切に統合し、リーマン計量を用いてマルチスケールなモルフォロジー演算を解くことができる。
リー群の各点は多様体の特異点と関連付けられており、リー群の下でのテンソル場不変量からリーマン多様体上の計量を導出するのに役立ち、誘導計量は同じ対称性を持つ。
提案した幾何形態GAN(GM-GAN)は、PDE-G-CNNにおいて提案された形態的同変畳み込みを用いて古典的CNNに非線形性をもたらす。
GM-GANはMNISTデータに基づいて評価され、GANと比較される。
予備的な結果は、GM-GANモデルが古典的GANより優れていることを示している。
Content and image generation consist in creating or generating data from noisy information by extracting specific features such as texture, edges, and other thin image structures. We are interested here in generative models, and two main problems are addressed. Firstly, the improvements of specific feature extraction while accounting at multiscale levels intrinsic geometric features; and secondly, the equivariance of the network to reduce its complexity and provide a geometric interpretability. To proceed, we propose a geometric generative model based on an equivariant partial differential equation (PDE) for group convolution neural networks (G-CNNs), so called PDE-G-CNNs, built on morphology operators and generative adversarial networks (GANs). Equivariant morphological PDE layers are composed of multiscale dilations and erosions formulated in Riemannian manifolds, while group symmetries are defined on a Lie group. We take advantage of the Lie group structure to properly integrate the equivariance in layers, and are able to use the Riemannian metric to solve the multiscale morphological operations. Each point of the Lie group is associated with a unique point in the manifold, which helps us derive a metric on the Riemannian manifold from a tensor field invariant under the Lie group so that the induced metric has the same symmetries. The proposed geometric morphological GAN (GM-GAN) is obtained by using the proposed morphological equivariant convolutions in PDE-G-CNNs to bring nonlinearity in classical CNNs. GM-GAN is evaluated on MNIST data and compared with GANs. Preliminary results show that GM-GAN model outperforms classical GAN. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# 超高速共振吸収におけるモロー様三重項
Mollow-like triplets in ultra-fast resonant absorption ( http://arxiv.org/abs/2403.18676v2 ) ライセンス: Link先を確認 | Axel Stenquist, Felipe Zapata, Edvin Olofsson, Yijie Liao, Elna Sveborn, Jakob Nicolai Bruhnke, Claudio Verdozzi, Jan Marcus Dahlström, | (参考訳) 滑らかなレーザー場の共振吸収により, モロー状三重項パターンが得られることを示す。
このような三重項の一般的な条件は、超ガウスパルスシーケンスによって導出され、図示される。
ガウスパルスは三重項を示すことができず、超ガウスパルスはパルス領域によって三重項を形成することができ、フラットトップパルスは1回のラビサイクル後に三重項を吸収することができる。
本研究の結果は, 可観測物質と異なる類似点と相違点を強調するために, 共振蛍光と並べて比較した。
高強度限界では、中心吸収ピークが非対称であることを示し、これは2レベル原子物理学を超えた非線形光電離によるものである。
We show that resonant absorption of smooth laser fields can yield Mollow-like triplet patterns. General conditions for such triplets are derived and illustrated with a super-Gaussian pulse sequence. Gaussian pulses can not exhibit triplets, super-Gaussian pulses can form triplets depending on the pulse area and flat-top pulses can produce absorption triplets after one Rabi cycle. Our results are compared side-by-side with resonance fluorescence to emphasize similarities and differences between these unlike observables. In the high-intensity limit, we show that the central absorption peak is asymmetric, which we attribute to non-linear photoionization, beyond two-level atomic physics. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# 荷電AdSブラックホールのリアプノフ指数と相転移の相互作用
Interplay between the Lyapunov exponents and phase transitions of charged AdS black holes ( http://arxiv.org/abs/2404.02095v2 ) ライセンス: Link先を確認 | Bhaskar Shukla, Pranaya Pratik Das, David Dudal, Subhash Mahapatra, | (参考訳) 種々のAdSブラックホールの標準・拡張熱力学的相構造と, ヌル・アンド・タイム・ライクな測地線に関連するリャプノフ指数との関係について検討した。
我々は、ダイオニクス、バルディーン、ガウス・ボネット、ローレンツ対称性が巨大な重力ブラックホールを破ると考え、ブラックホールに近い不安定な円形測地線における質量を持たない質量粒子と質量粒子のリャプノフ指数を計算した。
Lyapunov指数の温度分布は、小ブラックホール相と大ブラックホール相の異なる挙動を示し、ファンデルワールス型小ブラックホール相転移の特定の側面を包含できることがわかった。
さらに、Lyapunov指数の性質を順序パラメータとして分析し、その臨界指数がここで考慮される全てのブラックホールの臨界点付近で1/2$であることを示す。
We study the relationship between the standard or extended thermodynamic phase structure of various AdS black holes and the Lyapunov exponents associated with the null and time-like geodesics. We consider dyonic, Bardeen, Gauss-Bonnet, and Lorentz-symmetry breaking massive gravity black holes and calculate the Lyapunov exponents of massless and massive particles in unstable circular geodesics close to the black hole. We find that the thermal profile of the Lyapunov exponents exhibits distinct behaviour in the small and large black hole phases and can encompass certain aspects of the van der Waals type small/large black hole phase transition. We further analyse the properties of Lyapunov exponents as an order parameter and find that its critical exponent is $1/2$, near the critical point for all black holes considered here. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# ChangeMamba:時空間モデルによるリモートセンシングによる変化検出
ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model ( http://arxiv.org/abs/2404.03425v6 ) ライセンス: Link先を確認 | Hongruixuan Chen, Jian Song, Chengxi Han, Junshi Xia, Naoto Yokoya, | (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、リモートセンシング変化検出(CD)の分野で目覚ましい進歩を遂げた。
しかし、両方のアーキテクチャには固有の欠点がある。CNNは、より広い空間的コンテキストをキャプチャする能力を阻害する、限定的な受容的フィールドによって制約されている一方で、Transformerは計算集約的であり、大規模なデータセット上でトレーニングとデプロイにコストがかかる。
近年、状態空間モデルに基づくMambaアーキテクチャは、上記の2つのアーキテクチャの欠点を効果的に補うことができる一連の自然言語処理タスクにおいて、顕著な性能を示している。
本稿では,リモートセンシングCDタスクにおけるMambaアーキテクチャの可能性について検討する。
我々は,2値変化検出 (BCD), 意味変化検出 (SCD), 建物損傷評価 (BDA) に対応するフレームワークであるMambaBCD, MambaSCD, MambaBDAを調整した。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
3つのアーキテクチャで利用可能な変更デコーダについて,Mambaアーキテクチャと自然に結合可能な3つの時空間関係モデリング機構を提案し,その特性をフル活用して複数時空間特徴の時空間相互作用を実現し,正確な変更情報を得る。
5つのベンチマークデータセットにおいて、提案するフレームワークは、複雑なトレーニング戦略やトリックを使わずに、現在のCNNおよびTransformerベースのアプローチより優れており、CDタスクにおけるMambaアーキテクチャの可能性を完全に実証している。
さらなる実験は、アーキテクチャが劣化したデータに対して非常に堅牢であることを示している。
ソースコードはhttps://github.com/ChenHongruixuan/MambaCDで入手できる。
Convolutional neural networks (CNN) and Transformers have made impressive progress in the field of remote sensing change detection (CD). However, both architectures have inherent shortcomings: CNN are constrained by a limited receptive field that may hinder their ability to capture broader spatial contexts, while Transformers are computationally intensive, making them costly to train and deploy on large datasets. Recently, the Mamba architecture, based on state space models, has shown remarkable performance in a series of natural language processing tasks, which can effectively compensate for the shortcomings of the above two architectures. In this paper, we explore for the first time the potential of the Mamba architecture for remote sensing CD tasks. We tailor the corresponding frameworks, called MambaBCD, MambaSCD, and MambaBDA, for binary change detection (BCD), semantic change detection (SCD), and building damage assessment (BDA), respectively. All three frameworks adopt the cutting-edge Visual Mamba architecture as the encoder, which allows full learning of global spatial contextual information from the input images. For the change decoder, which is available in all three architectures, we propose three spatio-temporal relationship modeling mechanisms, which can be naturally combined with the Mamba architecture and fully utilize its attribute to achieve spatio-temporal interaction of multi-temporal features, thereby obtaining accurate change information. On five benchmark datasets, our proposed frameworks outperform current CNN- and Transformer-based approaches without using any complex training strategies or tricks, fully demonstrating the potential of the Mamba architecture in CD tasks. Further experiments show that our architecture is quite robust to degraded data. The source code will be available in https://github.com/ChenHongruixuan/MambaCD | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# 変形可能な3次元ガウス平滑化のためのガウス内包型変形
Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2404.03613v5 ) ライセンス: Link先を確認 | Jeongmin Bae, Seoha Kim, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, | (参考訳) 3D Gaussian Splatting (3DGS)は高速かつ高品質な新規ビュー合成を提供するため、動的シーンを表現するために標準3DGSを複数のフレームに変形させる自然な拡張である。
しかし、以前の作品では複雑な動的シーンを正確に再構築することはできなかった。
我々は, 座標関数として構築された変形場の設計に失敗しているとみなす。
3DGSは1つの座標ベースのフレームワークではなく、ガウシアンを中心とする複数のフィールドの混合であるため、このアプローチは問題となる。
この問題を解決するために、変形をガウス毎の埋め込みと時間的埋め込みの関数として定義する。
さらに, 変形を粗く, 微細な変形として分解し, 遅い動きと速い動きをモデル化する。
また, 局所的滑らか度正規化を導入し, 動的領域の細部を改良する。
プロジェクトページ: https://jeongminb.github.io/e-d3dgs/
As 3D Gaussian Splatting (3DGS) provides fast and high-quality novel view synthesis, it is a natural extension to deform a canonical 3DGS to multiple frames for representing a dynamic scene. However, previous works fail to accurately reconstruct complex dynamic scenes. We attribute the failure to the design of the deformation field, which is built as a coordinate-based function. This approach is problematic because 3DGS is a mixture of multiple fields centered at the Gaussians, not just a single coordinate-based framework. To resolve this problem, we define the deformation as a function of per-Gaussian embeddings and temporal embeddings. Moreover, we decompose deformations as coarse and fine deformations to model slow and fast movements, respectively. Also, we introduce a local smoothness regularization for per-Gaussian embedding to improve the details in dynamic regions. Project page: https://jeongminb.github.io/e-d3dgs/ | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# インドにおける高度なコンピューティング授業におけるLLM利用の分析
Analyzing LLM Usage in an Advanced Computing Class in India ( http://arxiv.org/abs/2404.04603v3 ) ライセンス: Link先を確認 | Anupam Garg, Aryaman Raina, Aryan Gupta, Jaskaran Singh, Manav Saini, Prachi Iiitd, Ronit Mehta, Rupin Oberoi, Sachin Sharma, Samyak Jain, Sarthak Tyagi, Utkarsh Arora, Dhruv Kumar, | (参考訳) 本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。
主に入門授業に焦点をあて、実際の学生とLLMの相互作用の詳細な分析を欠いている既存の研究とは異なり、我々の研究はこのギャップを埋めている。
インド大学の分散システムクラスから411人の学生を対象に、総合的な分析を行い、3つのプログラミング課題を完了し、Google Formサーベイを通じて経験を共有した。
その結果, 学生はコード生成, デバッグ, 概念質問, テストケース作成など, 様々なタスクにLLMを活用していることがわかった。
彼らは、基本的な文脈的プロンプトから、連鎖的プロンプトや反復的洗練のような高度な技術まで、一連のプロンプト戦略を採用した。
学生は一般的に,LLMを生産性の向上と学習に役立つと考えているが,信頼性の過度な傾向が指摘され,多くの学生が全課題記述を提出して完全なソリューションを得た。
ソフトウェア産業におけるLLMの利用の増加を踏まえ,本研究は,効果的なプロンプト戦略のトレーニングを含む学部カリキュラムの更新と,学術的環境におけるLLM利用のメリットと潜在的な欠点に対する認識を高めることの必要性を強調した。
This study examines the use of large language models (LLMs) by undergraduate and graduate students for programming assignments in advanced computing classes. Unlike existing research, which primarily focuses on introductory classes and lacks in-depth analysis of actual student-LLM interactions, our work fills this gap. We conducted a comprehensive analysis involving 411 students from a Distributed Systems class at an Indian university, where they completed three programming assignments and shared their experiences through Google Form surveys. Our findings reveal that students leveraged LLMs for a variety of tasks, including code generation, debugging, conceptual inquiries, and test case creation. They employed a spectrum of prompting strategies, ranging from basic contextual prompts to advanced techniques like chain-of-thought prompting and iterative refinement. While students generally viewed LLMs as beneficial for enhancing productivity and learning, we noted a concerning trend of over-reliance, with many students submitting entire assignment descriptions to obtain complete solutions. Given the increasing use of LLMs in the software industry, our study highlights the need to update undergraduate curricula to include training on effective prompting strategies and to raise awareness about the benefits and potential drawbacks of LLM usage in academic settings. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# 変分量子アルゴリズムにおけるトラベリングセールスパーソン問題の効率的な符号化
Efficient Encodings of the Travelling Salesperson Problem for Variational Quantum Algorithms ( http://arxiv.org/abs/2404.05448v2 ) ライセンス: Link先を確認 | Manuel Schnaus, Lilly Palackal, Benedikt Poggel, Xiomara Runge, Hans Ehm, Jeanette Miriam Lorenz, Christian B. Mendl, | (参考訳) ルーティング問題は、サプライチェーン計画において大規模に発生する産業アプリケーションにおける一般的な最適化問題である。
NPハード問題を解くための古典的な制限のため、量子コンピューティングは速度や解の質を改善することを望んでいる。
変分量子アルゴリズムでそれらを解くために、ルーティング問題を符号化するいくつかの提案がなされている。
しかし、エンドユーザーにとって、エンコーディングがニーズに応じて最適なソリューションを提供するという優先順位を決定することは困難である。
本研究では,トラベリングセールスパーソン問題に対する様々なエンコーディングについて検討する。
本稿では,量子近似最適化アルゴリズムと変分量子固有解器を用いた場合のスケーリングと性能を比較し,どの符号化を選択するかを明確にする。
小さいケースでは、置換符号化が実現可能性の問題に悩まされないため、良い結果が得られるという証拠が見つかる。
Routing problems are a common optimization problem in industrial applications, which occur on a large scale in supply chain planning. Due to classical limitations for solving NP-hard problems, quantum computing hopes to improve upon speed or solution quality. Several suggestions have been made for encodings of routing problems to solve them with variational quantum algorithms. However, for an end user it is hard to decide a priori which encoding will give the best solutions according to their needs. In this work, we investigate different encodings for the Travelling Salesperson Problem. We compare their scaling and performance when using the Quantum Approximate Optimization Algorithm and the Variational Quantum Eigensolver and provide a clear guide for users when to choose which encoding. For small instances, we find evidence that the permutation encoding can yield good results since it does not suffer from feasibility issues. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# グラフニューラルネットワークに基づく新技術のための高速システム技術共最適化フレームワーク
Fast System Technology Co-Optimization Framework for Emerging Technology Based on Graph Neural Networks ( http://arxiv.org/abs/2404.06939v2 ) ライセンス: Link先を確認 | Tianliang Ma, Guangxi Fan, Xuguang Sun, Zhihui Deng, Kainlu Low, Leilai Shao, | (参考訳) 本稿では,次世代IC設計のための電力,性能,面積(PPA)を最適化する,高速システム技術協調最適化(STCO)フレームワークを提案する。
我々は,TCADシミュレーションとセルライブラリ評価の両方にグラフニューラルネットワーク(GNN)ベースのアプローチを導入し,従来の手法よりも100倍以上の高速化を実現し,STCOの技術レベルを加速することに注力する。
これらの進歩は1.9Xから14.1Xまでのランタイムスピードアップを伴う包括的なSTCOイテレーションを可能にし、新興技術と従来の技術の両方をサポートする。
This paper proposes a fast system technology co-optimization (STCO) framework that optimizes power, performance, and area (PPA) for next-generation IC design, addressing the challenges and opportunities presented by novel materials and device architectures. We focus on accelerating the technology level of STCO using AI techniques, by employing graph neural network (GNN)-based approaches for both TCAD simulation and cell library characterization, which are interconnected through a unified compact model, collectively achieving over a 100X speedup over traditional methods. These advancements enable comprehensive STCO iterations with runtime speedups ranging from 1.9X to 14.1X and supports both emerging and traditional technologies. | 翻訳日:2024-07-29 18:02:02 公開日:2024-07-26 |
# アメリカ先住民言語における音声認識の高度化
Automatic Speech Recognition Advancements for Indigenous Languages of the Americas ( http://arxiv.org/abs/2404.08368v2 ) ライセンス: Link先を確認 | Monica Romero, Sandra Gomez, Ivan G. Torre, | (参考訳) 先住民族言語は、アメリカの地域社会のユニークなアイデンティティと文化を具現化した、人間のコミュニケーションの発展における基本的遺産である。
The Second AmericasNLP (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語のための自動音声認識(ASR)システムの訓練タスクを提案した。
本稿では,各対象言語に対する最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65hを用いて述べる。
我々はベイズ探索を用いて,300Mと1Bのパラメータの変種Wav2vec2.0 XLS-R(Cross-Lingual Speech Representations)に対する異なるパラメータの影響を系統的に検討した。
以上の結果から,データと詳細なハイパーパラメータチューニングがASRの精度に大きく影響することが示唆された。
ケチュアモデルが最も低い文字誤り率 (CER) (12.14) を達成したのに対し、コティリアモデルは微調整段階で最も広範囲なデータセットを持つにもかかわらず、最も高いCER (36.59) を示した。
逆に、最小のデータセットでは、グアラニモデルは15.59のCERを獲得し、ブリブリとワシカナはそれぞれ34.70と35.23のCERを得た。
さらに、Sobolの感度分析は、微調整更新とドロップアウト率を凍結する重要な役割を強調した。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
この研究は、少数民族言語保存におけるASR技術の発展に向けた今後の研究の道を開く。
Indigenous languages are a fundamental legacy in the development of human communication, embodying the unique identity and culture of local communities in America. The Second AmericasNLP (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022 proposed the task of training automatic speech recognition (ASR) systems for five Indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana. In this paper, we describe the fine-tuning of a state-of-the-art ASR model for each target language, using approximately 36.65 h of transcribed speech data from diverse sources enriched with data augmentation methods. We systematically investigate, using a Bayesian search, the impact of the different hyperparameters on the Wav2vec2.0 XLS-R (Cross-Lingual Speech Representations) variants of 300 M and 1 B parameters. Our findings indicate that data and detailed hyperparameter tuning significantly affect ASR accuracy, but language complexity determines the final result. The Quechua model achieved the lowest character error rate (CER) (12.14), while the Kotiria model, despite having the most extensive dataset during the fine-tuning phase, showed the highest CER (36.59). Conversely, with the smallest dataset, the Guarani model achieved a CER of 15.59, while Bribri and Wa'ikhana obtained, respectively, CERs of 34.70 and 35.23. Additionally, Sobol' sensitivity analysis highlighted the crucial roles of freeze fine-tuning updates and dropout rates. We release our best models for each language, marking the first open ASR models for Wa'ikhana and Kotiria. This work opens avenues for future research to advance ASR techniques in preserving minority Indigenous languages | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# 多体系におけるブロックコヒーレンスと多部絡み合いの相互変換
Interconversion between block coherence and multipartite entanglement in many-body systems ( http://arxiv.org/abs/2404.13526v2 ) ライセンス: Link先を確認 | Yu-Hui Wang, Li-Hang Ren, Ming-Liang Hu, Yan-Kui Bai, | (参考訳) コヒーレンスは本質的に射影測定に関係している。
固定射影測度が高階射影子を含むとき、コヒーレンス資源は直交部分空間の重ね合わせに由来するブロックコヒーレンスと呼ばれる。
ここでは,ブロック・インコヒーレント演算の枠組みの下で,ブロック・コヒーレンスとマルチパーティ・エンタングルメントの相互変換の定量的な関係を確立する。
変換されたマルチパーティの絡み合いは、単一パーティシステムの初期ブロックコヒーレンスによって上限づけられていることがわかった。
さらに、生成したマルチパーティ・エンタングルメントをサブシステムに転送し、局所的なブロック・インコヒーレント操作と古典的な通信により、初期シングルパーティシステムのコヒーレンスをブロックするように復元する。
さらに、粗粒の量子演算のみを補助サブシステムにアクセスできる場合、損失のないリソース相互変換がまだ実現可能であることを証明し、3つの4レベルシステムで具体例を示す。
この結果は、様々な量子資源を循環的に利用するための汎用的なアプローチを提供する。
Coherence is intrinsically related to projective measurement. When the fixed projective measurement involves higher-rank projectors, the coherence resource is referred to as block coherence, which comes from the superposition of orthogonal subspaces. Here, we establish a set of quantitative relations for the interconversion between block coherence and multipartite entanglement under the framework of the block-incoherent operations. It is found that the converted multipartite entanglement is upper bounded by the initial block coherence of single-party system. Moreover, the generated multipartite entanglement can be transferred to its subsystems and restored to block coherence of the initial single-party system by means of local block-incoherent operations and classical communication. In addition, when only the coarse-grained quantum operations are accessible for the ancillary subsystems, we further demonstrate that a lossless resource interconversion is still realizable, and give a concrete example in three four-level systems. Our results provide a versatile approach to utilize different quantum resources in a cyclic fashion. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# FiLo:ファイングラインド記述によるゼロショット異常検出と高品質な局所化
FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization ( http://arxiv.org/abs/2404.13671v2 ) ライセンス: Link先を確認 | Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Hao Li, Ming Tang, Jinqiao Wang, | (参考訳) ゼロショット異常検出(ZSAD)法は、ターゲットアイテムカテゴリ内の既知の正常または異常なサンプルにアクセスすることなく、直接異常を検出する。
既存のアプローチでは、マルチモーダル事前訓練されたモデルの堅牢な一般化機能、"正規"または"異常"の意味を表す手作業によるテキスト特徴と、異常を検出して異常パッチをローカライズするイメージ特徴との類似性を計算している。
しかしながら、「異常」の一般的な記述は、しばしば異なる対象カテゴリの様々な種類の異常と正確に一致しない。
さらに、単一パッチのコンピューティングの特徴的類似性は、さまざまなサイズとスケールの異常の特定の位置を特定するのに苦労している。
これらの問題に対処するために、適応学習されたFG-Des(Fined Description)と、位置強調された高品質ローカライゼーション(HQ-Loc)の2つのコンポーネントからなる、FiLoと呼ばれる新しいZSAD手法を提案する。
FG-DesはLarge Language Models (LLMs)を用いて各カテゴリの詳細な異常記述を導入し、適応的に学習されたテキストテンプレートを用いて異常検出の精度と解釈性を高める。
HQ-Locは、事前のローカライズ、位置強調テキストプロンプト、マルチスケールマルチシェイプ・クロスモーダル・インタラクション(MMCI)モジュールにGrounding DINOを活用し、異なるサイズと形状の異常のより正確なローカライズを容易にする。
MVTecやVisAのようなデータセットの実験結果によると、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に改善し、画像レベルのAUCは83.9%、ピクセルレベルのAUCは95.9%である。
コードはhttps://github.com/CASIA-IVA-Lab/FiLoで入手できる。
Zero-shot anomaly detection (ZSAD) methods entail detecting anomalies directly without access to any known normal or abnormal samples within the target item categories. Existing approaches typically rely on the robust generalization capabilities of multimodal pretrained models, computing similarities between manually crafted textual features representing "normal" or "abnormal" semantics and image features to detect anomalies and localize anomalous patches. However, the generic descriptions of "abnormal" often fail to precisely match diverse types of anomalies across different object categories. Additionally, computing feature similarities for single patches struggles to pinpoint specific locations of anomalies with various sizes and scales. To address these issues, we propose a novel ZSAD method called FiLo, comprising two components: adaptively learned Fine-Grained Description (FG-Des) and position-enhanced High-Quality Localization (HQ-Loc). FG-Des introduces fine-grained anomaly descriptions for each category using Large Language Models (LLMs) and employs adaptively learned textual templates to enhance the accuracy and interpretability of anomaly detection. HQ-Loc, utilizing Grounding DINO for preliminary localization, position-enhanced text prompts, and Multi-scale Multi-shape Cross-modal Interaction (MMCI) module, facilitates more accurate localization of anomalies of different sizes and shapes. Experimental results on datasets like MVTec and VisA demonstrate that FiLo significantly improves the performance of ZSAD in both detection and localization, achieving state-of-the-art performance with an image-level AUC of 83.9% and a pixel-level AUC of 95.9% on the VisA dataset. Code is available at https://github.com/CASIA-IVA-Lab/FiLo. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# シーンコーディネート再構築:再ローカライザの漸進的学習による画像収集の可能性
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer ( http://arxiv.org/abs/2404.14351v2 ) ライセンス: Link先を確認 | Eric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu, | (参考訳) シーンを描写した画像からカメラパラメータを推定するタスクに対処する。
SfM(Structure-from-motion)ツールは、スパース3Dポイントの三角測量を繰り返し、スパースポイントクラウドにより多くのカメラビューを登録することで、このタスクを段階的に再構築することで解決する。
我々は,視覚的再ローカライザの反復的応用,すなわち,新たなビューを現在のリコンストラクション状態に登録する手法として,インクリメンタル構造を運動から再解釈する。
この観点から、局所的な特徴マッチングに根付いていない視覚的再ローカライザを探索することができる。
学習に基づく再ローカライズ手法であるシーン座標回帰により、未提示画像から暗黙的なニューラルシーン表現を構築することができることを示す。
他の学習に基づく再構築方法と異なり、ポーズ先やシーケンシャルな入力は必要とせず、何千もの画像に対して効率的に最適化する。
ACE0では,特徴量に基づくSfMに近い精度でカメラのポーズを推定する。
プロジェクトページ: https://nianticlabs.github.io/acezero/
We address the task of estimating camera parameters from a set of images depicting a scene. Popular feature-based structure-from-motion (SfM) tools solve this task by incremental reconstruction: they repeat triangulation of sparse 3D points and registration of more camera views to the sparse point cloud. We re-interpret incremental structure-from-motion as an iterated application and refinement of a visual relocalizer, that is, of a method that registers new views to the current state of the reconstruction. This perspective allows us to investigate alternative visual relocalizers that are not rooted in local feature matching. We show that scene coordinate regression, a learning-based relocalization approach, allows us to build implicit, neural scene representations from unposed images. Different from other learning-based reconstruction methods, we do not require pose priors nor sequential inputs, and we optimize efficiently over thousands of images. In many cases, our method, ACE0, estimates camera poses with an accuracy close to feature-based SfM, as demonstrated by novel view synthesis. Project page: https://nianticlabs.github.io/acezero/ | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# TinyMLとサイバーセキュリティ:電気自動車充電インフラのユースケース
On TinyML and Cybersecurity: Electric Vehicle Charging Infrastructure Use Case ( http://arxiv.org/abs/2404.16894v3 ) ライセンス: Link先を確認 | Fatemeh Dehrouyeh, Li Yang, Firouz Badrkhani Ajaei, Abdallah Shami, | (参考訳) 技術が進歩するにつれて、サイバーセキュリティにおける機械学習(ML)の使用は、サイバー脅威の複雑化に対処するためにますます重要になりつつある。
従来のMLモデルはサイバーセキュリティを強化することができるが、その高エネルギーとリソース要求はアプリケーションを制限するため、リソース制約のある環境においてより適切なソリューションとしてTiny Machine Learning(TinyML)が出現する。
TinyMLは、スマートホーム、ヘルスケア、産業自動化といった分野で広く採用されている。
TinyMLは、小さな低消費電力デバイス向けのMLアルゴリズムの最適化に重点を置いており、エッジデバイス上でのインテリジェントなデータ処理を可能にする。
本稿では,電力消費,メモリ制限,計算制約などのTinyMLテクニックの共通課題を包括的にレビューし,エネルギー収穫,計算最適化技術,プライバシー保護のための伝達学習など,これらの課題に対する潜在的な解決策について検討する。
一方,電気自動車充電インフラ(EVCI)のサイバーセキュリティ推進におけるTinyMLの応用を代表的ユースケースとして論じる。
TinyMLを用いたEVCIのサイバーセキュリティを強化する実験ケーススタディとして,遅延とメモリ使用量の削減の観点から従来のMLと比較し,精度のトレードオフがわずかである。
さらに、この研究には、PlatformIO環境でESP32マイクロコントローラを使用して実践的なセットアップが含まれており、EVCIのサイバーセキュリティにおけるTinyMLの応用をハンズオンで評価する。
As technology advances, the use of Machine Learning (ML) in cybersecurity is becoming increasingly crucial to tackle the growing complexity of cyber threats. While traditional ML models can enhance cybersecurity, their high energy and resource demands limit their applications, leading to the emergence of Tiny Machine Learning (TinyML) as a more suitable solution for resource-constrained environments. TinyML is widely applied in areas such as smart homes, healthcare, and industrial automation. TinyML focuses on optimizing ML algorithms for small, low-power devices, enabling intelligent data processing directly on edge devices. This paper provides a comprehensive review of common challenges of TinyML techniques, such as power consumption, limited memory, and computational constraints; it also explores potential solutions to these challenges, such as energy harvesting, computational optimization techniques, and transfer learning for privacy preservation. On the other hand, this paper discusses TinyML's applications in advancing cybersecurity for Electric Vehicle Charging Infrastructures (EVCIs) as a representative use case. It presents an experimental case study that enhances cybersecurity in EVCI using TinyML, evaluated against traditional ML in terms of reduced delay and memory usage, with a slight trade-off in accuracy. Additionally, the study includes a practical setup using the ESP32 microcontroller in the PlatformIO environment, which provides a hands-on assessment of TinyML's application in cybersecurity for EVCI. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# CT画像を用いたリアルタイム多臓器分類
Real Time Multi Organ Classification on Computed Tomography Images ( http://arxiv.org/abs/2404.18731v2 ) ライセンス: Link先を確認 | Halid Ziya Yerebakan, Yoshihisa Shinagawa, Gerardo Hermosillo Valadez, | (参考訳) 臓器のセグメンテーションは多くの臨床自動化パイプラインに有用であるため、医療画像の基本的な課題である。
しかし、いくつかのタスクは完全なセグメンテーションを必要としない。
代わりに、分類器は、ボリューム全体をセグメント化せずに選択された臓器を識別できる。
本研究では,スパースデータサンプリング戦略を用いた大コンテキストサイズを用いて,臓器ラベルをリアルタイムに取得するための分類器に基づく手法を示す。
本手法は,問合せ位置の独立分類器として機能するが,任意の解像度でグリッド位置を問合せすることで,完全セグメンテーションを生成することができ,セグメンテーションアルゴリズムよりも高速な性能を実現する。
本手法を既存のセグメンテーション手法と比較し,医用画像の実用化に優れた実行可能性を示した。
Organ segmentation is a fundamental task in medical imaging since it is useful for many clinical automation pipelines. However, some tasks do not require full segmentation. Instead, a classifier can identify the selected organ without segmenting the entire volume. In this study, we demonstrate a classifier based method to obtain organ labels in real time by using a large context size with a sparse data sampling strategy. Although our method operates as an independent classifier at query locations, it can generate full segmentations by querying grid locations at any resolution, offering faster performance than segmentation algorithms. We compared our method with existing segmentation techniques, demonstrating its superior runtime potential for practical applications in medical imaging. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# 量子常磁性体の経路積分スピンダイナミクス
Path integral spin dynamics for quantum paramagnets ( http://arxiv.org/abs/2404.19539v2 ) ライセンス: Link先を確認 | Thomas Nussle, Pascal Thibaudeau, Stam Nicolis, | (参考訳) 古典的手法を用いて熱量子期待値を計算するために, 経路積分法と原子論的スピン力学シミュレーションを組み合わせた。
本研究では、一軸異方性と機械的制約を記述することに関連する非線型項でハミルトンをどう扱うかを示す。
これらの相互作用は、スピン作用素の二次項を1つの軸に沿ってのみ表現することができ、量子化軸と同一視することができる。
A path integral method, combined with atomistic spin dynamics simulations, has been developed to calculate thermal quantum expectation values using a classical approach. In this study, we show how to treat Hamiltonians with non-linear terms, that are relevant for describing uniaxial anisotropies and mechanical constraints. These interactions can be expressed solely through quadratic terms of the spin operator along one axis, that can be identified with the quantisation axis. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# 言語間の依存関係: Kotlin-Javaの実証的研究
Cross-Language Dependencies: An Empirical Study of Kotlin-Java ( http://arxiv.org/abs/2405.04602v2 ) ライセンス: Link先を確認 | Qiong Feng, Huan Ji, Xiaotian Ma, Peng Liang, | (参考訳) 背景: 2017年にGoogleがAndroidアプリ開発の公式プログラミング言語としてKotlinを導入して以来、KotlinはAndroid開発で広く採用されている。
JavaとKotlinの設計特性の相互運用性により、プロジェクト内で相互に共存し、スムーズに対話することが可能になります。
しかし、実際のプロジェクトでJavaとKotlinが相互にどのように相互作用するか、そしてこれらの相互作用の中でどのような課題に直面しているかについては、限定的な研究がある。
これらの質問に対する回答は、この種のクロスランゲージなソフトウェアシステムを理解するための鍵となる。
メソッド: 本論文では,11種類のKotlin-Java依存関係を抽出可能なDependEx-tractorというツールを実装し,3,227のJavaおよび8,630のKotlinソースファイルを持つ,23のKotlin-Java実世界のプロジェクトについて実証的研究を行った。
結果: この2つの言語プロジェクトにおいて,JavaとKotlinが相互に頻繁に対話し,アクセスと呼び出しの依存性型が最も優勢であることが判明した。
同じ言語の他のファイルと対話するファイルと比較すると、言語間のインタラクションに参加するJava/Kotlinソースファイルは、より多くのコミットを実行する。
さらに、KotlinとJavaのすべての問題のあるインタラクションの中で、修正戦略とともに7つの一般的な誤りを特定しました。
結論: この研究の結果は、Kotlin-Javaプロジェクトの課題を理解し、対処するのに役立ちます。
Background: Since Google introduced Kotlin as an official programming language for developing Android apps in 2017, Kotlin has gained widespread adoption in Android development. The inter-operability of Java and Kotlin's design nature allows them to coexist and interact with each other smoothly within a project. Aims: However, there is limited research on how Java and Kotlin interact with each other in real-world projects and what challenges are faced during these interactions. The answers to these questions are key to understanding these kinds of cross-language software systems. Methods: In this paper, we implemented a tool named DependEx-tractor, which can extract 11 kinds of Kotlin-Java dependencies, and conducted an empirical study of 23 Kotlin-Java real-world projects with 3,227 Java and 8,630 Kotlin source files. Results: Our findings revealed that Java and Kotlin frequently interact with each other in these cross-language projects, with access and call dependency types being the most dominant. Compared to files interacting with other files in the same language, Java/Kotlin source files, which participate in the cross-language interactions, undergo more commits. Additionally, among all Kotlin-Java problematic interactions, we identified seven common mistakes, along with their fixing strategies. Conclusions: The findings of this study can help developers understand and address the challenges in Kotlin-Java projects. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# 相関誘起有限差分推定器
A Correlation-induced Finite Difference Estimator ( http://arxiv.org/abs/2405.05638v2 ) ライセンス: Link先を確認 | Guo Liang, Guangwu Liu, Kun Zhang, | (参考訳) 確率勾配の推定は、オペレーション研究におけるサービスシステムのような分野において重要である。
この推定の古典的な方法は、摂動入力でサンプルを生成する有限差分近似である。
それでも、摂動を決定づけ、最小平均二乗誤差(MSE)を持つという意味で最適な有限差分推定器を得るという実践的な課題は続いている。
この問題に対処するため,本論文ではサンプルリサイクルの2つのアプローチを提案する。
まず、最適な摂動を推定するために、パイロットサンプルをリサイクルする。
第二に、これらのサンプルを再びリサイクルし、推定された摂動で新しいサンプルを生成し、効率的な有限差分推定器を生み出す。
私たちはそのバイアス、分散、MSEを分析します。
本分析は, 漸近的変動の減少を示すものであり, 場合によっては, 最適有限差分推定器と比較して漸近的バイアスの減少を示すものである。
したがって、提案した推定器は、常に一致するか、最適有限差分推定器よりも優れている。
数値実験では、いくつかの例に推定器を適用し、数値的な結果は、その頑健さと、その理論、特に小さなサンプルサイズの場合の一致を実証する。
Estimating stochastic gradients is pivotal in fields like service systems within operations research. The classical method for this estimation is the finite difference approximation, which entails generating samples at perturbed inputs. Nonetheless, practical challenges persist in determining the perturbation and obtaining an optimal finite difference estimator in the sense of possessing the smallest mean squared error (MSE). To tackle this problem, we propose a double sample-recycling approach in this paper. Firstly, pilot samples are recycled to estimate the optimal perturbation. Secondly, recycling these pilot samples again and generating new samples at the estimated perturbation, lead to an efficient finite difference estimator. We analyze its bias, variance and MSE. Our analyses demonstrate a reduction in asymptotic variance, and in some cases, a decrease in asymptotic bias, compared to the optimal finite difference estimator. Therefore, our proposed estimator consistently coincides with, or even outperforms the optimal finite difference estimator. In numerical experiments, we apply the estimator in several examples, and numerical results demonstrate its robustness, as well as coincidence with the theory presented, especially in the case of small sample sizes. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# マルチラベル医用画像分類のための事前学習型視覚言語モデルにおける擬似プロンプト
Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification ( http://arxiv.org/abs/2405.06468v2 ) ライセンス: Link先を確認 | Yaoqin Ye, Junjie Zhang, Hongwei Shi, | (参考訳) 医用画像認識の課題は,多種多様な病理所見の存在によって明らかに複雑化しており,未確認ラベルを用いた多ラベル分類において特異な課題が提示されている。
この複雑さは、マルチラベルゼロショット学習を用いたコンピュータ支援診断手法の必要性を浮き彫りにする。
近年,前訓練型視覚言語モデル(VLM)の進歩は,医用画像に顕著なゼロショット分類能力を示した。
しかしながら、これらの手法は、より広い画像データセットからの広範な事前訓練された知識の活用に制限があり、しばしば専門の放射線学者による手動のプロンプト構築に依存している。
即時チューニングのプロセスを自動化することで、VLMを下流タスクに適応させる効率的な方法として、即時学習技術が登場した。
しかし、既存のCoOpベースの戦略は、未確認のカテゴリでクラス固有のプロンプトを実行するに足りず、きめ細かいシナリオでの一般化性を制限する。
これらの制約を克服するために,自然言語処理(NLP)におけるテキスト生成によって実現される新しいプロンプト生成手法を提案する。
提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。
RNNベースのデコーダを備えたPsPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。
各種マルチラベル胸部X線写真データセットの比較評価により,先進的な医用ビジョン言語およびマルチラベル・プロンプト学習法に対するアプローチの優位性が確認された。
ソースコードはhttps://github.com/fallingnight/PsPGで入手できる。
The task of medical image recognition is notably complicated by the presence of varied and multiple pathological indications, presenting a unique challenge in multi-label classification with unseen labels. This complexity underlines the need for computer-aided diagnosis methods employing multi-label zero-shot learning. Recent advancements in pre-trained vision-language models (VLMs) have showcased notable zero-shot classification abilities on medical images. However, these methods have limitations on leveraging extensive pre-trained knowledge from broader image datasets, and often depend on manual prompt construction by expert radiologists. By automating the process of prompt tuning, prompt learning techniques have emerged as an efficient way to adapt VLMs to downstream tasks. Yet, existing CoOp-based strategies fall short in performing class-specific prompts on unseen categories, limiting generalizability in fine-grained scenarios. To overcome these constraints, we introduce a novel prompt generation approach inspirited by text generation in natural language processing (NLP). Our method, named Pseudo-Prompt Generating (PsPG), capitalizes on the priori knowledge of multi-modal features. Featuring a RNN-based decoder, PsPG autoregressively generates class-tailored embedding vectors, i.e., pseudo-prompts. Comparative evaluations on various multi-label chest radiograph datasets affirm the superiority of our approach against leading medical vision-language and multi-label prompt learning methods. The source code is available at https://github.com/fallingnight/PsPG | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# 圧縮コヒーレント熱状態に対する二重Jaynes-Cummingsモデルと強度依存二重Jaynes-Cummingsモデルにおけるエンタングルメントダイナミクス
Entanglement dynamics in double Jaynes-Cummings model and intensity-dependent double Jaynes-Cummings model for squeezed coherent thermal states ( http://arxiv.org/abs/2405.10564v2 ) ライセンス: Link先を確認 | Koushik Mandal, | (参考訳) 本研究では, 原子-原子, 原子-磁場, 磁場などの異なるサブシステムの強度依存型二重Jaynes-Cummingsモデル (IDDJCM) と二重Jaynes-Cummingsモデル (DJCM) に対して, 圧縮コヒーレント熱状態における放射場との絡み合いのダイナミクスについて検討した。
圧縮光子と熱光子の双方が絡み合いのダイナミクスに及ぼす影響を観察した。
二重Jaynes-Cummingsモデルの主な特徴は、すべてのサブシステムで突然死の絡み合いが観測されることである。
イジング相互作用、単一光子交換相互作用、双極子-双極子相互作用などの様々な相互作用が絡み合いのダイナミクスに及ぼす影響について研究した。
各サブシステムに対して,デチューニング,カー非線形性が絡み合いダイナミクスに及ぼす影響について検討した。
相互作用パラメータの適切な選択、デチューニングとカー非線形性は、動的に絡み合う死を効果的に除去する。
In this work, the entanglement dynamics of different subsystems such as atom-atom, atom-field and field-field with radiation field in squeezed coherent thermal states for the intensity-dependent double Jaynes-Cummings model (IDDJCM) and double Jaynes-Cummings model (DJCM) are investigated. The effects of both squeezed photons and thermal photons on entanglement dynamics is observed. The main feature of the double Jaynes-Cummings model - entanglement sudden death is observed for every subsystem. The effects of various interactions such as Ising interaction, single photon exchange interaction and dipole-dipole interaction on entanglement dynamics are studied. The effects of detuning, Kerr-nonlinearity on the entanglement dynamics are investigated for every subsystem. It is noticed that proper choice of the interactions parameters, detuning and Kerr-nonlinearity effectively removes entanglement deaths from the dynamics. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# 固定された非ガウス状態と適応線形光学を持つ任意の多モード連続可変量子ゲートの実装
Implementing arbitrary multi-mode continuous-variable quantum gates with fixed non-Gaussian states and adaptive linear optics ( http://arxiv.org/abs/2405.19067v2 ) ライセンス: Link先を確認 | Fumiya Hanamura, Warit Asavanant, Hironari Nagayoshi, Atsushi Sakaguchi, Ryuhoh Ide, Kosuke Fukui, Peter van Loock, Akira Furusawa, | (参考訳) 非ガウス量子ゲートは光量子情報処理の必須成分である。
しかし、事実上重要な多モード高階非ガウスゲートの効率的な実装は包括的に研究されていない。
固定された非ガウスアンシラリー状態と適応線形光学を用いた一般・多モード・高階非ガウスゲートを直接実装する測定法を提案する。
既存の手法と比較して,2モード立方体量子非破壊ゲートや3モード連続可変トフォリゲート,高次拡張など,光量子技術における様々な応用において重要なマルチモードゲートの実装が,資源効率が高く,実験的に実現可能である。
我々の結果は、光によるフォールトトレラントな普遍量子コンピューティングへの進歩を加速する。
Non-Gaussian quantum gates are essential components for optical quantum information processing. However, the efficient implementation of practically important multi-mode higher-order non-Gaussian gates has not been comprehensively studied. We propose a measurement-based method to directly implement general, multi-mode, and higher-order non-Gaussian gates using only fixed non-Gaussian ancillary states and adaptive linear optics. Compared to existing methods, our method allows for a more resource-efficient and experimentally feasible implementation of multi-mode gates that are important for various applications in optical quantum technology, such as the two-mode cubic quantum non-demolition gate or the three-mode continuous-variable Toffoli gate, and their higher-order extensions. Our results will expedite the progress toward fault-tolerant universal quantum computing with light. | 翻訳日:2024-07-29 17:52:18 公開日:2024-07-26 |
# ディフュージョンの破壊: ディフュージョンに基づくカスタマイズに対するトークンレベルアテンション消去攻撃
Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based Customization ( http://arxiv.org/abs/2405.20584v2 ) ライセンス: Link先を確認 | Yisu Liu, Jinyang An, Wanqian Zhang, Dayan Wu, Jingzi Gu, Zheng Lin, Weiping Wang, | (参考訳) DreamBoothのような拡散ベースのカスタマイズ方法の開発により、個人はパーソナライズされたイメージを生成するモデルをトレーニングできるようになりました。
この便利さにもかかわらず、悪意のあるユーザーは偽画像を作成するためにこれらのテクニックを誤用し、それによってプライバシーのセキュリティ危機が引き起こされた。
これを踏まえて、ユーザをカスタマイズから守るために、積極的な敵攻撃が提案されている。
逆の例は、カスタマイズモデルの出力を歪め、したがって誤用をブロックするように訓練される。
本稿では,拡散モデル出力を阻害する新たな逆攻撃法であるDisDiff(Disrupting Diffusion)を提案する。
まず、クロスアテンションとしてよく知られている本質的な画像とテキストの関係を掘り下げ、画像生成を導く上で、主観的識別トークンが重要な役割を果たすことを実証的に見出した。
そこで本研究では,対象の注意マップを明示的に「消去」し,テキストガイダンスを乱すクロスアテンション消去モジュールを提案する。
さらに,拡散モデルのサンプリングプロセスがPGD攻撃に与える影響を解析し,ステップアウェア方式で摂動更新振幅を適応的に調整する新しいメリットサンプリングスケジューリングを導入する。
我々のDisDiffは、2つの顔ベンチマークと2つの一般的なプロンプトで、FDFRスコアの12.75%、ISMスコアの7.25%で最先端の手法よりも優れています。
With the development of diffusion-based customization methods like DreamBooth, individuals now have access to train the models that can generate their personalized images. Despite the convenience, malicious users have misused these techniques to create fake images, thereby triggering a privacy security crisis. In light of this, proactive adversarial attacks are proposed to protect users against customization. The adversarial examples are trained to distort the customization model's outputs and thus block the misuse. In this paper, we propose DisDiff (Disrupting Diffusion), a novel adversarial attack method to disrupt the diffusion model outputs. We first delve into the intrinsic image-text relationships, well-known as cross-attention, and empirically find that the subject-identifier token plays an important role in guiding image generation. Thus, we propose the Cross-Attention Erasure module to explicitly "erase" the indicated attention maps and disrupt the text guidance. Besides,we analyze the influence of the sampling process of the diffusion model on Projected Gradient Descent (PGD) attack and introduce a novel Merit Sampling Scheduler to adaptively modulate the perturbation updating amplitude in a step-aware manner. Our DisDiff outperforms the state-of-the-art methods by 12.75% of FDFR scores and 7.25% of ISM scores across two facial benchmarks and two commonly used prompts on average. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# EHR-SeqSQL : 電子健康記録を相互に探索するシークエンシャルテキスト-SQLデータセット
EHR-SeqSQL : A Sequential Text-to-SQL Dataset For Interactively Exploring Electronic Health Records ( http://arxiv.org/abs/2406.00019v2 ) ライセンス: Link先を確認 | Jaehee Ryu, Seonhee Cho, Gyubok Lee, Edward Choi, | (参考訳) 本稿ではEHR(Electronic Health Record)データベースのための新しいシーケンシャルテキスト-SQLデータセットであるEHR-SeqSQLを紹介する。
EHR-SeqSQLは、対話性、構成性、効率性といった、テキストからSQLへのパースにおいて重要で未探索の側面に対処するように設計されている。
私たちの知る限りでは、EHR-SeqSQLは最大のだけでなく、シーケンシャルな質問や文脈的な質問を含む最初の医療用テキスト-SQLデータセットベンチマークです。
我々は、合成一般化能力を評価するために、データ分割と新しいテストセットを提供する。
本実験は,学習構成性において,単ターンアプローチよりも多ターンアプローチの方が優れていることを示す。
さらに、我々のデータセットは特別に作られたトークンをSQLクエリに統合し、実行効率を向上させる。
EHR-SeqSQLでは,テキストからSQLへの領域における実践的ニーズと学術研究のギャップを埋めることを目指しています。
EHR-SeqSQL は \href{https://github.com/seonhee99/EHR-SeqSQL}{at this https URL} で利用可能である。
In this paper, we introduce EHR-SeqSQL, a novel sequential text-to-SQL dataset for Electronic Health Record (EHR) databases. EHR-SeqSQL is designed to address critical yet underexplored aspects in text-to-SQL parsing: interactivity, compositionality, and efficiency. To the best of our knowledge, EHR-SeqSQL is not only the largest but also the first medical text-to-SQL dataset benchmark to include sequential and contextual questions. We provide a data split and the new test set designed to assess compositional generalization ability. Our experiments demonstrate the superiority of a multi-turn approach over a single-turn approach in learning compositionality. Additionally, our dataset integrates specially crafted tokens into SQL queries to improve execution efficiency. With EHR-SeqSQL, we aim to bridge the gap between practical needs and academic research in the text-to-SQL domain. EHR-SeqSQL is available \href{https://github.com/seonhee99/EHR-SeqSQL}{at this https URL}. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# animal2vecとMeerKAT: 希少な生オーディオ入力のための自己教師型トランスフォーマーとバイオ音響学のための大規模参照データセット
animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics ( http://arxiv.org/abs/2406.01253v2 ) ライセンス: Link先を確認 | Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin, | (参考訳) 動物の行動、保存、生態を理解するのに不可欠なバイオ音響研究は、動物の声化が稀な膨大なデータセットを分析するという重要な課題に直面している。
ディープラーニング技術は標準になりつつあるが、生体音響学に適応することは依然として難しい。
そこで本研究では,この手法を,解釈可能な大規模変圧器モデルであるAnimal2vecと,スパースおよびアンバランスな生体音響データに適した自己教師型トレーニングスキームを用いて検討する。
ラベルなしの音声から学習し、ラベル付きデータで理解を深める。
さらに,我々はMeerKAT: Meerkat Kalahari Audio Transcriptsを紹介し,公開している。
我々のモデルは,MeerKAT と NIPS4Bplus Birdong データセットの既存手法よりも優れている。
さらに、Animal2vecはラベル付きデータ(フェーショット学習)でも良好に機能する。
animal2vecとMeerKATは、バイオ音響研究の新しい基準ポイントを提供する。
Bioacoustic research, vital for understanding animal behavior, conservation, and ecology, faces a monumental challenge: analyzing vast datasets where animal vocalizations are rare. While deep learning techniques are becoming standard, adapting them to bioacoustics remains difficult. We address this with animal2vec, an interpretable large transformer model, and a self-supervised training scheme tailored for sparse and unbalanced bioacoustic data. It learns from unlabeled audio and then refines its understanding with labeled data. Furthermore, we introduce and publicly release MeerKAT: Meerkat Kalahari Audio Transcripts, a dataset of meerkat (Suricata suricatta) vocalizations with millisecond-resolution annotations, the largest labeled dataset on non-human terrestrial mammals currently available. Our model outperforms existing methods on MeerKAT and the publicly available NIPS4Bplus birdsong dataset. Moreover, animal2vec performs well even with limited labeled data (few-shot learning). animal2vec and MeerKAT provide a new reference point for bioacoustic research, enabling scientists to analyze large amounts of data even with scarce ground truth information. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# LOLA:コンテンツ実験のためのLLM支援オンライン学習アルゴリズム
LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments ( http://arxiv.org/abs/2406.02611v2 ) ライセンス: Link先を確認 | Zikun Ye, Hema Yoganarasimhan, Yufeng Zheng, | (参考訳) 急速に進化するデジタルコンテンツの世界では、メディア企業やニュース出版社は、ユーザーエンゲージメントを高めるための自動化された効率的な方法を必要としている。
本稿では,LLM-Assisted Online Learning Algorithm (LOLA)を紹介し,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークを提案する。
17,681のA/Bテストを含むUpworthyから大規模データセットを活用することで、まず、プロンプトベースのメソッド、埋め込みベースの分類モデル、微調整されたオープンソースLCMの3つの純粋なLLMアプローチを調査する。
その結果,プロンプトベースアプローチの精度は65%に満たないことがわかった。
対照的に、OpenAI埋め込みベースの分類モデルと80億のパラメータを持つ微調整されたLlama-3は、約82-84\%の精度を達成している。
次に、トラフィックを割り当て、クリックを適応的に最大化するために、最高の純LLMアプローチとアッパー信頼境界アルゴリズムを組み合わせたLOLAを導入する。
Upworthy データの数値実験により,LOLA は標準 A/B 試験法 (Upworthy の現在の状態 quo ) ,純バンドビットアルゴリズム,純粋LLM アプローチ,特に実験トラフィックが限定されたシナリオにおいて,優れた性能を示した。
当社のアプローチはスケーラブルで、デジタル広告やソーシャルメディアのレコメンデーションなど、企業がユーザエンゲージメントを最適化しようとするさまざまな環境でのコンテンツ実験にも適用可能です。
In the rapidly evolving digital content landscape, media firms and news publishers require automated and efficient methods to enhance user engagement. This paper introduces the LLM-Assisted Online Learning Algorithm (LOLA), a novel framework that integrates Large Language Models (LLMs) with adaptive experimentation to optimize content delivery. Leveraging a large-scale dataset from Upworthy, which includes 17,681 headline A/B tests, we first investigate three pure-LLM approaches: prompt-based methods, embedding-based classification models, and fine-tuned open-source LLMs. We find that prompt-based approaches perform poorly, achieving no more than 65\% accuracy in identifying the catchier headline. In contrast, both OpenAI-embedding-based classification models and fine-tuned Llama-3 with 8 billion parameters achieve an accuracy of around 82-84\%. We then introduce LOLA, which combines the best pure-LLM approach with the Upper Confidence Bound algorithm to allocate traffic and maximize clicks adaptively. Our numerical experiments on Upworthy data show that LOLA outperforms the standard A/B test method (the current status quo at Upworthy), pure bandit algorithms, and pure-LLM approaches, particularly in scenarios with limited experimental traffic. Our approach is scalable and applicable to content experiments across various settings where firms seek to optimize user engagement, including digital advertising and social media recommendations. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# アドバンストトランスモデルを用いたクレジットカード不正検出
Credit Card Fraud Detection Using Advanced Transformer Model ( http://arxiv.org/abs/2406.03733v3 ) ライセンス: Link先を確認 | Chang Yu, Yongshun Xu, Jin Cao, Ye Zhang, Yinxin Jin, Mengran Zhu, | (参考訳) オンラインやモバイルの支払いシステムの普及に伴い、クレジットカード詐欺は金融セキュリティにとって重大な脅威となっている。
本研究は、より堅牢で正確な不正検出のための最新のTransformerモデルの革新的な応用に焦点を当てる。
データの信頼性を確保するため、データソースを慎重に処理し、データセットのバランスをとり、データの分散性の問題に対処する。
また,新しいトランスフォーマーモデルの信頼性と実用性を保証するため,SVM(Support Vector Machine),ランダムフォレスト(Random Forest),ニューラルネットワーク(Neural Network),ロジスティック回帰(Logistic Regression)など,広く採用されているモデルの性能比較を行った。
これらのモデルを、Precision、Recall、F1 Scoreといったメトリクスを使って厳格に比較した。
これらの詳細な分析と比較を通じて、読者に期待できる将来性を備えた高効率で強力なアンチフルート機構を提示する。
その結果,Transformerモデルは従来のアプリケーションに優れるだけでなく,不正検出などのニッチな分野でも大きな可能性を秘めていることがわかった。
With the proliferation of various online and mobile payment systems, credit card fraud has emerged as a significant threat to financial security. This study focuses on innovative applications of the latest Transformer models for more robust and precise fraud detection. To ensure the reliability of the data, we meticulously processed the data sources, balancing the dataset to address the issue of data sparsity significantly. We also selected highly correlated vectors to strengthen the training process.To guarantee the reliability and practicality of the new Transformer model, we conducted performance comparisons with several widely adopted models, including Support Vector Machine (SVM), Random Forest, Neural Network, and Logistic Regression. We rigorously compared these models using metrics such as Precision, Recall, and F1 Score. Through these detailed analyses and comparisons, we present to the readers a highly efficient and powerful anti-fraud mechanism with promising prospects. The results demonstrate that the Transformer model not only excels in traditional applications but also shows great potential in niche areas like fraud detection, offering a substantial advancement in the field. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# アドバンストペイメントセキュリティシステム:XGBoost, LightGBM, SMOTEの統合
Advanced Payment Security System:XGBoost, LightGBM and SMOTE Integrated ( http://arxiv.org/abs/2406.04658v2 ) ライセンス: Link先を確認 | Qi Zheng, Chang Yu, Jin Cao, Yongshun Xu, Qianwen Xing, Yinxin Jin, | (参考訳) 様々なオンラインおよびモバイル決済システムが台頭し、取引詐欺は金融セキュリティにとって重大な脅威となっている。
本研究では、より正確で堅牢なPayment Security Protection Modelの開発に、特にXGBoostとLightGBMをベースとした高度な機械学習モデルの適用について検討する。
データ信頼性を向上させるため,データソースを慎重に処理し,SMOTE(Synthetic Minority Over-Sampling Technique)を用いてクラス不均衡に対処し,データ表現を改善する。
高度に相関した特徴を選択することで,トレーニングプロセスの強化とモデル性能の向上を図った。
提案したモデルの性能評価を,ランダムフォレスト,ニューラルネットワーク,ロジスティック回帰といった従来の手法と比較した。
精度、リコール、F1スコアなどのメトリクスを使用して、その効果を厳格に評価しました。
我々は,SMOTEとXGBoostとLightGBMの組み合わせが,支払いセキュリティ保護の極めて効率的かつ強力なメカニズムを提供することを明らかにした。
さらに、ローカルアンサンブルモデルにおけるXGBoostとLightGBMの統合は、さらに優れた性能を示した。
SMOTEを組み込んだ後、新しい組み合わせモデルは従来のモデルよりも6倍近く、サブモデルより約5倍の大幅な改善を実現し、顕著な結果を示した。
With the rise of various online and mobile payment systems, transaction fraud has become a significant threat to financial security. This study explores the application of advanced machine learning models, specifically based on XGBoost and LightGBM, for developing a more accurate and robust Payment Security Protection Model. To enhance data reliability, we meticulously processed the data sources and applied SMOTE (Synthetic Minority Over-sampling Technique) to address class imbalance and improve data representation. By selecting highly correlated features, we aimed to strengthen the training process and boost model performance. We conducted thorough performance evaluations of our proposed models, comparing them against traditional methods including Random Forest, Neural Network, and Logistic Regression. Using metrics such as Precision, Recall, and F1 Score, we rigorously assessed their effectiveness. Our detailed analyses and comparisons reveal that the combination of SMOTE with XGBoost and LightGBM offers a highly efficient and powerful mechanism for payment security protection. Moreover, the integration of XGBoost and LightGBM in a Local Ensemble model further demonstrated outstanding performance. After incorporating SMOTE, the new combined model achieved a significant improvement of nearly 6\% over traditional models and around 5\% over its sub-models, showcasing remarkable results. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# MMPolymer: 高分子特性予測のためのマルチモーダルマルチタスク事前学習フレームワーク
MMPolymer: A Multimodal Multitask Pretraining Framework for Polymer Property Prediction ( http://arxiv.org/abs/2406.04727v2 ) ライセンス: Link先を確認 | Fanmeng Wang, Wentao Guo, Minjie Cheng, Shen Yuan, Hongteng Xu, Zhifeng Gao, | (参考訳) 高分子は、多くの同一または類似のモノマーの共有結合によって構成され、それらの3D構造は複雑であるが、不明瞭な規則性を示す。
通常、可塑性、導電性、生体適合性などのポリマーの性質は、その3D構造と強く相関している。
しかし、既存のポリマー特性予測法は、重要な3D構造情報を無視しながら、ポリマーSMILES配列(P-SMILES文字列)から得られた情報に大きく依存しているため、準最適性能が得られる。
本研究では,高分子1Dシーケンシャルおよび3D構造情報を組み込んだ新しいマルチモーダルマルチタスク事前学習フレームワークMMPolymerを提案する。
さらに, ポリマー3Dデータの不足を考慮し, さらに, 3次元構造情報を効果的に抽出する「スター代替」戦略を導入する。
プリトレーニング中、マスク付きトークンの予測とクリアな3D座標の復元に加えて、MMPolymerは潜在表現の相互アライメントを達成する。
次に、教師付き学習パラダイムにおける下流ポリマー特性予測タスクのために、事前学習したMMPolymerをさらに微調整する。
実験により、MMPolymerは下流特性予測タスクにおいて最先端の性能を達成することが示された。
さらに, 事前訓練したMMポリマーは, 微調整相における単一モダリティのみを活用するだけで, 既存の手法よりも優れており, 高分子の特徴抽出と利用におけるMMポリマーの異常な能力を示す。
Polymers are high-molecular-weight compounds constructed by the covalent bonding of numerous identical or similar monomers so that their 3D structures are complex yet exhibit unignorable regularity. Typically, the properties of a polymer, such as plasticity, conductivity, bio-compatibility, and so on, are highly correlated with its 3D structure. However, existing polymer property prediction methods heavily rely on the information learned from polymer SMILES sequences (P-SMILES strings) while ignoring crucial 3D structural information, resulting in sub-optimal performance. In this work, we propose MMPolymer, a novel multimodal multitask pretraining framework incorporating polymer 1D sequential and 3D structural information to encourage downstream polymer property prediction tasks. Besides, considering the scarcity of polymer 3D data, we further introduce the "Star Substitution" strategy to extract 3D structural information effectively. During pretraining, in addition to predicting masked tokens and recovering clear 3D coordinates, MMPolymer achieves the cross-modal alignment of latent representations. Then we further fine-tune the pretrained MMPolymer for downstream polymer property prediction tasks in the supervised learning paradigm. Experiments show that MMPolymer achieves state-of-the-art performance in downstream property prediction tasks. Moreover, given the pretrained MMPolymer, utilizing merely a single modality in the fine-tuning phase can also outperform existing methods, showcasing the exceptional capability of MMPolymer in polymer feature extraction and utilization. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# TEDiポリシー:ロボット制御のための一時的に絡み合った拡散
TEDi Policy: Temporally Entangled Diffusion for Robotic Control ( http://arxiv.org/abs/2406.04806v2 ) ライセンス: Link先を確認 | Sigmund H. Høeg, Lars Tingelstad, | (参考訳) 拡散モデルは、複雑な分布をモデル化することの難しさを習得することにより、ロボット模倣学習において優れていることが示されている。
しかし、サンプリング速度は画像生成に人気があるため、従来の優先事項ではなく、動的タスクに制限されている。
近年の研究では,拡散型ロボットポリシーのサンプリング速度が向上しているが,画像生成領域のテクニックに制限されている。
我々は、軌道生成に特化したフレームワークであるTemporally Entangled Diffusion (TEDi) を適用し、模倣学習のための拡散ベースのポリシーを高速化する。
TEDi ポリシーを導入し,現状の拡散に基づく模倣学習政策に適用した場合,性能を保ちながらサンプリング速度を大幅に向上することを示す。
Diffusion models have been shown to excel in robotic imitation learning by mastering the challenge of modeling complex distributions. However, sampling speed has traditionally not been a priority due to their popularity for image generation, limiting their application to dynamical tasks. While recent work has improved the sampling speed of diffusion-based robotic policies, they are restricted to techniques from the image generation domain. We adapt Temporally Entangled Diffusion (TEDi), a framework specific for trajectory generation, to speed up diffusion-based policies for imitation learning. We introduce TEDi Policy, with novel regimes for training and sampling, and show that it drastically improves the sampling speed while remaining performant when applied to state-of-the-art diffusion-based imitation learning policies. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# バック・トゥ・ザ・カラー:教師なし深度推定のための特定の色変換への深度学習
Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation ( http://arxiv.org/abs/2406.07741v4 ) ライセンス: Link先を確認 | Yufan Zhu, Chongzhi Ran, Mingtao Feng, Fangfang Wu, Le Dong, Weisheng Dong, Antonio M. López, Guangming Shi, | (参考訳) 仮想エンジンは様々な合成シーンの深度マップを生成することができるため、深度推定モデルの訓練には有用である。
しかし、合成色と実世界の色の違いは、現実世界のシーン、特に教師なしの単分子深度推定タスクで発生する複雑で不確実な環境での深度推定に重大な課題をもたらす。
この問題に対処するために,実世界のデータに基づいてトレーニングされたモデルを用いて,現実的な色を奥行きから予測するフレームワークBack2Colorを提案する。
さらに,実世界の非教師付きおよび合成教師付き深度サンプルとの共同訓練のためのSyn-Real CutMix法を導入し,実世界のシーンにおける単眼深度推定性能を向上させる。
さらに,非厳密な動きが深度推定に与える影響を軽減するために,時間次元と空間次元の両方において教師なし学習の強みを利用する自動学習不確実時空間融合法(Auto-UTSF)を提案する。
また、VADepthは、変換器よりも計算量が少なく、精度も高いVision Attention Networkをベースとして設計した。
私たちのBack2Colorフレームワークは、パフォーマンス指標の改善と詳細な詳細生成によって証明された、Kittiデータセットの最先端のパフォーマンスを実現しています。
これは、教師なし深度推定のためのCityscapesのようなより困難なデータセットで特に顕著である。
Virtual engines can generate dense depth maps for various synthetic scenes, making them invaluable for training depth estimation models. However, discrepancies between synthetic and real-world colors pose significant challenges for depth estimation in real-world scenes, especially in complex and uncertain environments encountered in unsupervised monocular depth estimation tasks. To address this issue, we propose Back2Color, a framework that predicts realistic colors from depth using a model trained on real-world data, thus transforming synthetic colors into their real-world counterparts. Additionally, we introduce the Syn-Real CutMix method for joint training with both real-world unsupervised and synthetic supervised depth samples, enhancing monocular depth estimation performance in real-world scenes. Furthermore, to mitigate the impact of non-rigid motions on depth estimation, we present an auto-learning uncertainty temporal-spatial fusion method (Auto-UTSF), which leverages the strengths of unsupervised learning in both temporal and spatial dimensions. We also designed VADepth, based on the Vision Attention Network, which offers lower computational complexity and higher accuracy than transformers. Our Back2Color framework achieves state-of-the-art performance on the Kitti dataset, as evidenced by improvements in performance metrics and the production of fine-grained details. This is particularly evident on more challenging datasets such as Cityscapes for unsupervised depth estimation. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# 大規模言語モデルを用いた自律的多目的最適化
Autonomous Multi-Objective Optimization Using Large Language Model ( http://arxiv.org/abs/2406.08987v2 ) ライセンス: Link先を確認 | Yuxiao Huang, Shenghao Wu, Wenjie Zhang, Jibin Wu, Liang Feng, Kay Chen Tan, | (参考訳) マルチオブジェクト最適化問題(MOP)は、現実のアプリケーションではユビキタスであり、複数の競合する目的のバランスをとるという複雑な課題を提示している。
伝統的な進化的アルゴリズム(EA)は効果的ではあるが、しばしばドメイン固有の専門知識と反復的な微調整に依存し、目に見えないMOPへの適応性を妨げている。
近年、LLM(Large Language Models)の出現は、プログラムの自動生成と改良を可能にして、ソフトウェア工学に革命をもたらした。
このブレークスルーを生かして、我々は、MOPを解決するためのEA演算子を自律的に設計するLLMベースの新しいフレームワークを提案する。
提案フレームワークは、LLMとのエラー駆動対話を通じて生成されたEA演算子を洗練するための堅牢なテストモジュールと、情報的プロンプトベースのクロスオーバーと変異を伴ってテキスト最適化パイプラインに適合させる動的選択戦略を含む。
我々のアプローチは、専門家の介入を必要とせず、EAオペレータの設計を容易にし、EAオペレータのイノベーションを加速させる。
様々なMOPカテゴリにわたる実証研究により,提案フレームワークの堅牢性と優れた性能が検証された。
Multi-objective optimization problems (MOPs) are ubiquitous in real-world applications, presenting a complex challenge of balancing multiple conflicting objectives. Traditional evolutionary algorithms (EAs), though effective, often rely on domain-specific expertise and iterative fine-tuning, hindering adaptability to unseen MOPs. In recent years, the advent of Large Language Models (LLMs) has revolutionized software engineering by enabling the autonomous generation and refinement of programs. Leveraging this breakthrough, we propose a new LLM-based framework that autonomously designs EA operators for solving MOPs. The proposed framework includes a robust testing module to refine the generated EA operator through error-driven dialogue with LLMs, a dynamic selection strategy along with informative prompting-based crossover and mutation to fit textual optimization pipeline. Our approach facilitates the design of EA operators without the extensive demands for expert intervention, thereby speeding up the innovation of EA operators. Empirical studies across various MOP categories validate the robustness and superior performance of our proposed framework. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# 物理誘導型アクター・クリティカル強化学習による乱流スイミング
Physics-Guided Actor-Critic Reinforcement Learning for Swimming in Turbulence ( http://arxiv.org/abs/2406.10242v2 ) ライセンス: Link先を確認 | Christopher Koh, Laurent Pagnier, Michael Chertkov, | (参考訳) 乱流拡散は粒子を分離に近接させる。
受動的に対流する粒子に近い粒子を維持するために必要な水泳の努力について検討した。
本研究では,新しい物理情報強化学習(PIRL)戦略と所定の制御(PC)戦略と標準物理情報強化学習戦略とを開発・比較することにより,これらの取り組みを意図した目標と最適にバランスさせることを検討する。
我々のPIRLスキームはActor-Physicistと呼ばれ、Actor-Criticアルゴリズムの適応であり、ニューラルネットワークのパラメータ化Criticを解析的に導出された物理的ヒューリスティック関数(物理学者)に置き換える。
この戦略は、確率的最適制御の定式化と標準物理非依存のアクター・クリティカル型アルゴリズムから導かれる解析計算された最適PCポリシーと比較される。
Turbulent diffusion causes particles placed in proximity to separate. We investigate the required swimming efforts to maintain a particle close to its passively advected counterpart. We explore optimally balancing these efforts with the intended goal by developing and comparing a novel Physics-Informed Reinforcement Learning (PIRL) strategy with prescribed control (PC) and standard physics-agnostic Reinforcement Learning strategies. Our PIRL scheme, coined the Actor-Physicist, is an adaptation of the Actor-Critic algorithm in which the Neural Network parameterized Critic is replaced with an analytically derived physical heuristic function (the physicist). This strategy is then compared with an analytically computed optimal PC policy derived from a stochastic optimal control formulation and standard physics-agnostic Actor-Critic type algorithms. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# 原子炉Mk.1の性能:MMLU、HumanEval、BBHテスト結果
Reactor Mk.1 performances: MMLU, HumanEval and BBH test results ( http://arxiv.org/abs/2406.10515v2 ) ライセンス: Link先を確認 | TJ Dunham, Henry Syahputra, | (参考訳) 本稿では,ARCのフラッグシップとなる大規模言語モデルであるReactor Mk.1のベンチマークプロセス解析による性能評価について述べる。
このモデルはLychee AIエンジンを使用し、1000億以上のパラメータを持ち、効率性と有効性の組み合わせをもたらす。
Reactor Mk.1はGPT-4o、Claude Opus、Llama 3といったモデルよりも優れており、MMLUデータセットで92%、HumanEvalデータセットで91%、BBHデータセットで88%のスコアを得た。
困難な仕事の管理と推論の両方に優れており、現在の最先端のAI技術において、目立ったAIソリューションとして確立されている。
The paper presents the performance results of Reactor Mk.1, ARCs flagship large language model, through a benchmarking process analysis. The model utilizes the Lychee AI engine and possesses less than 100 billion parameters, resulting in a combination of efficiency and potency. The Reactor Mk.1 outperformed models such as GPT-4o, Claude Opus, and Llama 3, with achieved scores of 92% on the MMLU dataset, 91% on HumanEval dataset, and 88% on BBH dataset. It excels in both managing difficult jobs and reasoning, establishing as a prominent AI solution in the present cutting-edge AI technology. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# エントロピー規則化確率制御問題に対するポリシー反復アルゴリズムの収束解析について
On Convergence Analysis of Policy Iteration Algorithms for Entropy-Regularized Stochastic Control Problems ( http://arxiv.org/abs/2406.10959v3 ) ライセンス: Link先を確認 | Jin Ma, Gaozhan Wang, Jianfeng Zhang, | (参考訳) 本稿では,一般の連続時間エントロピー正規化確率制御問題に対するポリシ反復アルゴリズム(PIA)の収束に関する問題点について検討する。
特に、PIA に関わる反復 PDE に対して洗練された PDE 推定(例えば、Huang-Wang-Zhou (2023) を参照)を採用する代わりに、PIA の収束のスクラッチから簡単な証明を与える。
提案手法はPDEとその導関数の解に対する確率的表現式に基づいている。
さらに、大きな割引係数を持つ無限地平線モデルと有限地平線モデルでは、同様の議論が裂けずにPAAの指数的な収束率につながる。
最後に、いくつかの余分な努力により、拡散が一次元の設定において制御を含む場合にも我々のアプローチは拡張できるが、係数に余分な制約を伴わないことを示す。
これらの結果は文学において新しいものであると信じている。
In this paper we investigate the issues regarding the convergence of the Policy Iteration Algorithm(PIA) for a class of general continuous-time entropy-regularized stochastic control problems. In particular, instead of employing sophisticated PDE estimates for the iterative PDEs involved in the PIA (see, e.g., Huang-Wang-Zhou(2023)), we shall provide a simple proof from scratch for the convergence of the PIA. Our approach builds on probabilistic representation formulae for solutions of PDEs and their derivatives. Moreover, in the infinite horizon model with large discount factor and in the finite horizon model, the similar arguments lead to the exponential rate of convergence of PIA without tear. Finally, with some extra efforts we show that our approach can also be extended to the case when diffusion contains control, in the one dimensional setting but without much extra constraints on the coefficients. We believe that these results are new in the literature. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# Intersymbolic AI: Interlinking Symbolic AIとSubsymbolic AI
Intersymbolic AI: Interlinking Symbolic AI and Subsymbolic AI ( http://arxiv.org/abs/2406.11563v3 ) ライセンス: Link先を確認 | André Platzer, | (参考訳) この視点は、ビルディングブロックが固有の意味/意味を持つシンボリックAIと、個々のビルディングブロックが意味を逃れるという事実にもかかわらず、全体が重要性/効果を生み出すサブシンボリックAIの組み合わせをいう。
標準的なAIは論理、ゲーム、計画である。
標準的なサブシンボリックAIは、教師なしの機械と強化学習である。
シンボルAIは、シンボルAIの世界と、その構成的象徴的重要性と意味と、その要約的重要性または効果とを関連付け、シンボルAIの原則によって助けられているサブシンボルAIの知見と、シンボルAIの洞察の間を行き来することで、両方の世界からの洞察の達成を可能にする。
例えば、インターシンボリックAIは、動的システムを理解するためにシンボリックAIから始まり、その制御を学ぶためにサブシンボリックAIを使い続ける。
シンボルAIとサブシンボリックAIを組み合わせることで、AIのどちらの種類のAIよりもAIの有効性を高める方法が、意識的思考と潜在意識的思考の組み合わせが、どちらの種類の思考よりも人間の思考の有効性を高める方法に類似している。
Intersymbolic AIパラダイムへのいくつかの成功コントリビューションはここで調査されている。
This perspective piece calls for the study of the new field of Intersymbolic AI, by which we mean the combination of symbolic AI, whose building blocks have inherent significance/meaning, with subsymbolic AI, whose entirety creates significance/effect despite the fact that individual building blocks escape meaning. Canonical kinds of symbolic AI are logic, games and planning. Canonical kinds of subsymbolic AI are (un)supervised machine and reinforcement learning. Intersymbolic AI interlinks the worlds of symbolic AI with its compositional symbolic significance and meaning and of subsymbolic AI with its summative significance or effect to enable culminations of insights from both worlds by going between and across symbolic AI insights with subsymbolic AI techniques that are being helped by symbolic AI principles. For example, Intersymbolic AI may start with symbolic AI to understand a dynamic system, continue with subsymbolic AI to learn its control, and end with symbolic AI to safely use the outcome of the learned subsymbolic AI controller in the dynamic system. The way Intersymbolic AI combines both symbolic and subsymbolic AI to increase the effectiveness of AI compared to either kind of AI alone is likened to the way that the combination of both conscious and subconscious thought increases the effectiveness of human thought compared to either kind of thought alone. Some successful contributions to the Intersymbolic AI paradigm are surveyed here but many more are considered possible by advancing Intersymbolic AI. | 翻訳日:2024-07-29 17:42:34 公開日:2024-07-26 |
# Dysca: LVLMの知覚能力を評価するための動的でスケーラブルなベンチマーク
Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs ( http://arxiv.org/abs/2406.18849v2 ) ライセンス: Link先を確認 | Jie Zhang, Zhongqi Wang, Mengqi Lei, Zheng Yuan, Bei Yan, Shiguang Shan, Xilin Chen, | (参考訳) 現在、LVLM(Large Vision-Language Models)の知覚能力を評価するために多くのベンチマークが提案されている。
しかしながら、ほとんどのベンチマークでは、既存のデータセットからイメージを選択して質問を行うため、潜在的なデータリークが発生する可能性がある。
さらに、これらのベンチマークは、現実的なスタイルのイメージとクリーンなシナリオに基づいてLVLMを評価することに集中しており、マルチスティル化されたイメージとノイズの多いシナリオは未探索のままである。
これらの課題に対応するために、合成画像を利用してLVLMを評価するための動的でスケーラブルなDyscaベンチマークを提案する。
具体的には、安定拡散を利用して、新しい画像、質問、および対応する回答を動的に生成するルールベースの手法を設計する。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
さらに,4つのシナリオ (クリーン, 腐敗, 印刷攻撃, 逆攻撃) と3つの質問タイプ (マルチチョイス, 真偽, フリーフォーム) で評価を行った。
生成パラダイムのおかげで、Dyscaは新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
現在のLVLMの欠点を明らかにするため、Dysca上で10個のチェックポイントを持つ8つの高度なオープンソースLVLMを評価した。
ベンチマークは \url{https://github.com/Benchmark-Dysca/Dysca} でリリースされる。
Currently many benchmarks have been proposed to evaluate the perception ability of the Large Vision-Language Models (LVLMs). However, most benchmarks conduct questions by selecting images from existing datasets, resulting in the potential data leakage. Besides, these benchmarks merely focus on evaluating LVLMs on the realistic style images and clean scenarios, leaving the multi-stylized images and noisy scenarios unexplored. In response to these challenges, we propose a dynamic and scalable benchmark named Dysca for evaluating LVLMs by leveraging synthesis images. Specifically, we leverage Stable Diffusion and design a rule-based method to dynamically generate novel images, questions and the corresponding answers. We consider 51 kinds of image styles and evaluate the perception capability in 20 subtasks. Moreover, we conduct evaluations under 4 scenarios (i.e., Clean, Corruption, Print Attacking and Adversarial Attacking) and 3 question types (i.e., Multi-choices, True-or-false and Free-form). Thanks to the generative paradigm, Dysca serves as a scalable benchmark for easily adding new subtasks and scenarios. A total of 8 advanced open-source LVLMs with 10 checkpoints are evaluated on Dysca, revealing the drawbacks of current LVLMs. The benchmark is released in \url{https://github.com/Benchmark-Dysca/Dysca}. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# YZS-model: Graph Convolutional NetworksとTransformer-Attentionに基づく有機医薬品溶解度予測モデル
YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention ( http://arxiv.org/abs/2406.19136v5 ) ライセンス: Link先を確認 | Chenxu Wang, Haowei Ming, Jian He, Yao Lu, Junhong Chen, | (参考訳) 薬物分子溶解性の正確な予測は、治療効果と安全性に不可欠である。
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合し,予測精度を向上させるディープラーニングフレームワークYZS-Modelを紹介する。
GCNは、原子と結合の関係をモデル化することによって複雑な分子トポロジーを捉えるのに優れている。
トランスフォーマーは自己認識機構を持ち、分子内の長距離依存を効果的に識別し、グローバルな相互作用を捉える。
LSTMはシーケンシャルデータを処理し、長期依存を保ち、時間情報を分子配列に統合する。
この多面的アプローチは各成分の強度を活用し、分子の性質を包括的に理解し予測するモデルをもたらす。
9,943の化合物で訓練され、抗がんデータセットで試験され、YZS-ModelはR^2$ 0.59とRMSE 0.57を達成し、ベンチマークモデル(R^2$ 0.52、RMSE 0.61)を上回った。
独立試験では、RMSEは1.05で、精度は45.9%向上した。
これらのディープラーニング技術の統合により、YZS-Modelは、事前に定義されたパラメータなしで複雑なデータから貴重な特徴を学習し、大きなデータセットを効率的に処理し、様々な分子タイプに適応することができる。
この包括的能力は予測精度とモデル一般化可能性を大幅に向上させる。
溶解度予測の精度は、候補選択を最適化し、コストを削減し、効率を向上することで、薬物開発を高速化することができる。
我々の研究は、深層学習の薬学における変革の可能性、特に溶解度予測と薬物設計の可能性を浮き彫りにしている。
Accurate prediction of drug molecule solubility is crucial for therapeutic effectiveness and safety. Traditional methods often miss complex molecular structures, leading to inaccuracies. We introduce the YZS-Model, a deep learning framework integrating Graph Convolutional Networks (GCN), Transformer architectures, and Long Short-Term Memory (LSTM) networks to enhance prediction precision. GCNs excel at capturing intricate molecular topologies by modeling the relationships between atoms and bonds. Transformers, with their self-attention mechanisms, effectively identify long-range dependencies within molecules, capturing global interactions. LSTMs process sequential data, preserving long-term dependencies and integrating temporal information within molecular sequences. This multifaceted approach leverages the strengths of each component, resulting in a model that comprehensively understands and predicts molecular properties. Trained on 9,943 compounds and tested on an anticancer dataset, the YZS-Model achieved an $R^2$ of 0.59 and an RMSE of 0.57, outperforming benchmark models ($R^2$ of 0.52 and RMSE of 0.61). In an independent test, it demonstrated an RMSE of 1.05, improving accuracy by 45.9%. The integration of these deep learning techniques allows the YZS-Model to learn valuable features from complex data without predefined parameters, handle large datasets efficiently, and adapt to various molecular types. This comprehensive capability significantly improves predictive accuracy and model generalizability. Its precision in solubility predictions can expedite drug development by optimizing candidate selection, reducing costs, and enhancing efficiency. Our research underscores deep learning's transformative potential in pharmaceutical science, particularly for solubility prediction and drug design. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# 音声分析のための連続学習シナリオと戦略の特徴付け
Characterizing Continual Learning Scenarios and Strategies for Audio Analysis ( http://arxiv.org/abs/2407.00465v2 ) ライセンス: Link先を確認 | Ruchi Bhatt, Pratibha Kumari, Dwarikanath Mahapatra, Abdulmotaleb El Saddik, Mukesh Saini, | (参考訳) 音声分析は多くのアプリケーションシナリオで有用である。
最先端のオーディオ分析アプローチでは、トレーニング時とデプロイメント時のデータの分散が同じであると仮定している。
しかし、様々な現実的な課題のために、データは分布のドリフトに遭遇するか、あるいは将来新しいクラスに遭遇する可能性がある。
したがって、一度訓練されたモデルでは十分な性能が得られない。
連続学習(CL)アプローチは、そのようなデータ分散の変化に対処するために考案されている。
CLアプローチをオーディオ分析に利用する試みはいくつかある。
しかし、体系的な評価フレームワークが欠如している。
本稿では,包括的CLデータセットを作成し,音声に基づくモニタリングタスクのためのCLアプローチを特徴付ける。
EWC, LwF, SI, GEM, A-GEM, GDumb, Replay, Naive, Cumulative, Joint training。
この研究は、適応モデルを開発するための音声分析の分野で働く研究者や実践者にとって非常に有益である。
我々はReplayがDCASEチャレンジデータにおける他の手法よりも優れた結果を得たことを観察した。
ドメインインクリメンタルシナリオの精度は70.12%、クラスインクリメンタルシナリオの精度は96.98%に達した。
Audio analysis is useful in many application scenarios. The state-of-the-art audio analysis approaches assume the data distribution at training and deployment time will be the same. However, due to various real-life challenges, the data may encounter drift in its distribution or can encounter new classes in the late future. Thus, a one-time trained model might not perform adequately. Continual learning (CL) approaches are devised to handle such changes in data distribution. There have been a few attempts to use CL approaches for audio analysis. Yet, there is a lack of a systematic evaluation framework. In this paper, we create a comprehensive CL dataset and characterize CL approaches for audio-based monitoring tasks. We have investigated the following CL and non-CL approaches: EWC, LwF, SI, GEM, A-GEM, GDumb, Replay, Naive, Cumulative, and Joint training. The study is very beneficial for researchers and practitioners working in the area of audio analysis for developing adaptive models. We observed that Replay achieved better results than other methods in the DCASE challenge data. It achieved an accuracy of 70.12% for the domain incremental scenario and an accuracy of 96.98% for the class incremental scenario. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# Tinyオブジェクト検出のための類似距離に基づくラベルアサインメント
Similarity Distance-Based Label Assignment for Tiny Object Detection ( http://arxiv.org/abs/2407.02394v3 ) ライセンス: Link先を確認 | Shuohao Shi, Qiang Fang, Tong Zhao, Xin Xu, | (参考訳) 微妙な物体検出は、限られた物体の大きさと情報の不足により、コンピュータビジョンにおいて最も困難なタスクの1つになりつつある。
ラベル割り当て戦略は、オブジェクト検出の精度に影響を与える重要な要素である。
小さなオブジェクトに対する効果的なラベル割り当て戦略はいくつかあるが、多くの場合、正のサンプル数を増やすために境界ボックスに対する感度を低下させ、固定されたハイパーパラメータを設定する必要がある。
しかし、より陽性なサンプルは必ずしもより良い検出結果をもたらすとは限らないが、実際、過剰な陽性なサンプルはより偽陽性をもたらす可能性がある。
本稿では,ボックス間の類似性を評価するためのSimity Distance (SimD) という,シンプルだが効果的な戦略を提案する。
提案した戦略は、位置と形状の類似性だけでなく、ハイパーパラメータを適応的に学習することで、データセット内のさまざまなデータセットやさまざまなオブジェクトサイズに適応できるようにする。
我々のアプローチは、ラベル割り当てやNon Maximum Suppression(NMS)のために、IoUの代わりに一般的なアンカーベースの検出器に簡単に適用できる。
4つの主流となる小さなオブジェクト検出データセットに対する大規模な実験では、特に1.8のAPポイントと4.1のAPポイントがAI-TODの最先端の競合に比べて非常に高い性能を示した。
コードは: \url{https://github.com/cszzshi/SimD}.comで入手できる。
Tiny object detection is becoming one of the most challenging tasks in computer vision because of the limited object size and lack of information. The label assignment strategy is a key factor affecting the accuracy of object detection. Although there are some effective label assignment strategies for tiny objects, most of them focus on reducing the sensitivity to the bounding boxes to increase the number of positive samples and have some fixed hyperparameters need to set. However, more positive samples may not necessarily lead to better detection results, in fact, excessive positive samples may lead to more false positives. In this paper, we introduce a simple but effective strategy named the Similarity Distance (SimD) to evaluate the similarity between bounding boxes. This proposed strategy not only considers both location and shape similarity but also learns hyperparameters adaptively, ensuring that it can adapt to different datasets and various object sizes in a dataset. Our approach can be simply applied in common anchor-based detectors in place of the IoU for label assignment and Non Maximum Suppression (NMS). Extensive experiments on four mainstream tiny object detection datasets demonstrate superior performance of our method, especially, 1.8 AP points and 4.1 AP points of very tiny higher than the state-of-the-art competitors on AI-TOD. Code is available at: \url{https://github.com/cszzshi/SimD}. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# ディープフェイク生成と検出のタグ・オブ・ウォー
The Tug-of-War Between Deepfake Generation and Detection ( http://arxiv.org/abs/2407.06174v3 ) ライセンス: Link先を確認 | Hannah Lee, Changyeon Lee, Kevin Farhat, Lin Qiu, Steve Geluso, Aerin Kim, Oren Etzioni, | (参考訳) マルチモーダル生成モデルは急速に進化し、現実的なビデオやオーディオの生成が急増し、エキサイティングな可能性だけでなく深刻なリスクももたらされる。
ディープフェイク動画は、偽情報を拡散したり、不正なコンテンツを作ったりする際に悪用される可能性があるため、特に注目を集めている。
本研究は, ディープフェイク映像の生成と検出の両面を考察し, 潜在的虐待に対する効果的な対策の必要性を強調した。
本稿では、GANや拡散モデルといった最先端技術を活用して、リアルなフェイクビデオを生成する、顔交換、再現、オーディオ駆動アニメーションなど、現在のディープフェイク生成技術の概要について概観する。
さらに,映像や音声信号間の不整合を識別する高度なアルゴリズムの展開から,映像と映像を区別するために設計された様々な検出手法を分析した。
これらの検出手法の有効性は、トレーニングと評価に使用されるデータセットの多様性と品質に大きく依存している。
本稿では,検出精度と一般化性を高めるために,頑健で多種多様で頻繁に更新されるコレクションの重要性を強調し,ディープフェイクデータセットの進化について論じる。
ディープフェイクが真のコンテンツと区別しにくくなるにつれ、世代技術に追従できる高度な検出技術の開発が不可欠である。
我々は、ディープフェイクのクリエーターと検出器の「綱引き」における積極的なアプローチを提唱し、継続的な研究協力の必要性、評価指標の標準化、包括的なベンチマークの作成を強調します。
Multimodal generative models are rapidly evolving, leading to a surge in the generation of realistic video and audio that offers exciting possibilities but also serious risks. Deepfake videos, which can convincingly impersonate individuals, have particularly garnered attention due to their potential misuse in spreading misinformation and creating fraudulent content. This survey paper examines the dual landscape of deepfake video generation and detection, emphasizing the need for effective countermeasures against potential abuses. We provide a comprehensive overview of current deepfake generation techniques, including face swapping, reenactment, and audio-driven animation, which leverage cutting-edge technologies like GANs and diffusion models to produce highly realistic fake videos. Additionally, we analyze various detection approaches designed to differentiate authentic from altered videos, from detecting visual artifacts to deploying advanced algorithms that pinpoint inconsistencies across video and audio signals. The effectiveness of these detection methods heavily relies on the diversity and quality of datasets used for training and evaluation. We discuss the evolution of deepfake datasets, highlighting the importance of robust, diverse, and frequently updated collections to enhance the detection accuracy and generalizability. As deepfakes become increasingly indistinguishable from authentic content, developing advanced detection techniques that can keep pace with generation technologies is crucial. We advocate for a proactive approach in the "tug-of-war" between deepfake creators and detectors, emphasizing the need for continuous research collaboration, standardization of evaluation metrics, and the creation of comprehensive benchmarks. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# 視覚言語モデルは盲目です
Vision language models are blind ( http://arxiv.org/abs/2407.06581v5 ) ライセンス: Link先を確認 | Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen, | (参考訳) 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、様々な画像テキストアプリケーションに電力を供給し、多くの視覚に基づくベンチマークで高いスコアを得ているが、それでも驚くほど人間にとって容易な低レベルの視覚タスクに苦戦している。
具体的には、BlindTestでは、識別のような非常に単純な7つのタスクからなるスイートです。
(a) 2つの円が重複するか否か
(b)二つの線が交差するか否か
(c)どの文字が一言で丸められているか、
(d) オリンピックのようなロゴの円を数えると、4つの最先端のVLMは平均して58.57%しか正確ではない。
クロード3.5ソンネットは74.94%の精度で最高の成績を収めているが、これは人間の予想した100%の精度とは程遠い。
画像解像度と線幅の異なるVLMは、正確な空間情報を必要とし、重なり合う、または近接している幾何学的プリミティブを認識するタスクに一貫して苦労する。
コードとデータは、https://vlmsareblind.github.ioで公開されている。
While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.94% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# 長周期モデルの長周期モデルにどの程度の効果があるか : 経時的変化の経時的変化と経時的変化の比較
How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities ( http://arxiv.org/abs/2407.08112v2 ) ライセンス: Link先を確認 | Jerry Huang, | (参考訳) 実世界のシナリオでは長いシーケンスが豊富に存在するため、適切にモデル化することで、多数のダウンストリームユースケースが開きます。
しかし、ディープニューラルネットワークは、様々な理由から、これらの問題に悩まされていることが多い。
システム工学とモデル設計の両方における最近の進歩は、拡張コンテキスト長をサポートするために提供されたモデルのスケールアップを可能にした。
特に、仮説的にモデルの状態空間および線形リカレントニューラルネットワークファミリーは無限列レンズに収束することができる。
しかし、これはあまりにも良いことですか?
このような主張が理論的に健全であるにもかかわらず、実証的に観察される大きな実践的ギャップが残っていることを示すために評価を行う。
特に、リカレントモデルは長いコンテキストのLLMと同じ設定で注意を払っている。
さらに、異なる帰納的バイアスには矛盾する外挿能力があることを示し、そのようなパラダイムをさらに研究する必要性を強調し、長期コンテキストモデルが期待通りに振る舞うことができないように見える理由を調査する。
Long sequences occur in abundance within real-world scenarios, hence properly modelling them opens numerous down-stream use-cases. Deep neural networks, however, have often struggled with these for a variety of reasons. Recent advances, both in system engineering as well as model design, have enabled the scaling up of model that are purported to support extended context length. In particular, the state-space and linear recurrent neural network families of models hypothetically can entend to infinite sequence lenth. However, is this too good to be true? We conduct an evaluation to show that while such claims may be sound theoretically, there remain large practical gaps that are empirically observed. In particular, recurrent models still suffer in the same settings as long-context LLMs with attention. We further show that different inductive biases have inconsistent extrapolation capabilities, highlighting the need to further study such paradigms and investigate why long-context models seemingly fail to behave as one might expect. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# 自然言語モデリングによる協調型熱赤外トラッキング
Coordinate-Aware Thermal Infrared Tracking Via Natural Language Modeling ( http://arxiv.org/abs/2407.08265v3 ) ライセンス: Link先を確認 | Miao Yan, Ping Zhang, Haofei Zhang, Ruqian Hao, Juanxiu Liu, Xiaoyang Wang, Lin Liu, | (参考訳) 熱赤外(TIR)トラッキングは、全天候撮像能力のためにコンピュータビジョンタスクにおいて重要な役割を担っている。
従来の追跡手法は主に手作りの特徴に依存しており、ディープラーニングは相関フィルタリング技術を導入しているが、これらは初歩的な相関操作によって制約されることが多い。
さらに、トランスフォーマーベースのアプローチは、テクスチャや色情報に欠けるTIRトラッキングにとって重要な、時間的および座標情報を見落としてしまう傾向にある。
本稿では、これらの問題に対処するために、自然言語モデリングをTIR追跡に適用し、座標情報と時間情報の利用を向上させるNLMTrackと呼ばれる熱赤外トラッキングモデルを提案する。
NLMTrackは、機能抽出と機能融合を統一するエンコーダを適用し、TIR追跡パイプラインを単純化する。
TIR画像の低精細化と低コントラスト化の課題に対処するため,多段階のプログレッシブ・フュージョン・モジュールを設計し,セマンティックな表現を強化し,マルチスケールな特徴を取り入れた。
一方、デコーダは、因果変換器を用いて、TIR特徴と座標系列特徴を組み合わせて、目標シーケンスステップをステップごとに生成する。
さらに,追跡精度の向上を目的とした適応的損失と,ターゲットの外観変化に対応するための簡易なテンプレート更新戦略について検討する。
実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
コードは \url{https://github.com/ELOESZHANG/NLMTrack} で公開されている。
Thermal infrared (TIR) tracking is pivotal in computer vision tasks due to its all-weather imaging capability. Traditional tracking methods predominantly rely on hand-crafted features, and while deep learning has introduced correlation filtering techniques, these are often constrained by rudimentary correlation operations. Furthermore, transformer-based approaches tend to overlook temporal and coordinate information, which is critical for TIR tracking that lacks texture and color information. In this paper, to address these issues, we apply natural language modeling to TIR tracking and propose a coordinate-aware thermal infrared tracking model called NLMTrack, which enhances the utilization of coordinate and temporal information. NLMTrack applies an encoder that unifies feature extraction and feature fusion, which simplifies the TIR tracking pipeline. To address the challenge of low detail and low contrast in TIR images, on the one hand, we design a multi-level progressive fusion module that enhances the semantic representation and incorporates multi-scale features. On the other hand, the decoder combines the TIR features and the coordinate sequence features using a causal transformer to generate the target sequence step by step. Moreover, we explore an adaptive loss aimed at elevating tracking accuracy and a simple template update strategy to accommodate the target's appearance variations. Experiments show that NLMTrack achieves state-of-the-art performance on multiple benchmarks. The Code is publicly available at \url{https://github.com/ELOESZHANG/NLMTrack}. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# DART: データ多様化,オープンボキャブラリバウンディングボックスアノテーション,擬似ラベルレビュー,モデルトレーニングを備えた自動エンドツーエンドオブジェクト検出パイプライン
DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training ( http://arxiv.org/abs/2407.09174v2 ) ライセンス: Link先を確認 | Chen Xin, Andreas Hartel, Enkelejda Kasneci, | (参考訳) 正確なリアルタイム物体検出は、安全監視から品質管理まで、多くの産業アプリケーションにおいて不可欠である。
しかし、従来のアプローチは手動のアノテーションやデータ収集によって妨げられ、絶えず変化する環境や新しいターゲットオブジェクトに適応するのに苦労している。
本稿では,データ収集からモデル評価に至るまでのオブジェクト検出ワークフローに革命をもたらす,革新的なエンドツーエンドパイプラインであるDARTを提案する。
多様なシナリオにまたがって優れた精度を達成しつつ、人間のラベル付けや広範なデータ収集の必要性を排除します。
DARTは,(1)主観駆動画像生成(DreamBooth with SDXL),(2)オープン語彙オブジェクト検出(DINO)によるアノテーションによる境界ボックスとクラスラベルの生成,(3)大規模マルチモーダルモデル(InternVL-1.5, GPT-4o)による生成画像と擬似ラベルのレビュー,(4)実時間オブジェクト検出装置(YOLOv8, YOLOv10)のトレーニング,の4つの重要な段階を含む。
我々はDARTを、23のカテゴリにまたがる15K以上の高品質な画像を含む、Leebherr Productという名前の自己コンパイルされた建設機械のデータセットに適用する。
DARTの現在のインスタンス化は平均精度(AP)を0.064から0.832に大幅に向上させた。
モジュール化された設計は、交換性と拡張性を容易にし、将来のアルゴリズムのアップグレード、新しいオブジェクトカテゴリのシームレスな統合、手作業によるラベル付けや追加データ収集なしにカスタマイズされた環境への適応性を実現する。
コードとデータセットはhttps://github.com/chen-xin-94/DARTで公開されている。
Accurate real-time object detection is vital across numerous industrial applications, from safety monitoring to quality control. Traditional approaches, however, are hindered by arduous manual annotation and data collection, struggling to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an innovative automated end-to-end pipeline that revolutionizes object detection workflows from data collection to model evaluation. It eliminates the need for laborious human labeling and extensive data collection while achieving outstanding accuracy across diverse scenarios. DART encompasses four key stages: (1) Data Diversification using subject-driven image generation (DreamBooth with SDXL), (2) Annotation via open-vocabulary object detection (Grounding DINO) to generate bounding box and class labels (3) Review of generated images and pseudo-labels by large multimodal models (InternVL-1.5 and GPT-4o) to guarantee credibility, (4) Training of real-time object detectors (YOLOv8 and YOLOv10) using the verified data as ground truth. We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current instantiation of DART significantly increases average precision (AP) from 0.064 to 0.832. Its modular design ensures easy exchangeability and extensibility, allowing for future algorithm upgrades, seamless integration of new object categories, and adaptability to customized environments without manual labeling and additional data collection. The code and dataset are released at https://github.com/chen-xin-94/DART. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# スムース粒子流体力学による変分推論
Variational Inference via Smoothed Particle Hydrodynamics ( http://arxiv.org/abs/2407.09186v2 ) ライセンス: Link先を確認 | Yongchao Huang, | (参考訳) スムーズな粒子流体力学(SPH)に基づく新しい変分推論法 SPH-ParVI が提案されている。
SPH-ParVIは、ターゲット密度によって駆動される外部効果下での流体の流れをシミュレートする。
連続流体はSPHを介して相互作用粒子系(IPS)としてモデル化され、各粒子は滑らかな性質を持ち、ナビエ・ストークス方程式に従って相互作用し、進化する。
このメッシュフリーなラグランジアンシミュレーション法は、ベイズ的推論や生成モデルのような確率的モデルのクラスに対して、高速で、柔軟で、スケーラブルで決定論的サンプリングと推論を提供する。
A new variational inference method, SPH-ParVI, based on smoothed particle hydrodynamics (SPH), is proposed for sampling partially known densities (e.g. up to a constant) or sampling using gradients. SPH-ParVI simulates the flow of a fluid under external effects driven by the target density; transient or steady state of the fluid approximates the target density. The continuum fluid is modelled as an interacting particle system (IPS) via SPH, where each particle carries smoothed properties, interacts and evolves as per the Navier-Stokes equations. This mesh-free, Lagrangian simulation method offers fast, flexible, scalable and deterministic sampling and inference for a class of probabilistic models such as those encountered in Bayesian inference and generative modelling. | 翻訳日:2024-07-29 17:32:36 公開日:2024-07-26 |
# LLMs-in-the-loop Part-1:バイオメディカルテキスト翻訳のためのエキスパート・スモールAIモデル
LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation ( http://arxiv.org/abs/2407.12126v2 ) ライセンス: Link先を確認 | Bunyamin Keles, Murat Gunay, Serdar I. Caglar, | (参考訳) 機械翻訳は、言語にまたがる医療知識のグローバルな普及を可能にするために、医療において不可欠である。
しかし、複雑な医学用語は、適切な翻訳品質と精度を達成するために固有の課題を生んでいる。
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
大規模言語モデル(LLM)は強力な能力を示しているが、この研究は、高品質なドメイン(主に合成された)データに基づいて訓練された小さな特殊なモデルの方が、さらに大きなLLMよりも優れていることを示している。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
LLM-in-the-loop法では,データ生成,厳密な評価,エージェントオーケストレーションを用いて性能を向上させる。
MarianMTベースモデルを用いた小さな医療用翻訳モデルを開発した。
この領域での評価を標準化するための新しい医療翻訳試験データセットを導入する。
このテストセットでBLEU、METEOR、ROUGE、BERTのスコアを用いて評価すると、MarianMTベースのモデルはGoogle Translate、DeepL、GPT-4-Turboより優れています。
その結果、LLM-in-the-loopアプローチと、微調整された高品質なドメイン固有データを組み合わせることで、汎用システムや大規模システムよりも優れた性能を発揮することが示された。
この研究は、専門家の小さなモデルに関するより広範なシリーズの一部であり、身元特定やバイオメディカルな実体抽出モデルを含む、将来の医療関連AI開発への道を開く。
本研究は,データ生成,評価,エージェント,モデリング技術の改善を通じて,ニューラルネットワークモデルの改良とLLM-in-the-loop法の可能性を明らかにする。
Machine translation is indispensable in healthcare for enabling the global dissemination of medical knowledge across languages. However, complex medical terminology poses unique challenges to achieving adequate translation quality and accuracy. This study introduces a novel "LLMs-in-the-loop" approach to develop supervised neural machine translation models optimized specifically for medical texts. While large language models (LLMs) have demonstrated powerful capabilities, this research shows that small, specialized models trained on high-quality in-domain (mostly synthetic) data can outperform even vastly larger LLMs. Custom parallel corpora in six languages were compiled from scientific articles, synthetically generated clinical documents, and medical texts. Our LLMs-in-the-loop methodology employs synthetic data generation, rigorous evaluation, and agent orchestration to enhance performance. We developed small medical translation models using the MarianMT base model. We introduce a new medical translation test dataset to standardize evaluation in this domain. Assessed using BLEU, METEOR, ROUGE, and BERT scores on this test set, our MarianMT-based models outperform Google Translate, DeepL, and GPT-4-Turbo. Results demonstrate that our LLMs-in-the-loop approach, combined with fine-tuning high-quality, domain-specific data, enables specialized models to outperform general-purpose and some larger systems. This research, part of a broader series on expert small models, paves the way for future healthcare-related AI developments, including deidentification and bio-medical entity extraction models. Our study underscores the potential of tailored neural translation models and the LLMs-in-the-loop methodology to advance the field through improved data generation, evaluation, agent, and modeling techniques. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# ABAW7チャレンジのためのマルチモデルアンサンブルによる複合表現認識
Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge ( http://arxiv.org/abs/2407.12257v2 ) ライセンス: Link先を確認 | Xuxiong Liu, Kang Shen, Jun Yao, Boyan Wang, Minrui Liu, Liuwei An, Zishun Cui, Weijie Feng, Xiao Sun, | (参考訳) 複合表現認識(CER)は、効果的な対人相互作用に不可欠である。
ヒトの感情表現は、複合表現の存在により本質的に複雑であり、正確な判断には局所的およびグローバルな顔の手がかりの両方を考慮する必要がある。
本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。
提案手法では,畳み込みネットワーク,視覚変換器,マルチスケールローカルアテンションネットワークを用いて,3つの表現分類モデルを訓練する。
モデルアンサンブルに後期融合を用いることで、これらのモデルの出力を組み合わせて最終的な結果を予測する。
提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。
Compound Expression Recognition (CER) is vital for effective interpersonal interactions. Human emotional expressions are inherently complex due to the presence of compound expressions, requiring the consideration of both local and global facial cues for accurate judgment. In this paper, we propose an ensemble learning-based solution to address this complexity. Our approach involves training three distinct expression classification models using convolutional networks, Vision Transformers, and multiscale local attention networks. By employing late fusion for model ensemble, we combine the outputs of these models to predict the final results. Our method demonstrates high accuracy on the RAF-DB datasets and is capable of recognizing expressions in certain portions of the C-EXPR-DB through zero-shot learning. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# ABAW7チャレンジにおけるマルチアーキテクチャエンコーダと特徴融合に基づく顔影響認識
Facial Affect Recognition based on Multi Architecture Encoder and Feature Fusion for the ABAW7 Challenge ( http://arxiv.org/abs/2407.12258v2 ) ライセンス: Link先を確認 | Kang Shen, Xuxiong Liu, Boyan Wang, Jun Yao, Xin Liu, Yujie Guan, Yu Wang, Gengchen Li, Xiao Sun, | (参考訳) 本稿では,第7回ABAWコンペティションの課題に対処するためのアプローチを提案する。
コンテストは、Valence Arousal(VA)推定、Expression(Expr)分類、AU(Action Unit)検出の3つのサブチャンジで構成されている。
これらの課題に対処するために、我々は最先端のモデルを用いて強力な視覚的特徴を抽出する。
その後、Transformer Encoderを使用して、VA、Expr、AUサブチャレンジのこれらの機能を統合する。
異なる特徴次元の影響を軽減するために,特徴を共通次元に整列させるアフィンモジュールを導入する。
総じて、我々の結果はベースラインを大きく上回っている。
In this paper, we present our approach to addressing the challenges of the 7th ABAW competition. The competition comprises three sub-challenges: Valence Arousal (VA) estimation, Expression (Expr) classification, and Action Unit (AU) detection. To tackle these challenges, we employ state-of-the-art models to extract powerful visual features. Subsequently, a Transformer Encoder is utilized to integrate these features for the VA, Expr, and AU sub-challenges. To mitigate the impact of varying feature dimensions, we introduce an affine module to align the features to a common dimension. Overall, our results significantly outperform the baselines. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# 周波数誘導問題:周波数対応混合変圧器による骨格行動認識
Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer ( http://arxiv.org/abs/2407.12322v2 ) ライセンス: Link先を確認 | Wenhan Wu, Ce Zheng, Zihao Yang, Chen Chen, Srijan Das, Aidong Lu, | (参考訳) 近年, トランスフォーマーは骨格配列からの長期依存をモデル化する大きな可能性を示し, 骨格行動認識において常に注目を集めている。
しかし、既存のトランスフォーマーベースのアプローチは、同様の動きパターンを示す識別的表現の学習において不足する時空間的特徴を捉えるための単純な注意機構に大きく依存している。
この課題に対処するために、周波数対応混合変換器(FreqMixFormer)を導入する。
まず,その周波数係数に基づいて識別動作を識別することを目的として,関節特徴を周波数アテンションマップに埋め込むことにより骨格の周波数表現を解き放つ周波数アテンションモジュールを提案する。
その後、周波数特徴を持つ空間特徴を包含し、包括的周波数空間パターンをモデル化する混合変圧器アーキテクチャを開発した。
さらに,フレーム間の大域的相関を抽出するために時間変換器を提案する。
大規模な実験により、FreqMiXFormerは、NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットを含む3つの人気のあるスケルトン行動認識データセットでSOTAより優れていることが示されている。
Recently, transformers have demonstrated great potential for modeling long-term dependencies from skeleton sequences and thereby gained ever-increasing attention in skeleton action recognition. However, the existing transformer-based approaches heavily rely on the naive attention mechanism for capturing the spatiotemporal features, which falls short in learning discriminative representations that exhibit similar motion patterns. To address this challenge, we introduce the Frequency-aware Mixed Transformer (FreqMixFormer), specifically designed for recognizing similar skeletal actions with subtle discriminative motions. First, we introduce a frequency-aware attention module to unweave skeleton frequency representations by embedding joint features into frequency attention maps, aiming to distinguish the discriminative movements based on their frequency coefficients. Subsequently, we develop a mixed transformer architecture to incorporate spatial features with frequency features to model the comprehensive frequency-spatial patterns. Additionally, a temporal transformer is proposed to extract the global correlations across frames. Extensive experiments show that FreqMiXFormer outperforms SOTA on 3 popular skeleton action recognition datasets, including NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# PersLLM: 大規模言語モデルの個人化トレーニングアプローチ
PersLLM: A Personified Training Approach for Large Language Models ( http://arxiv.org/abs/2407.12393v3 ) ライセンス: Link先を確認 | Zheni Zeng, Jiayi Chen, Huimin Chen, Yukun Yan, Yuxuan Chen, Zhenghao Liu, Zhiyuan Liu, Maosong Sun, | (参考訳) 大規模言語モデルは、社会シミュレーション、人間と機械の相互作用、協調的なマルチエージェントシステムといった分野において、人間のようなエージェントとしての応用を触媒する人間レベルの知能の側面を示す。
しかし,不整合性,不整合性,一様応答パターンなどの個性が欠如しているため,実用面でのLCMの有用性は低下する。
これに対応するために、LSMにおける性格特性の発達は、潜伏する潜在能力を解き放つための重要な研究領域として現れている。
LLMをパーソナライズする既存の手法は、典型化されたトレーニングデータを用いて指導訓練を行ったり、異なる個人性をシミュレートするためにプロンプトエンジニアリングを使用したりといった戦略が一般的である。
これらの手法は、人格のコアではなく、表面言語的なスタイルを捉えているだけであり、したがって安定していない。
本研究では,社会実践,一貫性,動的発達といった心理学的根拠に基づく個性原則を包括的学習方法論に統合するPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
単一エージェント評価は,他の手法と比較して,基準的個性に適合した応答を生成できるので,本手法の優位性を評価する。
多エージェントコミュニケーションのケーススタディは、個々のエージェントにおける意見整合性を高め、対話コンテキストにおける複数のエージェント間の協調的創造性を促進することの利点を強調し、人間のシミュレーションやマルチエージェント協力の恩恵を受ける可能性がある。
さらに、人間とエージェントの相互作用評価は、我々の擬人化モデルが対話的体験を著しく向上させ、我々の研究の実践的意義を裏付けていることを示している。
Large language models exhibit aspects of human-level intelligence that catalyze their application as human-like agents in domains such as social simulations, human-machine interactions, and collaborative multi-agent systems. However, the absence of distinct personalities, such as displaying ingratiating behaviors, inconsistent opinions, and uniform response patterns, diminish LLMs utility in practical applications. Addressing this, the development of personality traits in LLMs emerges as a crucial area of research to unlock their latent potential. Existing methods to personify LLMs generally involve strategies like employing stylized training data for instruction tuning or using prompt engineering to simulate different personalities. These methods only capture superficial linguistic styles instead of the core of personalities and are therefore not stable. In this study, we propose PersLLM, integrating psychology-grounded principles of personality: social practice, consistency, and dynamic development, into a comprehensive training methodology. We incorporate personality traits directly into the model parameters, enhancing the model's resistance to induction, promoting consistency, and supporting the dynamic evolution of personality. Single-agent evaluation validates our method's superiority, as it produces responses more aligned with reference personalities compared to other approaches. Case studies for multi-agent communication highlight its benefits in enhancing opinion consistency within individual agents and fostering collaborative creativity among multiple agents in dialogue contexts, potentially benefiting human simulation and multi-agent cooperation. Additionally, human-agent interaction evaluations indicate that our personified models significantly enhance interactive experiences, underscoring the practical implications of our research. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# 量子ネットワークにおける量子鍵分配ルーティングプロトコルの概要と課題
Quantum Key Distribution Routing Protocol in Quantum Networks: Overview and Challenges ( http://arxiv.org/abs/2407.13156v2 ) ライセンス: Link先を確認 | Pankaj Kumar, Neel Kanth Kundu, Binayak Kar, | (参考訳) 日常的な応用における量子暗号の利用は、産業分野と学術分野の両方で注目されている。
量子エレクトロニクスの進歩により、実用的な量子デバイスはすでに市場に出回っており、広く使われる準備ができている。
量子鍵分布(Quantum Key Distribution, QKD)は、量子物理学の原理を用いて、地理的に分離されたユーザ間で対称暗号鍵を生成し、配布する量子暗号の重要な側面である。
様々なソリューションをテストするために、多くの成功したQKDネットワークが確立されている。
本研究の目的は、量子鍵分布の文脈において、量子力学の原理に根ざしたユニークな性質によって区別される、確立されたルーティング設計技術を活用する可能性を探ることである。
しかし、これらの手法の実装は、量子メモリのデコヒーレンス、キーレート生成、遅延遅延、量子システム固有のノイズ、限られた通信範囲、高度に専門化されたハードウェアの必要性など、重大な課題を生んでいる。
本稿では,量子鍵分布の設計手法に関する重要な研究について詳細に検討する。
また、量子ルーティングの基本的な側面と、量子QKDに固有の性質についても検討している。
本稿では, 効率的かつレジリエントなQKDネットワーク構築に必要なステップを解明する。
本論文は,QKDネットワークとルーティングに関連する技術,基礎となる原則,プロトコル,課題を要約し,今後の研究の方向性を明らかにする。
The use of quantum cryptography in everyday applications has gained attention in both industrial and academic fields. Due to advancements in quantum electronics, practical quantum devices are already available in the market, and ready for wider use. Quantum Key Distribution (QKD) is a crucial aspect of quantum cryptography, which involves generating and distributing symmetric cryptographic keys between geographically separated users using principles of quantum physics. Many successful QKD networks have been established to test different solutions. The objective of this paper is to delve into the potential of utilizing established routing design techniques in the context of quantum key distribution, a field distinguished by its unique properties rooted in the principles of quantum mechanics. However, the implementation of these techniques poses substantial challenges, including quantum memory decoherence, key rate generation, latency delays, inherent noise in quantum systems, limited communication ranges, and the necessity for highly specialized hardware. This paper conducts an in-depth examination of essential research pertaining to the design methodologies for quantum key distribution. It also explores the fundamental aspects of quantum routing and the associated properties inherent to quantum QKD. This paper elucidates the necessary steps for constructing efficient and resilient QKD networks. In summarizing the techniques relevant to QKD networking and routing, including their underlying principles, protocols, and challenges, this paper sheds light on potential applications and delineates future research directions in this burgeoning field. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# 語彙によるスケーリング法則:より大きなモデルはより大きな語彙を保存する
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies ( http://arxiv.org/abs/2407.13623v2 ) ライセンス: Link先を確認 | Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong, | (参考訳) 大規模言語モデル(LLM)のスケーリングに関する研究は、主に、語彙サイズの役割を見越して、モデルパラメータとトレーニングデータサイズに重点を置いている。
語彙サイズがLLMスケーリング法にどう影響するかを,最大500B文字における33Mから3Bパラメータのトレーニングモデルを用いて検討した。
本稿では,IsoFLOPs解析,微分推定,損失関数のパラメトリック適合という,計算-最適語彙サイズを予測するための3つの補完的手法を提案する。
我々のアプローチは、最適な語彙サイズが利用可能な計算予算に依存し、より大きなモデルはより大きな語彙に値するという同じ結果に収束する。
しかし、ほとんどのLLMは語彙サイズが小さすぎる。
例えば、Llama2-70Bの最適な語彙サイズは少なくとも216Kであり、32Kの語彙の7倍である。
FLOPの予算の異なる3Bパラメータのトレーニングモデルを用いて予測を実証的に検証する。
予測された最適な語彙サイズを採用することで、一般的に使用される語彙サイズよりも下流のパフォーマンスが一貫して向上する。
従来の32Kから43Kへの語彙サイズ拡大により、同じ2.3e21 FLOPでARC-Challengeの性能を29.1から32.0に改善した。
本研究は,効率的なスケーリングのために,モデルパラメータと語彙サイズを共同で検討する必要があることを強調する。
Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# Longhorn: ステートスペースモデルはオンライン学習者の記憶に残るもの
Longhorn: State Space Models are Amortized Online Learners ( http://arxiv.org/abs/2407.14207v3 ) ライセンス: Link先を確認 | Bo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu, | (参考訳) LLM(Large Language Models)のような現代のAIメソッドの最も基本的な能力は、'sequence modeling'として知られる長いトークン列で次のトークンを予測する能力である。
「トランスフォーマーモデルは、現在、シーケンスモデリングにおいて支配的なアプローチであるが、シーケンス長に関する2次計算コストは、大きな欠点である。
ステートスペースモデル(SSM)は、線形復号効率と訓練中の高い並列化性のために、有望な代替手段を提供する。
しかし、既存のSSMは、しばしばアドホックな線形リカレンス設計に依存している。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
このアプローチは、SSM設計と正確なオンライン学習目標の定式化を結びつけ、これらの目的を最適化した状態遷移規則を導出する。
この知見に基づいて,オンライン回帰目標を最適化するための暗黙の更新に基づく,新しい深層SSMアーキテクチャを提案する。
実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,Mambaモデルを含む最先端のSSMよりも優れていることがわかった。
The most fundamental capability of modern AI methods such as Large Language Models (LLMs) is the ability to predict the next token in a long sequence of tokens, known as ``sequence modeling." Although the Transformers model is the current dominant approach to sequence modeling, its quadratic computational cost with respect to sequence length is a significant drawback. State-space models (SSMs) offer a promising alternative due to their linear decoding efficiency and high parallelizability during training. However, existing SSMs often rely on seemingly ad hoc linear recurrence designs. In this work, we explore SSM design through the lens of online learning, conceptualizing SSMs as meta-modules for specific online learning problems. This approach links SSM design to formulating precise online learning objectives, with state transition rules derived from optimizing these objectives. Based on this insight, we introduce a novel deep SSM architecture based on the implicit update for optimizing an online regression objective. Our experimental results show that our models outperform state-of-the-art SSMs, including the Mamba model, on standard sequence modeling benchmarks and language modeling tasks. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# 畳み込みニューラルネットワーク-双方向ゲートリカレントユニットを最適化した角付きトカゲアルゴリズムに基づくクラウドコンピューティングにおけるエネルギー消費の回帰予測アルゴリズム
Regression prediction algorithm for energy consumption regression in cloud computing based on horned lizard algorithm optimised convolutional neural network-bidirectional gated recurrent unit ( http://arxiv.org/abs/2407.14575v2 ) ライセンス: Link先を確認 | Feiyang Li, Zinan Cao, Qixuan Yu, Xirui Tang, | (参考訳) 本稿では,畳み込みニューラルネットワーク-双方向Gated Recurrent Unitの角付きトカゲ最適化アルゴリズムに基づいて,データ回帰アルゴリズムを最適化し,クラウドコンピューティングのエネルギー消費予測を行った。
まず,CPU,使用量,メモリ使用量,ネットワークトラフィック,電力消費量,実行回数,実行時間,エネルギー効率のスピアマン相関解析により,消費電力がエネルギー効率と正の相関関係を持つのに対して,CPU使用量はエネルギー効率と正の相関関係にあることがわかった。
実験では,ランダム森林モデルと,角化トカゲ最適化アルゴリズムに基づく最適化モデルを導入し,その結果,ランダム林モデルと比較して最適化アルゴリズムがより良い予測結果が得られることを示した。
具体的には、最適化アルゴリズムの平均二乗誤差(MSE)はランダム森林モデルよりも0.01小さく、平均絶対誤差(MAE)はランダム森林よりも0.01小さい。
その結果, 最適化アルゴリズムはエネルギー効率の予測において, より正確かつ確実な性能を発揮することがわかった。
この研究結果は、クラウドコンピューティングシステムのエネルギー効率を改善するための新しいアイデアと方法を提供する。
この研究は、クラウドコンピューティング分野の応用範囲を広げるだけでなく、システムのエネルギー使用効率を向上させるための強力な支援も提供する。
For this paper, a prediction study of cloud computing energy consumption was conducted by optimising the data regression algorithm based on the horned lizard optimisation algorithm for Convolutional Neural Networks-Bi-Directional Gated Recurrent Units. Firstly, through Spearman correlation analysis of CPU, usage, memory usage, network traffic, power consumption, number of instructions executed, execution time and energy efficiency, we found that power consumption has the highest degree of positive correlation with energy efficiency, while CPU usage has the highest degree of negative correlation with energy efficiency. In our experiments, we introduced a random forest model and an optimisation model based on the horned lizard optimisation algorithm for testing, and the results show that the optimisation algorithm has better prediction results compared to the random forest model. Specifically, the mean square error (MSE) of the optimisation algorithm is 0.01 smaller than that of the random forest model, and the mean absolute error (MAE) is 0.01 smaller than that of the random forest.3 The results of the combined metrics show that the optimisation algorithm performs more accurately and reliably in predicting energy efficiency. This research result provides new ideas and methods to improve the energy efficiency of cloud computing systems. This research not only expands the scope of application in the field of cloud computing, but also provides a strong support for improving the energy use efficiency of the system. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# 医療ファウンデーションモデルにおける高周波成分表現の改善
Improving Representation of High-frequency Components for Medical Foundation Models ( http://arxiv.org/abs/2407.14651v2 ) ライセンス: Link先を確認 | Yuetan Chu, Yilan Zhang, Zhongyi Han, Changchun Yang, Longxi Zhou, Gongning Luo, Xin Gao, | (参考訳) ファンデーションモデルは、様々な下流タスクにまたがる顕著な一般化性に対して、近年大きな注目を集めている。
しかし、これらのモデルは高周波成分と微細な詳細を表現する上で大きな限界を示すことが示されている。
多くの医療画像のタスクにおいて、そのような情報の正確な表現は、本質的に複雑な解剖学的構造、サブ視覚的特徴、複雑な境界によって重要である。
その結果、一般的な基礎モデルの限定的な表現は、これらのタスクの大幅な性能低下や失敗をもたらす可能性がある。
これらの課題に対処するため、周波数適応型表現オートエンコーダ(Frepa)という新しい事前学習戦略を提案する。
高周波マスキングと低周波摂動と対向学習を組み合わせることで、Frepaはエンコーダに画像埋め込みにおける高周波成分を効果的に表現し保存することを奨励する。
さらに,Musked Autoencoder アプローチを ViT を超えて Swin Transformer や畳み込みネットワークなどの他のアーキテクチャに拡張する,革新的なヒストグラム等化画像マスキング戦略を導入する。
そこで我々はFrepaを9つの医療モダリティにまたがって開発し、2D画像と3Dボリュームデータの両方に対して32の下流タスクで検証する。
微調整なしでは、Frepaは他の自己教師付き事前訓練方法よりも優れており、場合によってはタスク固有の訓練されたモデルを超えている。
この改善は、網膜血管セグメンテーションにおけるDSCの最大15%増加、肺結節検出におけるIoUの最大7%増加など、細かな細部を含むタスクにおいて特に重要である。
さらなる実験により、Frepaは埋め込みにおいて優れた高周波表現と保存を可能にし、より一般化された普遍的な医用画像基盤モデルを開発する可能性を示している。
Foundation models have recently attracted significant attention for their impressive generalizability across diverse downstream tasks. However, these models are demonstrated to exhibit great limitations in representing high-frequency components and fine-grained details. In many medical imaging tasks, the precise representation of such information is crucial due to the inherently intricate anatomical structures, sub-visual features, and complex boundaries involved. Consequently, the limited representation of prevalent foundation models can result in significant performance degradation or even failure in these tasks. To address these challenges, we propose a novel pretraining strategy, named Frequency-advanced Representation Autoencoder (Frepa). Through high-frequency masking and low-frequency perturbation combined with adversarial learning, Frepa encourages the encoder to effectively represent and preserve high-frequency components in the image embeddings. Additionally, we introduce an innovative histogram-equalized image masking strategy, extending the Masked Autoencoder approach beyond ViT to other architectures such as Swin Transformer and convolutional networks. We develop Frepa across nine medical modalities and validate it on 32 downstream tasks for both 2D images and 3D volume data. Without fine-tuning, Frepa can outperform other self-supervised pretraining methods and, in some cases, even surpasses task-specific trained models. This improvement is particularly significant for tasks involving fine-grained details, such as achieving up to a +15% increase in DSC for retina vessel segmentation and a +7% increase in IoU for lung nodule detection. Further experiments quantitatively reveal that Frepa enables superior high-frequency representations and preservation in the embeddings, underscoring its potential for developing more generalized and universal medical image foundation models. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# 二次状態コストを有するワイル微積分と正確に解けるシュレーディンガー橋
Weyl Calculus and Exactly Solvable Schrödinger Bridges with Quadratic State Cost ( http://arxiv.org/abs/2407.15245v2 ) ライセンス: Link先を確認 | Alexis M. H. Teter, Wenqing Wang, Abhishek Halder, | (参考訳) Schr\"{o}dinger bridge--最適質量輸送の確率的動的一般化--学習制御双対性を示す。
確率的制御問題として見なされ、Schr\"{o}dinger Bridgeは、制御された拡散と期限制約による総制御労力を最小限に抑えながら、与えられた結合状態の統計を別の状態にステアリングする最適な制御ポリシーを見つける。
確率的学習問題として見なされ、Schr\"{o}dinger Bridgeは、最もよく似た分布値を持つ軌道と終端分布の観測、すなわち確率分布の多様体上の2点境界制約の最大極大問題を解く。
近年の研究では、状態依存反応速度として状態費用が現れる反応拡散PDEに関連するマルコフ核を見つける必要がある。
量子力学におけるワイル積分、特にワイル作用素とワイル記号のアイデアは、そのようなマルコフ核を決定するのにどのように役立つかを説明する。
Weyl calculus による2次状態コストの場合のマルコフ核を明示的に見つけ、初期の結果を復元するが、エルミート多項式による退屈な計算は避ける。
Schr\"{o}dinger bridge--a stochastic dynamical generalization of optimal mass transport--exhibits a learning-control duality. Viewed as a stochastic control problem, the Schr\"{o}dinger bridge finds an optimal control policy that steers a given joint state statistics to another while minimizing the total control effort subject to controlled diffusion and deadline constraints. Viewed as a stochastic learning problem, the Schr\"{o}dinger bridge finds the most-likely distribution-valued trajectory connecting endpoint distributional observations, i.e., solves the two point boundary-constrained maximum likelihood problem over the manifold of probability distributions. Recent works have shown that solving the Schr\"{o}dinger bridge problem with state cost requires finding the Markov kernel associated with a reaction-diffusion PDE where the state cost appears as a state-dependent reaction rate. We explain how ideas from Weyl calculus in quantum mechanics, specifically the Weyl operator and the Weyl symbol, can help determine such Markov kernels. We illustrate these ideas by explicitly finding the Markov kernel for the case of quadratic state cost via Weyl calculus, recovering our earlier results but avoiding tedious computation with Hermite polynomials. | 翻訳日:2024-07-29 15:38:30 公開日:2024-07-26 |
# EDAツールドキュメンテーションQAのためのカスタム検索拡張生成とベンチマーク
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA ( http://arxiv.org/abs/2407.15353v2 ) ライセンス: Link先を確認 | Yuan Pu, Zhuolun He, Tairu Qiu, Haoyuan Wu, Bei Yu, | (参考訳) Retrieval augmented generation (RAG)は、外部データベースから事実情報を抽出することで、生成AIモデルの精度と信頼性を高める。
市販のRAGフローは汎用文書で十分に事前訓練されているが、電子設計自動化(EDA)のような知識集約型垂直領域に適用される場合、大きな課題に直面する。
本稿では,EDAツールドキュメンテーションのための3つのドメイン固有技術とともに,カスタマイズされたRAGフレームワークを提案し,テキスト埋め込みモデルファインチューニングのためのコントラスト学習スキーム,独自LLMから蒸留したリランカ,高品質なドメインコーパスを備えたジェネレーションLLMを提案する。
さらに,先進的なRTL-to-GDSII設計プラットフォームであるOpenROADのドキュメントQA評価ベンチマークであるORD-QAを開発した。
実験結果から,ORD-QAおよび商用ツール上でのRAGフローと技術は,最先端技術と比較して優れた性能を示した。
ORD-QAベンチマークと、カスタマイズされたRAGフローのトレーニングデータセットは、https://github.com/lesliepy99/RAG-EDAでオープンソース化されています。
Retrieval augmented generation (RAG) enhances the accuracy and reliability of generative AI models by sourcing factual information from external databases, which is extensively employed in document-grounded question-answering (QA) tasks. Off-the-shelf RAG flows are well pretrained on general-purpose documents, yet they encounter significant challenges when being applied to knowledge-intensive vertical domains, such as electronic design automation (EDA). This paper addresses such issue by proposing a customized RAG framework along with three domain-specific techniques for EDA tool documentation QA, including a contrastive learning scheme for text embedding model fine-tuning, a reranker distilled from proprietary LLM, and a generative LLM fine-tuned with high-quality domain corpus. Furthermore, we have developed and released a documentation QA evaluation benchmark, ORD-QA, for OpenROAD, an advanced RTL-to-GDSII design platform. Experimental results demonstrate that our proposed RAG flow and techniques have achieved superior performance on ORD-QA as well as on a commercial tool, compared with state-of-the-arts. The ORD-QA benchmark and the training dataset for our customized RAG flow are open-source at https://github.com/lesliepy99/RAG-EDA. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# 制限のないフィードバック遅延を伴うメリットベースのFair Combinatorial Semi-Bandit
Merit-based Fair Combinatorial Semi-Bandit with Unrestricted Feedback Delays ( http://arxiv.org/abs/2407.15439v2 ) ライセンス: Link先を確認 | Ziqun Chen, Kechao Cai, Zhuoyue Chen, Jinbei Zhang, John C. S. Lui, | (参考訳) 本研究では, 確率的組合せ半帯域問題と, 有益性制約の下での非制限フィードバック遅延について検討する。
これはクラウドソーシングやオンライン広告などのアプリケーションによって動機付けられており、即時にフィードバックが得られず、さまざまな選択肢(または武器)の公平性が不可欠である。
本稿では,報酬非依存の遅延と報酬非依存の遅延と,報酬非依存の遅延と,報酬非依存の遅延とを考察する。
さらに、腕の公平な選択を保証するために、有益性に基づく公正性制約を導入する。
我々は、報酬の後悔と公平さの後悔を定義し、そのメリットに基づいて、制限のないフィードバック遅延の下で武器を選択するための新しいバンディットアルゴリズムを提示する。
我々のアルゴリズムはいずれも,遅延分布の量子化に依拠して,サブ線形で期待される報酬の後悔と期待される公平さの後悔を達成できることを証明している。
我々はまた、合成データと実世界のデータを用いて広範な実験を行い、我々のアルゴリズムがフィードバック遅延の異なる腕を適切に選択できることを示します。
We study the stochastic combinatorial semi-bandit problem with unrestricted feedback delays under merit-based fairness constraints. This is motivated by applications such as crowdsourcing, and online advertising, where immediate feedback is not immediately available and fairness among different choices (or arms) is crucial. We consider two types of unrestricted feedback delays: reward-independent delays where the feedback delays are independent of the rewards, and reward-dependent delays where the feedback delays are correlated with the rewards. Furthermore, we introduce merit-based fairness constraints to ensure a fair selection of the arms. We define the reward regret and the fairness regret and present new bandit algorithms to select arms under unrestricted feedback delays based on their merits. We prove that our algorithms all achieve sublinear expected reward regret and expected fairness regret, with a dependence on the quantiles of the delay distribution. We also conduct extensive experiments using synthetic and real-world data and show that our algorithms can fairly select arms with different feedback delays. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# 大量カスタマイズ生産の促進:スマート産業におけるフローショップ生産のための多目的メタヒューリスティックアルゴリズム
Enhancing Mass Customization Manufacturing: Multiobjective Metaheuristic Algorithms for flow shop Production in Smart Industry ( http://arxiv.org/abs/2407.15802v2 ) ライセンス: Link先を確認 | Diego Rossit, Daniel Rossit, Sergio Nesmachnow, | (参考訳) 大規模生産産業の現在の状況は、新たな顧客トレンドと新しいスマート製造技術によって引き起こされる大きな変革を経験している。
このような変更の1つは、大規模生産プロセスによるコスト効率の確保を保ちながら、製品が個々の顧客仕様に合わせて調整されるような、大量カスタマイズの実施を義務付けることである。
これらの変化は、業界の様々な面に大きな影響を与える可能性がある。
本研究は,工場生産計画における必要な適応に焦点を当てたものである。
具体的には,フェースパン,重み付けされた全重み付け,総完成時間という,異なる最適化目標を考慮し,フローホップに対処する効率的な進化的アルゴリズムを提案する。
幅広い計算実験は、様々な仕事、オペレーション、行方不明なオペレーションの確率を含む、様々な現実的なインスタンスで実施されている。
提案手法の競合性を実証し,この問題に対処する最も適切な進化的アルゴリズムの同定を可能にする。
さらに,最適化目標に対する動作不足の確率の影響についても論じる。
The current landscape of massive production industries is undergoing significant transformations driven by emerging customer trends and new smart manufacturing technologies. One such change is the imperative to implement mass customization, wherein products are tailored to individual customer specifications while still ensuring cost efficiency through large-scale production processes. These shifts can profoundly impact various facets of the industry. This study focuses on the necessary adaptations in shop-floor production planning. Specifically, it proposes the use of efficient evolutionary algorithms to tackle the flowshop with missing operations, considering different optimization objectives: makespan, weighted total tardiness, and total completion time. An extensive computational experimentation is conducted across a range of realistic instances, encompassing varying numbers of jobs, operations, and probabilities of missing operations. The findings demonstrate the competitiveness of the proposed approach and enable the identification of the most suitable evolutionary algorithms for addressing this problem. Additionally, the impact of the probability of missing operations on optimization objectives is discussed. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# グローバル・ノースステレオタイプを打破する: 顔認識システムにおけるバイアスの監査と軽減のためのグローバル・サウス中心ベンチマークデータセット
Breaking the Global North Stereotype: A Global South-centric Benchmark Dataset for Auditing and Mitigating Biases in Facial Recognition Systems ( http://arxiv.org/abs/2407.15810v2 ) ライセンス: Link先を確認 | Siddharth D Jaiswal, Animesh Ganai, Abhisek Dash, Saptarshi Ghosh, Animesh Mukherjee, | (参考訳) 顔認識システム(FRS)は、前例のない速度で世界中で開発・展開されている。
ほとんどのプラットフォームは限られた国で設計されているが、適切なチェックポイントなしで世界中で展開されている。
これは、これらのシステムの異なるパフォーマンスに直面している人々を保護するための強力な法律が欠如しているグローバル・サウス諸国にとって特に問題となる。
データセットの可用性の欠如、FRS機能の理解の欠如、低リソースバイアス緩和対策の組み合わせによって、この問題は強調される。
本研究では,世界8カ国の男性6,579人,女性6,579人からなる顔データセットを提案する。
データセットの50%以上がグローバル・サウス諸国の個人であり、人口統計学的に多様である。
敵対的監査と堅牢なモデルトレーニングを支援するため、各画像は4つの敵的変種を持ち、合計4万枚以上の画像がある。
また、性別予測(レッドチーム化の例として、オープンソースモデルの1つに対する国別予測)のタスクのために、商用およびオープンソースの両方で人気のある5つのFRSをベンチマークします。
工業用FRSの実験では98.2%から38.1%の範囲で、男性と女性の間には大きな差異がある(最大差38.5%)。
また、グローバル・ノースとサウス(最大50%の差)のすべてのFRSでもビアーゼが観察されている。
Grad-CAM分析は、鼻、額、口をオープンソースFRSの1つの領域として同定する。
この知見を生かして, 男女の差異を50%から1.5%に減らし, 精度を著しく向上させ, 少ないショットと新しいコントラスト学習技術を用いて, 簡便で低リソースなバイアス軽減ソリューションを設計した。
オープンソースのDeepfaceモデルによるレッドチーム実験では、コントラスト学習は単純な微調整よりも効果的であることが証明されている。
Facial Recognition Systems (FRSs) are being developed and deployed globally at unprecedented rates. Most platforms are designed in a limited set of countries but deployed in worldwide, without adequate checkpoints. This is especially problematic for Global South countries which lack strong legislation to safeguard persons facing disparate performance of these systems. A combination of unavailability of datasets, lack of understanding of FRS functionality and low-resource bias mitigation measures accentuate the problem. In this work, we propose a new face dataset composed of 6,579 unique male and female sportspersons from eight countries around the world. More than 50% of the dataset comprises individuals from the Global South countries and is demographically diverse. To aid adversarial audits and robust model training, each image has four adversarial variants, totaling over 40,000 images. We also benchmark five popular FRSs, both commercial and open-source, for the task of gender prediction (and country prediction for one of the open-source models as an example of red-teaming). Experiments on industrial FRSs reveal accuracies ranging from 98.2%--38.1%, with a large disparity between males and females in the Global South (max difference of 38.5%). Biases are also observed in all FRSs between females of the Global North and South (max difference of ~50%). Grad-CAM analysis identifies the nose, forehead and mouth as the regions of interest on one of the open-source FRSs. Utilizing this insight, we design simple, low-resource bias mitigation solutions using few-shot and novel contrastive learning techniques significantly improving the accuracy with disparity between males and females reducing from 50% to 1.5% in one of the settings. In the red-teaming experiment with the open-source Deepface model, contrastive learning proves more effective than simple fine-tuning. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# セマンティックプロトタイプ:ブラックボックスなしで透明性を高める
Semantic Prototypes: Enhancing Transparency Without Black Boxes ( http://arxiv.org/abs/2407.15871v2 ) ライセンス: Link先を確認 | Orfeas Menis-Mastromichalakis, Giorgos Filandrianos, Jason Liartis, Edmund Dervakos, Giorgos Stamou, | (参考訳) 機械学習(ML)モデルとデータセットが複雑化するにつれて、説明可能性と解釈可能性を高める手法の需要が最重要となる。
プロトタイプは、データに不可欠な特徴をカプセル化することによって、戦術的な意思決定を可能にし、透明性を高める洞察を提供する。
伝統的なプロトタイプの手法は、しばしば準記号的な生データと不透明な潜伏空間に依存し、説明可能性の低減と誤解釈のリスクの増大を図っている。
本稿では, 従来の手法の欠点を効果的に解決する上で, 意味記述を用いてプロトタイプを定義し, 明確な説明を提供する新しい枠組みを提案する。
提案手法では,概念に基づく記述をセマンティックレベルでのクラスタデータに活用することにより,プロトタイプが直感的に特性を表現するだけでなく,解釈も容易になる。
本手法は,解釈過程を単純化し,複雑なデータ構造と人間の認知過程のギャップを効果的に橋渡しし,透明性を高め,信頼を育む。
提案手法は,ユーザ調査で検証したように,人間の理解と情報提供を容易にするため,既存の広範に使用されているプロトタイプ手法よりも優れている。
As machine learning (ML) models and datasets increase in complexity, the demand for methods that enhance explainability and interpretability becomes paramount. Prototypes, by encapsulating essential characteristics within data, offer insights that enable tactical decision-making and enhance transparency. Traditional prototype methods often rely on sub-symbolic raw data and opaque latent spaces, reducing explainability and increasing the risk of misinterpretations. This paper presents a novel framework that utilizes semantic descriptions to define prototypes and provide clear explanations, effectively addressing the shortcomings of conventional methods. Our approach leverages concept-based descriptions to cluster data on the semantic level, ensuring that prototypes not only represent underlying properties intuitively but are also straightforward to interpret. Our method simplifies the interpretative process and effectively bridges the gap between complex data structures and human cognitive processes, thereby enhancing transparency and fostering trust. Our approach outperforms existing widely-used prototype methods in facilitating human understanding and informativeness, as validated through a user survey. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# シュロディンガー化による物理境界条件を持つ熱方程式の量子回路
Quantum Circuits for the heat equation with physical boundary conditions via Schrodingerisation ( http://arxiv.org/abs/2407.15895v2 ) ライセンス: Link先を確認 | Shi Jin, Nana Liu, Yue Yu, | (参考訳) 本稿では、物理境界条件を持つ偏微分方程式(PDE)の量子シミュレーションのための量子回路の明示的設計について検討する。
これらの方程式やそれらの離散化された形式は、通常はユニタリ力学によって進化しないので、量子シミュレーションには適さない。
境界条件(時間依存または独立)は、問題をより難しくする。
この課題に取り組むためにシュロディンガー化法は、線形偏微分方程式と非単体力学の常微分方程式をシュロディンガー型方程式の系に変換する、いわゆるワープ位相変換を用いて、方程式を1つの高次元にマッピングする。
シュロディンジェライゼーション技術の進歩にもかかわらず、一般のPDE(特に物理境界条件)を解くための量子回路の明示的な実装は未開発のままである。
時間依存的物理的境界条件から生じる不均一項を扱うための2つの方法を提案する。
1つのアプローチはデュハメルの原理を利用して解を積分形式で表現し、整合状態の準備にユニタリ(LCU)の線形結合を用いる。
別の方法は、不均一な問題を均質な問題に変換するために拡張を適用する。
次に、[CJL23]から量子シミュレーション手法を適用し、結果の非自律系を1次元の自律系に変換する。
本稿では,これら2つの手法の詳細な実装と,時間進化入力オラクルに対するクエリの観点からの包括的複雑性解析を行う。
This paper explores the explicit design of quantum circuits for quantum simulation of partial differential equations (PDEs) with physical boundary conditions. These equations and/or their discretized forms usually do not evolve via unitary dynamics, thus are not suitable for quantum simulation. Boundary conditions (either time-dependent or independent) make the problem more difficult. To tackle this challenge, the Schrodingerisation method can be employed, which converts linear partial and ordinary differential equations with non-unitary dynamics into systems of Schrodinger-type equations, via the so-called warped phase transformation that maps the equation into one higher dimension. Despite advancements in Schrodingerisation techniques, the explicit implementation of quantum circuits for solving general PDEs, especially with physical boundary conditions, remains underdeveloped. We present two methods for handling the inhomogeneous terms arising from time-dependent physical boundary conditions. One approach utilizes Duhamel's principle to express the solution in integral form and employs linear combination of unitaries (LCU) for coherent state preparation. Another method applies an augmentation to transform the inhomogeneous problem into a homogeneous one. We then apply the quantum simulation technique from [CJL23] to transform the resulting non-autonomous system to an autonomous system in one higher dimension. We provide detailed implementations of these two methods and conduct a comprehensive complexity analysis in terms of queries to the time evolution input oracle. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# MxT:Mamba x Transformer for Image Inpainting
MxT: Mamba x Transformer for Image Inpainting ( http://arxiv.org/abs/2407.16126v2 ) ライセンス: Link先を確認 | Shuang Chen, Amir Atapour-Abarghouei, Haozheng Zhang, Hubert P. H. Shum, | (参考訳) 画像インペインティング(英: Image inpainting)または画像補完(英: Image completion)は、セマンティック・コヒーレントなコンテンツを用いて、画像の欠落または損傷領域を復元することを目的としたコンピュータビジョンにおける重要なタスクである。
この技術は、復元された画像が周囲とシームレスに統合されるように、局所的なテクスチャ複製とグローバルな文脈理解の正確なバランスを必要とする。
畳み込みニューラルネットワーク(CNN)を用いた従来の手法は、局所的なパターンを捉えるのに有効であるが、受容領域が限られているため、より広い文脈の関係に苦慮することが多い。
近年の進歩はトランスフォーマーを取り入れ、グローバルな相互作用を理解する能力を活用している。
しかし、これらの手法は計算の非効率さに直面し、細かな詳細を維持するのに苦労する。
これらの課題を克服するために,Mamba と変換器を相乗的に組み合わせたHybrid Module (HM) を用いた MxT を提案する。
Mambaは、線形計算コストで効率よく長いシーケンスを処理できるので、大規模なデータインタラクションを扱うための変換器の理想的な補完となる。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
我々は、広く使われているCelebA-HQとPlaces2-standardデータセット上でMxTを評価し、既存の最先端手法を一貫して上回りました。
Image inpainting, or image completion, is a crucial task in computer vision that aims to restore missing or damaged regions of images with semantically coherent content. This technique requires a precise balance of local texture replication and global contextual understanding to ensure the restored image integrates seamlessly with its surroundings. Traditional methods using Convolutional Neural Networks (CNNs) are effective at capturing local patterns but often struggle with broader contextual relationships due to the limited receptive fields. Recent advancements have incorporated transformers, leveraging their ability to understand global interactions. However, these methods face computational inefficiencies and struggle to maintain fine-grained details. To overcome these challenges, we introduce MxT composed of the proposed Hybrid Module (HM), which combines Mamba with the transformer in a synergistic manner. Mamba is adept at efficiently processing long sequences with linear computational costs, making it an ideal complement to the transformer for handling long-scale data interactions. Our HM facilitates dual-level interaction learning at both pixel and patch levels, greatly enhancing the model to reconstruct images with high quality and contextual accuracy. We evaluate MxT on the widely-used CelebA-HQ and Places2-standard datasets, where it consistently outperformed existing state-of-the-art methods. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# 画像暗号化のためのAES, Blowfish, Twofish, Salsa20, ChaCha20の比較解析
Comparative Analysis of AES, Blowfish, Twofish, Salsa20, and ChaCha20 for Image Encryption ( http://arxiv.org/abs/2407.16274v2 ) ライセンス: Link先を確認 | Rebwar Khalid Muhammed, Ribwar Rashid Aziz, Alla Ahmad Hassan, Aso Mohammed Aladdin, Shaida Jumaah Saydah, Tarik Ahmed. Rashid, Bryar Ahmad Hassan, | (参考訳) 今日では、サイバーセキュリティはより重要で難しい科学的問題へと成長している。
インターネットの知識と安全性を脅かす脅威や攻撃は、検知しにくくなっている。
サイバーセキュリティは、インターネット経由で送信されるデータのプライバシーとセキュリティを保証するため、悪意のある攻撃に対する保護も必要である。
暗号化は、情報セキュリティシステムの重要な要素となったアンサーへと成長してきた。
テキスト、画像、ビデオなどの共有データのセキュリティを確保するためには、様々な方法や戦略を採用することが不可欠である。
本研究は,AES(Advanced Encryp-tion Standard),Blowfish,Twofish,Salsa20,ChaCha20などの符号化技術を用いて,暗号化防止とストリーム暗号化に利用される暗号手法とアルゴリズムについて検討する。
この再調査の主な目的は、データの暗号化と復号化プロセスに最適な時間とスループット(速度)を特定することである。
本研究の方法論は,5種類の異なる画像を選択し,評価した手法の結果を総合的に分析することであった。
この評価は、プロシース時間と速度パラメーター、プリマリープラットフォームとしてJavaを使った視覚的エンコーディングとデコーディングに焦点を当てた。
いくつかの対称鍵暗号の比較分析を行い、大きなデータセットの処理に焦点をあてた。
この制限にもかかわらず、異なる画像の比較はテクニックの斬新さを評価するのに役立った。
その結果、ChaCha20は暗号化と復号の両方で、他のアルゴリズムよりも50%以上高速であることがわかった。
しかし、Twofish algo-rithmは試験中に低スループットであった。
本稿は、今後の改善に関する知見と提案で締めくくっている。
Nowadays, cybersecurity has grown into a more significant and difficult scientific issue. The recog-nition of threats and attacks meant for knowledge and safety on the internet is growing harder to detect. Since cybersecurity guarantees the privacy and security of data sent via the Internet, it is essential, while also providing protection against malicious attacks. Encrypt has grown into an an-swer that has become an essential element of information security systems. To ensure the security of shared data, including text, images, or videos, it is essential to employ various methods and strategies. This study delves into the prevalent cryptographic methods and algorithms utilized for prevention and stream encryption, examining their encoding techniques such as advanced encryp-tion standard (AES), Blowfish, Twofish, Salsa20, and ChaCha20. The primary objective of this re-search is to identify the optimal times and throughputs (speeds) for data encryption and decryption processes. The methodology of this study involved selecting five distinct types of images to com-pare the outcomes of the techniques evaluated in this research. The assessment focused on pro-cessing time and speed parameters, examining visual encoding and decoding using Java as the pri-mary platform. A comparative analysis of several symmetric key ciphers was performed, focusing on handling large datasets. Despite this limitation, comparing different images helped evaluate the techniques' novelty. The results showed that ChaCha20 had the best average time for both encryp-tion and decryption, being over 50% faster than some other algorithms. However, the Twofish algo-rithm had lower throughput during testing. The paper concludes with findings and suggestions for future improvements. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# 大規模言語モデルによる事故予知と局所化のための新しいベンチマーク
When, Where, and What? A Novel Benchmark for Accident Anticipation and Localization with Large Language Models ( http://arxiv.org/abs/2407.16277v2 ) ライセンス: Link先を確認 | Haicheng Liao, Yongkang Li, Chengyue Wang, Yanchen Guan, KaHou Tam, Chunlin Tian, Li Li, Chengzhong Xu, Zhenning Li, | (参考訳) 自動運転システムが日々の交通機関の一部になるにつれて、潜在的な交通事故を正確に予測し軽減する能力が最重要である。
従来の事故予測モデルは、主にダッシュカムビデオを利用して、事故の発生時期を予測できるが、事故のローカライズや関連するエンティティの特定には不十分である。
このギャップに対処するため,大規模言語モデル(LLM)を統合した新しいフレームワークを導入する。
複雑な運転シーンにおけるリスクの高い要素の優先順位を動的に調整する,革新的なチェーンベースアテンション機構を開発した。
このメカニズムは、3段階のモデルで補完され、より小さなモデルからの出力をLSMの詳細なマルチモーダル入力に処理することで、トラフィックのダイナミクスをより微妙に理解することができる。
DAD、CCD、A3Dデータセットに対する実証検証は、平均精度(AP)と平均時間到達精度(mTTA)において優れた性能を示し、事故予測技術の新たなベンチマークを確立する。
我々のアプローチは、自動運転安全のための技術枠組みを前進させるだけでなく、人間とAIの相互作用を強化し、自律システムによって生成された予測的洞察をより直感的で実用的なものにします。
As autonomous driving systems increasingly become part of daily transportation, the ability to accurately anticipate and mitigate potential traffic accidents is paramount. Traditional accident anticipation models primarily utilizing dashcam videos are adept at predicting when an accident may occur but fall short in localizing the incident and identifying involved entities. Addressing this gap, this study introduces a novel framework that integrates Large Language Models (LLMs) to enhance predictive capabilities across multiple dimensions--what, when, and where accidents might occur. We develop an innovative chain-based attention mechanism that dynamically adjusts to prioritize high-risk elements within complex driving scenes. This mechanism is complemented by a three-stage model that processes outputs from smaller models into detailed multimodal inputs for LLMs, thus enabling a more nuanced understanding of traffic dynamics. Empirical validation on the DAD, CCD, and A3D datasets demonstrates superior performance in Average Precision (AP) and Mean Time-To-Accident (mTTA), establishing new benchmarks for accident prediction technology. Our approach not only advances the technological framework for autonomous driving safety but also enhances human-AI interaction, making predictive insights generated by autonomous systems more intuitive and actionable. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# マルチモーダル非学習例:マルチモーダルコントラスト学習に対するデータ保護
Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning ( http://arxiv.org/abs/2407.16307v2 ) ライセンス: Link先を確認 | Xinwei Liu, Xiaojun Jia, Yuan Xun, Siyuan Liang, Xiaochun Cao, | (参考訳) マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
しかし、この依存はプライバシーのリスクを引き起こす。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
しかし、それらは一様分類のために設計されており、MCLではほとんど探索されていない。
まず,画像キャプチャペア上での既存手法の性能を評価し,マルチモーダルデータに効果的に一般化せず,ラベルの欠如やMCL内のペアの分散によるショートカット構築に限定的な影響を示す。
本稿では,多段階誤り最小化(MEM)を提案する。
エラー最小化(EM)フレームワークを拡張して、画像ノイズと追加のテキストトリガの両方を最適化し、最適化されたスペースを拡大し、ノイズ特徴とテキストトリガの間のショートカットを効果的に学習するためのモデルを誤解させる。
具体的には、雑音最小化問題の解法として、予測勾配降下法を採用し、HotFlipを用いて勾配を近似し、単語を置換して最適なテキストトリガを求める。
広範囲な実験により、保護後検索の結果はランダムな推測の半分近くであり、異なるモデル間で高い転送性を持つMEMの有効性が実証された。
私たちのコードはhttps://github.com/thinwayliu/Multimodal-Unlearnable-Examplesで利用可能です。
Multimodal contrastive learning (MCL) has shown remarkable advances in zero-shot classification by learning from millions of image-caption pairs crawled from the Internet. However, this reliance poses privacy risks, as hackers may unauthorizedly exploit image-text data for model training, potentially including personal and privacy-sensitive information. Recent works propose generating unlearnable examples by adding imperceptible perturbations to training images to build shortcuts for protection. However, they are designed for unimodal classification, which remains largely unexplored in MCL. We first explore this context by evaluating the performance of existing methods on image-caption pairs, and they do not generalize effectively to multimodal data and exhibit limited impact to build shortcuts due to the lack of labels and the dispersion of pairs in MCL. In this paper, we propose Multi-step Error Minimization (MEM), a novel optimization process for generating multimodal unlearnable examples. It extends the Error-Minimization (EM) framework to optimize both image noise and an additional text trigger, thereby enlarging the optimized space and effectively misleading the model to learn the shortcut between the noise features and the text trigger. Specifically, we adopt projected gradient descent to solve the noise minimization problem and use HotFlip to approximate the gradient and replace words to find the optimal text trigger. Extensive experiments demonstrate the effectiveness of MEM, with post-protection retrieval results nearly half of random guessing, and its high transferability across different models. Our code is available on the https://github.com/thinwayliu/Multimodal-Unlearnable-Examples | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# 知識グラフ埋め込み手法の表現力について
On The Expressive Power of Knowledge Graph Embedding Methods ( http://arxiv.org/abs/2407.16326v2 ) ライセンス: Link先を確認 | Jiexing Gao, Dmitry Rodin, Vasily Motolygin, Denis Zaytsev, | (参考訳) 知識グラフ埋め込み(KGE)は、潜在空間における知識グラフの実体と関係を表現することを目的とした一般的なアプローチである。
彼らの表現は埋め込みとして知られている。
三重項の可算性を測定するために、スコア関数は埋め込み空間上で定義される。
様々なタスクにおいてKGEが広く普及しているにもかかわらず、KGE法は推論能力に制限がある。
本稿では,KGE手法の推論能力を比較する数学的枠組みを提案する。
STransE は TransComplEx よりも高機能であることを示し,STransCoRe を TransCoRe の知見と組み合わせることで STransCoRe の空間複雑性を低減し,STransCoRe を改良する STransCoRe 法を提案する。
Knowledge Graph Embedding (KGE) is a popular approach, which aims to represent entities and relations of a knowledge graph in latent spaces. Their representations are known as embeddings. To measure the plausibility of triplets, score functions are defined over embedding spaces. Despite wide dissemination of KGE in various tasks, KGE methods have limitations in reasoning abilities. In this paper we propose a mathematical framework to compare reasoning abilities of KGE methods. We show that STransE has a higher capability than TransComplEx, and then present new STransCoRe method, which improves the STransE by combining it with the TransCoRe insights, which can reduce the STransE space complexity. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# AutoRG-Brain:脳MRIのためのグラウンドドレポート生成
AutoRG-Brain: Grounded Report Generation for Brain MRI ( http://arxiv.org/abs/2407.16684v2 ) ライセンス: Link先を確認 | Jiayu Lei, Xiaoman Zhang, Chaoyi Wu, Lisong Dai, Ya Zhang, Yanyong Zhang, Yanfeng Wang, Weidi Xie, Yuehua Li, | (参考訳) 放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。
この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。
これらの課題に対処するために、脳MRIの解釈システムから始まり、脳構造のデライン化、異常の局所化、よく組織された発見の生成を支援する、基盤となる自動報告生成(AutoRG)の一連の研究を開始する。
まず、データセット構築に関して、異常領域のセグメンテーションマスクとRadGenome-Brain MRIと呼ばれる手動オーサリングレポートを含む包括的なデータセットをリリースする。
このデータリソースは、AI支援レポート生成システムの分野で進行中の研究と開発を触媒することを目的としている。
第2に, システム設計において, 画素レベルの接地による視覚的手がかりを持つ最初の脳MRIレポート生成システムであるAutoRG-Brainを提案する。
第3に,脳構造セグメンテーションの定量的評価と人的評価を行い,その信頼性と正確性を示すために,異常な局所化とレポート生成タスクを行った。
このシステムは実際の臨床シナリオに組み込まれており、放射線技師は、生成した結果と異常なセグメンテーションマスクに基づいてレポートを書くように指示された。
以上の結果から, 若年者医師のレポート作成能力の向上が図られ, 成績の整合性が向上し, 総合的生産性が向上することが示唆された。
Radiologists are tasked with interpreting a large number of images in a daily base, with the responsibility of generating corresponding reports. This demanding workload elevates the risk of human error, potentially leading to treatment delays, increased healthcare costs, revenue loss, and operational inefficiencies. To address these challenges, we initiate a series of work on grounded Automatic Report Generation (AutoRG), starting from the brain MRI interpretation system, which supports the delineation of brain structures, the localization of anomalies, and the generation of well-organized findings. We make contributions from the following aspects, first, on dataset construction, we release a comprehensive dataset encompassing segmentation masks of anomaly regions and manually authored reports, termed as RadGenome-Brain MRI. This data resource is intended to catalyze ongoing research and development in the field of AI-assisted report generation systems. Second, on system design, we propose AutoRG-Brain, the first brain MRI report generation system with pixel-level grounded visual clues. Third, for evaluation, we conduct quantitative assessments and human evaluations of brain structure segmentation, anomaly localization, and report generation tasks to provide evidence of its reliability and accuracy. This system has been integrated into real clinical scenarios, where radiologists were instructed to write reports based on our generated findings and anomaly segmentation masks. The results demonstrate that our system enhances the report-writing skills of junior doctors, aligning their performance more closely with senior doctors, thereby boosting overall productivity. | 翻訳日:2024-07-29 15:28:39 公開日:2024-07-26 |
# クォータ相互作用と量子カオスを持つ高調波発振器の3次誘電性OTOC
Third-order Pertubative OTOC of Harmonic Oscillator with Quartic Interaction and Quantum Chaos ( http://arxiv.org/abs/2407.17500v2 ) ライセンス: Link先を確認 | Wung-Hong Huang, | (参考訳) 我々は,第2量子化法により,超クォート相互作用を持つ単純な高調波発振器の3次時間外相関器(OTOC)を計算した。
座標のスペクトル, フォック空間状態, 行列要素の解析関係を求め, OTOCを数値計算する。
C_T(\infty)\to 2\langle x^2\rangle_T\langle p^2\rangle_T$ はカオスを示す系における量子カオスの振る舞いと関連付けられる。
我々は,C_T$の早期特性を解析し,カオスを診断する指数的成長が3次摂動で示されることを示す。
We calculate the third order out-of-time-order correlator (OTOC) of a simple harmonic oscillator with extra quartic interaction by the second quantization method. We obtain the analytic relations of spectrum, Fock space states and matrix elements of coordinate which are then used to numerically calculate the OTOC. We see that OTOC saturates to a constant value at later times, i.e. $C_T(\infty)\to 2\langle x^2\rangle_T\langle p^2\rangle_T$, which associates with quantum chaotic behavior in systems that exhibit chaos. We analyze early-time property of $C_T$ and see that the exponential growth, which diagnoses the chaos, is shown in the third-order perturbation. | 翻訳日:2024-07-29 15:18:53 公開日:2024-07-26 |
# スマート環境におけるロボット掃除機のプライバシーリスク調査
Investigating the Privacy Risk of Using Robot Vacuum Cleaners in Smart Environments ( http://arxiv.org/abs/2407.18433v1 ) ライセンス: Link先を確認 | Benjamin Ulsmaag, Jia-Chun Lin, Ming-Chang Lee, | (参考訳) ロボット掃除機はますます普及し、様々なスマートな環境で広く使われている。
消費者の利便性を高めるために、メーカーはスマートフォンアプリケーションを導入し、ユーザーは掃除設定をカスタマイズしたり、ロボット掃除機に関する情報にアクセスしたりできる。
この統合は、ユーザとロボット掃除機間のインタラクションを強化するが、ユーザの個人情報が暴露される可能性があるため、潜在的なプライバシー上の懸念をもたらす。
これらの問題に対処するため、アプリケーション、クラウドサービス、ロボット掃除機間でエンドツーエンドの暗号化を実装し、交換された情報を保護する。
それでも、ネットワークヘッダメタデータは暗号化されておらず、ネットワークの盗聴に対して脆弱である。
本稿では,このようなメタデータを用いた個人情報公開の可能性について検討する。
ロボット掃除機として人気の高いロボット掃除機は、いくつかの選抜された掃除イベント中に受動的ネットワークの盗聴を行うリアルなスマートな環境に展開された。
アソシエーション・ルール・ラーニングをベースとした広範な分析により、取得したインターネットトラフィックメタデータのみを使用して特定のイベントを特定でき、それによってプライベートなユーザー情報を公開する可能性があり、プライバシーの懸念が高まる可能性が示された。
Robot vacuum cleaners have become increasingly popular and are widely used in various smart environments. To improve user convenience, manufacturers also introduced smartphone applications that enable users to customize cleaning settings or access information about their robot vacuum cleaners. While this integration enhances the interaction between users and their robot vacuum cleaners, it results in potential privacy concerns because users' personal information may be exposed. To address these concerns, end-to-end encryption is implemented between the application, cloud service, and robot vacuum cleaners to secure the exchanged information. Nevertheless, network header metadata remains unencrypted and it is still vulnerable to network eavesdropping. In this paper, we investigate the potential risk of private information exposure through such metadata. A popular robot vacuum cleaner was deployed in a real smart environment where passive network eavesdropping was conducted during several selected cleaning events. Our extensive analysis, based on Association Rule Learning, demonstrates that it is feasible to identify certain events using only the captured Internet traffic metadata, thereby potentially exposing private user information and raising privacy concerns. | 翻訳日:2024-07-29 14:49:32 公開日:2024-07-26 |
# 組合せ辞書学習モデルと推論
A Model for Combinatorial Dictionary Learning and Inference ( http://arxiv.org/abs/2407.18436v1 ) ライセンス: Link先を確認 | Avrim Blum, Kavya Ravichandran, | (参考訳) 私たちはしばしば、複雑な構造化データをデータを説明する単純なコンポーネントに分解することに興味を持っています。
この問題の線形版は辞書学習と因子分析としてよく研究されている。
本研究は,物体同士がシーン内を遮蔽して画像を形成する方法によって動機づけられた,この問題を研究するための組合せモデルを提案する。
まず、低次元成分の集合の「 well-structuredness」と呼ばれる性質を同定し、集合内の2つの成分があまり類似しないことを保証する。
サンプルインスタンスの集合からなる潜伏成分の集合を学習するのに十分な構造性を示す。
コンポーネントのセットとそれらの未知のサブセットから生成されたインスタンスが与えられた場合、どのコンポーネントからそのインスタンスのどの部分が発生するかが特定されます。
1) インスタンスを説明するのに必要な最小のコンポーネント数を決定する; (2) 可能な限り多くの場所について正しい説明を決定する。
後者の目的のために、敵の腐敗に対して堅牢なバージョンも考案しました。
最後に,任意の仮定が存在しない場合,学習問題は計算的に不可能であることを示す。
We are often interested in decomposing complex, structured data into simple components that explain the data. The linear version of this problem is well-studied as dictionary learning and factor analysis. In this work, we propose a combinatorial model in which to study this question, motivated by the way objects occlude each other in a scene to form an image. First, we identify a property we call "well-structuredness" of a set of low-dimensional components which ensures that no two components in the set are too similar. We show how well-structuredness is sufficient for learning the set of latent components comprising a set of sample instances. We then consider the problem: given a set of components and an instance generated from some unknown subset of them, identify which parts of the instance arise from which components. We consider two variants: (1) determine the minimal number of components required to explain the instance; (2) determine the correct explanation for as many locations as possible. For the latter goal, we also devise a version that is robust to adversarial corruptions, with just a slightly stronger assumption on the components. Finally, we show that the learning problem is computationally infeasible in the absence of any assumptions. | 翻訳日:2024-07-29 14:49:32 公開日:2024-07-26 |
# ビジョン変換器の混合非線形量子化
Mixed Non-linear Quantization for Vision Transformers ( http://arxiv.org/abs/2407.18437v1 ) ライセンス: Link先を確認 | Gihwan Kim, Jemin Lee, Sihyeong Park, Yongin Kwon, Hyungshin Kim, | (参考訳) 量子化法の大部分はビジョントランスフォーマーのモデルサイズを減らすために提案されているが、その多くは非線形演算の量子化を見逃している。
非線形演算に対する量子化に対処した研究はごくわずかであるが、彼らはすべての非線形演算に対して単一の量子化法を適用した。
非線形演算毎に異なる量子化法を用いることにより、これをさらに改善できると考えている。
そこで本研究では,SQNR差分法による層次量子化感度を考慮に入れた混合非線形量子化法を提案する。
その結果,ViT,DeiT,Swinの各モデルに対して,平均0.6%,FQ-ViT,I-ViTが8ビット,DiT,Swinでは19.6%,I-ViTは8ビットでそれぞれ優れていた。
トレーニング時間が制限された場合,I-BERTとI-ViTをそれぞれ0.6%,20.8%で上回った。
コードをhttps://gitlab.com/ones-ai/mixed-non-linear-quantizationでリリースする予定です。
The majority of quantization methods have been proposed to reduce the model size of Vision Transformers, yet most of them have overlooked the quantization of non-linear operations. Only a few works have addressed quantization for non-linear operations, but they applied a single quantization method across all non-linear operations. We believe that this can be further improved by employing a different quantization method for each non-linear operation. Therefore, to assign the most error-minimizing quantization method from the known methods to each non-linear layer, we propose a mixed non-linear quantization that considers layer-wise quantization sensitivity measured by SQNR difference metric. The results show that our method outperforms I-BERT, FQ-ViT, and I-ViT in both 8-bit and 6-bit settings for ViT, DeiT, and Swin models by an average of 0.6%p and 19.6%p, respectively. Our method outperforms I-BERT and I-ViT by 0.6%p and 20.8%p, respectively, when training time is limited. We plan to release our code at https://gitlab.com/ones-ai/mixed-non-linear-quantization. | 翻訳日:2024-07-29 14:49:32 公開日:2024-07-26 |
# リアルタイム時系列異常検出における繰り返しニューラルネットワークとディープラーニングフレームワークの影響
Impact of Recurrent Neural Networks and Deep Learning Frameworks on Real-time Lightweight Time Series Anomaly Detection ( http://arxiv.org/abs/2407.18439v1 ) ライセンス: Link先を確認 | Ming-Chang Lee, Jia-Chun Lin, Sokratis Katsikas, | (参考訳) リアルタイムの軽量時系列異常検出は、サイバーセキュリティやその他の多くのドメインにおいてますます重要になっている。
予期せぬパターンの変化に適応し、異常を迅速に識別する能力は、迅速な応答と重要な意思決定を可能にする。
近年、このような異常検出アプローチがいくつか導入されているが、主に1種類のリカレントニューラルネットワーク(RNN)を使用し、1つのディープラーニングフレームワークで実装されている。
様々なディープラーニングフレームワークで利用可能な異なるタイプのRNNが、包括的な評価が欠如しているため、これらの異常検出手法の性能にどのように影響するかは明らかでない。
異常検出アプローチを実装するために、RNNの変種とディープラーニングフレームワークを任意に選択することは、その真のパフォーマンスを反映せず、ユーザを別のアプローチよりも好むように誤解させる可能性がある。
本稿では,一般的なディープラーニングフレームワークで利用可能な様々な種類のRNNが,リアルタイムの軽量時系列異常検出に与える影響について検討する。
我々は、最先端のいくつかのアプローチをレビューし、広く認識されている3つのディープラーニングフレームワークによってサポートされているよく知られたRNN変種を用いて、代表的な異常検出アプローチを実装した。
次に、実世界のオープンソース時系列データセットにまたがる各実装のパフォーマンスを分析するために、包括的な評価を行う。
評価結果は、リアルタイムで軽量な時系列異常検出のための適切なRNN変種とディープラーニングフレームワークを選択するための貴重なガイダンスを提供する。
Real-time lightweight time series anomaly detection has become increasingly crucial in cybersecurity and many other domains. Its ability to adapt to unforeseen pattern changes and swiftly identify anomalies enables prompt responses and critical decision-making. While several such anomaly detection approaches have been introduced in recent years, they primarily utilize a single type of recurrent neural networks (RNNs) and have been implemented in only one deep learning framework. It is unclear how the use of different types of RNNs available in various deep learning frameworks affects the performance of these anomaly detection approaches due to the absence of comprehensive evaluations. Arbitrarily choosing a RNN variant and a deep learning framework to implement an anomaly detection approach may not reflect its true performance and could potentially mislead users into favoring one approach over another. In this paper, we aim to study the influence of various types of RNNs available in popular deep learning frameworks on real-time lightweight time series anomaly detection. We reviewed several state-of-the-art approaches and implemented a representative anomaly detection approach using well-known RNN variants supported by three widely recognized deep learning frameworks. A comprehensive evaluation is then conducted to analyze the performance of each implementation across real-world, open-source time series datasets. The evaluation results provide valuable guidance for selecting the appropriate RNN variant and deep learning framework for real-time, lightweight time series anomaly detection. | 翻訳日:2024-07-29 14:49:32 公開日:2024-07-26 |
# 名前付きエンティティ認識のための特定ドメインにおけるガイダンスベースプロンプトデータ拡張
Guidance-Based Prompt Data Augmentation in Specialized Domains for Named Entity Recognition ( http://arxiv.org/abs/2407.18442v1 ) ライセンス: Link先を確認 | Hyeonseok Kang, Hyein Seo, Jeesu Jung, Sangkeun Jung, Du-Seong Chang, Riwoo Chung, | (参考訳) 多くの分野にまたがる豊富なデータセットが豊富であり、自然言語処理の進歩を促す一方で、専門的なデータ型を必要とする分野は、高品質なデータを見つけるという課題に苦慮し続けている。
本研究では,文脈と文構造を抽象化し,文脈と親密性の関係を保ちながら様々な文を生成する新しいガイダンスデータ拡張手法を提案する。
文脈, 文構造, 実体の役割の密接な関係を育むことにより, 本手法はデータ拡張の有効性を高める。
これにより、エンティティ関連語彙と全体文構造の両方に多様化を示すとともに、名前付きエンティティ認識タスクのトレーニング性能を同時に向上する。
While the abundance of rich and vast datasets across numerous fields has facilitated the advancement of natural language processing, sectors in need of specialized data types continue to struggle with the challenge of finding quality data. Our study introduces a novel guidance data augmentation technique utilizing abstracted context and sentence structures to produce varied sentences while maintaining context-entity relationships, addressing data scarcity challenges. By fostering a closer relationship between context, sentence structure, and role of entities, our method enhances data augmentation's effectiveness. Consequently, by showcasing diversification in both entity-related vocabulary and overall sentence structure, and simultaneously improving the training performance of named entity recognition task. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# HybridDepth: 焦点と単一画像からの深度を利用したモバイルAR用ロバスト深度融合
HybridDepth: Robust Depth Fusion for Mobile AR by Leveraging Depth from Focus and Single-Image Priors ( http://arxiv.org/abs/2407.18443v1 ) ライセンス: Link先を確認 | Ashkan Ganj, Hang Su, Tian Guo, | (参考訳) 本研究では,移動体ARにおける深度推定の独特な課題に対処する頑健な深度推定パイプラインHYBRIDDEPTHを提案する。
HYBRIDDEPTHは、モバイルデバイスで利用可能なカメラ機能を活用する。
これは、DFF(Depth from Focus)法に固有のスケール精度と、強い単一画像深度で実現された一般化能力とを効果的に組み合わせている。
移動カメラの焦点面を利用して焦点画素の奥行き値を正確に把握し,これらの値を計算尺度に適用し,相対深度を距離深度に変換するパラメータをシフトする。
パイプラインをエンドツーエンドシステムとしてテストし、新たに開発されたモバイルクライアントを使用して焦点スタックをキャプチャし、深さ推定のためにGPU駆動のサーバに送信する。
総合的な定量的および定性的な分析を通して、HYBRIDDEPTHは、共通のデータセット(DDFF12, NYU Depth v2)と現実世界のARデータセットARKitScenesにおいて、最先端(SOTA)モデルを上回るだけでなく、強力なゼロショットの一般化を示す。
例えば、NYU Depth v2でトレーニングされたHYBRIDDEPTHは、DDFF12でトレーニングされた既存のモデルとDDFF12で同等のパフォーマンスを達成する。
また、ARKitScenesデータセットのゼロショットパフォーマンスにおいて、すべてのSOTAモデルよりも優れています。
さらに、我々のモデルとARCoreフレームワークの質的な比較を行い、構造的詳細および計量的精度の観点から、我々のモデル出力深度マップが著しく正確であることを示す。
プロジェクトのソースコードはgithubで公開されている。
We propose HYBRIDDEPTH, a robust depth estimation pipeline that addresses the unique challenges of depth estimation for mobile AR, such as scale ambiguity, hardware heterogeneity, and generalizability. HYBRIDDEPTH leverages the camera features available on mobile devices. It effectively combines the scale accuracy inherent in Depth from Focus (DFF) methods with the generalization capabilities enabled by strong single-image depth priors. By utilizing the focal planes of a mobile camera, our approach accurately captures depth values from focused pixels and applies these values to compute scale and shift parameters for transforming relative depths into metric depths. We test our pipeline as an end-to-end system, with a newly developed mobile client to capture focal stacks, which are then sent to a GPU-powered server for depth estimation. Through comprehensive quantitative and qualitative analyses, we demonstrate that HYBRIDDEPTH not only outperforms state-of-the-art (SOTA) models in common datasets (DDFF12, NYU Depth v2) and a real-world AR dataset ARKitScenes but also demonstrates strong zero-shot generalization. For example, HYBRIDDEPTH trained on NYU Depth v2 achieves comparable performance on the DDFF12 to existing models trained on DDFF12. it also outperforms all the SOTA models in zero-shot performance on the ARKitScenes dataset. Additionally, we conduct a qualitative comparison between our model and the ARCore framework, demonstrating that our models output depth maps are significantly more accurate in terms of structural details and metric accuracy. The source code of this project is available at github. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# Webアプリケーションアタック検出のための機能選択におけるセキュリティ専門家の知識の獲得
Capturing the security expert knowledge in feature selection for web application attack detection ( http://arxiv.org/abs/2407.18445v1 ) ライセンス: Link先を確認 | Amanda Riverol, Gustavo Betarte, Rodrigo Martínez, Álvaro Pardo, | (参考訳) 本稿では,Web攻撃を検出する機能の選択において,セキュリティ専門家の専門知識を再現するための相互情報値の利用を推奨する。
目標は、Webアプリケーションファイアウォール(WAF)の有効性を高めることです。
Webアプリケーションは、様々なセキュリティ脅威に対して脆弱であり、WAFがその保護に不可欠である。
WAFは、既知の攻撃パターンを特定し、潜在的に悪意のある要求を検出し、ブロックするためのルールベースのアプローチを使用して、HTTPトラフィックを分析する。
しかし、大きな課題は偽陽性の発生であり、正当なトラフィックをブロックし、アプリケーションの正常な機能に影響を与える可能性がある。
この問題は、機能選択のための教師付き学習と、ワンクラスSVMモデルのトレーニングのための半教師付き学習シナリオを組み合わせたアプローチとして対処される。
実験結果から,提案アルゴリズムによって選択された特徴で訓練されたモデルは,性能の観点から専門家による選択手法よりも優れていた。
さらに、OWASP CRSルールのバニラセットを備えた従来のルールベースのWAF ModSecurityによる結果も改善された。
This article puts forward the use of mutual information values to replicate the expertise of security professionals in selecting features for detecting web attacks. The goal is to enhance the effectiveness of web application firewalls (WAFs). Web applications are frequently vulnerable to various security threats, making WAFs essential for their protection. WAFs analyze HTTP traffic using rule-based approaches to identify known attack patterns and to detect and block potential malicious requests. However, a major challenge is the occurrence of false positives, which can lead to blocking legitimate traffic and impact the normal functioning of the application. The problem is addressed as an approach that combines supervised learning for feature selection with a semi-supervised learning scenario for training a One-Class SVM model. The experimental findings show that the model trained with features selected by the proposed algorithm outperformed the expert-based selection approach in terms of performance. Additionally, the results obtained by the traditional rule-based WAF ModSecurity, configured with a vanilla set of OWASP CRS rules, were also improved. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# 統一的知識蒸留による一般化可能な病理基盤モデルの構築に向けて
Towards A Generalizable Pathology Foundation Model via Unified Knowledge Distillation ( http://arxiv.org/abs/2407.18449v1 ) ライセンス: Link先を確認 | Jiabo Ma, Zhengrui Guo, Fengtao Zhou, Yihui Wang, Yingxue Xu, Yu Cai, Zhengjie Zhu, Cheng Jin, Yi Lin Xinrui Jiang, Anjia Han, Li Liang, Ronald Cheong Kin Chan, Jiguang Wang, Kwang-Ting Cheng, Hao Chen, | (参考訳) 大規模データセットで事前訓練された基礎モデルは、計算病理学(CPath)の分野に革命をもたらしている。
ファンデーションモデルの一般化能力は、様々な下流臨床タスクの成功に不可欠である。
しかし、現在の基礎モデルは限定型とタスク数でのみ評価されており、その一般化能力と全体的な性能は明らかになっていない。
このギャップに対処するために、我々は6つの異なる臨床タスクタイプにまたがる既成基礎モデルの性能を評価するために、39の特定のタスクを含む最も包括的なベンチマークを構築した。
以上の結果から,既存の基礎モデルは特定のタスクタイプに優れるが,臨床の幅広いタスクを効果的に扱うのに苦慮していることが明らかとなった。
病理基盤モデルの一般化を改善するため, 専門知識蒸留と自己知識蒸留の両方からなる統合知識蒸留フレームワークを提案し, 後者では, 複数の専門家モデルの知識からモデルを学習し, 後者では自己蒸留を活用して局所的グローバルアライメントによる画像表現学習を実現する。
このフレームワークに基づいて、GPFM(Generalizable Pathology Foundation Model)は、34の組織タイプにわたる約86,000の公開H&Eスライドから1億9000万の画像からなる大規模なデータセットで事前訓練される。
GPFMは、確立されたベンチマークに基づいて、29のタスクが1位、29のタスクが1位、平均2.96のモデルが4つのタスクのみが1位となっている。
GPFMのより優れた一般化は、CPathにおける特徴表現のための新しい基盤として位置づけられ、その異常なモデリング能力を幅広い臨床タスクにわたって示している。
Foundation models pretrained on large-scale datasets are revolutionizing the field of computational pathology (CPath). The generalization ability of foundation models is crucial for the success in various downstream clinical tasks. However, current foundation models have only been evaluated on a limited type and number of tasks, leaving their generalization ability and overall performance unclear. To address this gap, we established a most comprehensive benchmark to evaluate the performance of off-the-shelf foundation models across six distinct clinical task types, encompassing a total of 39 specific tasks. Our findings reveal that existing foundation models excel at certain task types but struggle to effectively handle the full breadth of clinical tasks. To improve the generalization of pathology foundation models, we propose a unified knowledge distillation framework consisting of both expert and self knowledge distillation, where the former allows the model to learn from the knowledge of multiple expert models, while the latter leverages self-distillation to enable image representation learning via local-global alignment. Based on this framework, a Generalizable Pathology Foundation Model (GPFM) is pretrained on a large-scale dataset consisting of 190 million images from around 86,000 public H\&E whole slides across 34 major tissue types. Evaluated on the established benchmark, GPFM achieves an impressive average rank of 1.36, with 29 tasks ranked 1st, while the the second-best model, UNI, attains an average rank of 2.96, with only 4 tasks ranked 1st. The superior generalization of GPFM demonstrates its exceptional modeling capabilities across a wide range of clinical tasks, positioning it as a new cornerstone for feature representation in CPath. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# 繊維異常検出:カーペットの品質自動検査における現状の評価
Textile Anomaly Detection: Evaluation of the State-of-the-Art for Automated Quality Inspection of Carpet ( http://arxiv.org/abs/2407.18450v1 ) ライセンス: Link先を確認 | Briony Forsberg, Dr Henry Williams, Prof Bruce MacDonald, Tracy Chen, Dr Kirstine Hulse, | (参考訳) 本研究では,羊毛の自動検査を目的として,最先端の教師なし検出モデルの評価を行った。
4種類の独特のカーペットテクスチャのカスタムデータセットが作成され、複雑なテクスチャの微妙な異常を検出するためのモデルとその堅牢性を徹底的にテストした。
製造現場におけるインライン検査システムの要件により, 異常領域の検出精度, 誤検出回数, 実時間における各モデルの推測時間について検討した。
評価モデルのうち, 学生と教師のネットワークに基づく手法は, 検出精度が最も高く, 誤検出率も低かった。
マルチクラスのデータセットでトレーニングすると、モデルはシングルクラスのトレーニングに比較して、結果に匹敵する結果が得られた。
最後に、検出速度の面では、生成モデルを除いて、他のすべての評価されたモデルは、GPU上で同等の推論時間を持ち、画像当たり平均0.16秒であることがわかった。
CPUでは、ほとんどのモデルが、それぞれのGPU推論時間の1.5倍から2倍の結果を生み出している。
In this study, state-of-the-art unsupervised detection models were evaluated for the purpose of automated anomaly inspection of wool carpets. A custom dataset of four unique types of carpet textures was created to thoroughly test the models and their robustness in detecting subtle anomalies in complex textures. Due to the requirements of an inline inspection system in a manufacturing use case, the metrics of importance in this study were accuracy in detecting anomalous areas, the number of false detections, and the inference times of each model for real-time performance. Of the evaluated models, the student-teacher network based methods were found on average to yield the highest detection accuracy and lowest false detection rates. When trained on a multi-class dataset the models were found to yield comparable if not better results than single-class training. Finally, in terms of detection speed, with exception to the generative model, all other evaluated models were found to have comparable inference times on a GPU, with an average of 0.16s per image. On a CPU, most of these models typically produced results between 1.5 to 2 times the respective GPU inference times. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# 言語モデルにおける公正定義の解説
Fairness Definitions in Language Models Explained ( http://arxiv.org/abs/2407.18454v1 ) ライセンス: Link先を確認 | Thang Viet Doan, Zhibo Chu, Zichong Wang, Wenbin Zhang, | (参考訳) 言語モデル (LM) は様々な自然言語処理 (NLP) タスクにおいて例外的な性能を示した。
これらの進歩にもかかわらず、LMは、性別や人種などのセンシティブな属性に関連する社会的バイアスを継承し、増幅し、現実のアプリケーションでの採用を制限することができる。
したがって、フェアネスはLMで広く研究されており、様々なフェアネスの概念が提案されている。
しかし、特定の文脈においてフェアネス定義を適用するための明確な合意の欠如 (\textit{e g ,} 中規模のLMと大規模LM) と、これらの定義の区別を理解する複雑さは混乱を招き、さらなる進歩を妨げる。
この目的のために,本論文では,LM に適用するフェアネスの定義を明確にする体系的な調査を提案する。
具体的には,LMの公平性と公平性に関する簡単な紹介と,LMの既存の公正性概念の包括的かつ最新の概要,およびこれらの概念を基本原則と運用上の区別に基づいて分類する新しい分類法の導入から始める。
さらに、実験を通して各定義を説明し、その実践的意味と成果を示す。
最後に,現在の研究課題とオープンな課題について論じ,革新的なアイデアを育成し,分野を前進させることを目的としている。
実装と追加のリソースはhttps://github.com/LavinWong/Fairness-in-Large-Language-Models/tree/main/definitionsで公開されている。
Language Models (LMs) have demonstrated exceptional performance across various Natural Language Processing (NLP) tasks. Despite these advancements, LMs can inherit and amplify societal biases related to sensitive attributes such as gender and race, limiting their adoption in real-world applications. Therefore, fairness has been extensively explored in LMs, leading to the proposal of various fairness notions. However, the lack of clear agreement on which fairness definition to apply in specific contexts (\textit{e.g.,} medium-sized LMs versus large-sized LMs) and the complexity of understanding the distinctions between these definitions can create confusion and impede further progress. To this end, this paper proposes a systematic survey that clarifies the definitions of fairness as they apply to LMs. Specifically, we begin with a brief introduction to LMs and fairness in LMs, followed by a comprehensive, up-to-date overview of existing fairness notions in LMs and the introduction of a novel taxonomy that categorizes these concepts based on their foundational principles and operational distinctions. We further illustrate each definition through experiments, showcasing their practical implications and outcomes. Finally, we discuss current research challenges and open questions, aiming to foster innovative ideas and advance the field. The implementation and additional resources are publicly available at https://github.com/LavinWong/Fairness-in-Large-Language-Models/tree/main/definitions. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# スペックル条件拡散モデルを用いたレンズレスファイバー内視鏡位相イメージング
Lensless fiber endomicroscopic phase imaging with speckle-conditioned diffusion model ( http://arxiv.org/abs/2407.18456v1 ) ライセンス: Link先を確認 | Zhaoqing Chen, Jiawei Sun, Xinyi Ye, Bin Zhao, Xuelong Li, | (参考訳) レンズレスファイバー内視鏡は生体内イメージングのための新しいツールであり、定量的位相イメージング(QPI)をラベル無しで画像コントラストを高める方法として利用することができる。
しかし、レンズレスファイバー内視鏡による既存の単発位相再構成法は、単純な画像ではよく機能するが、複雑な顕微鏡構造には耐え難い。
本稿では,マルチコアファイバ(MCF)の検出側で取得したスペックルから直接位相像を再構成するスペックル条件拡散モデル(SpecDiffusion)を提案する。
従来のニューラルネットワークとは異なり、SpecDiffusionはスペックル駆動の位相再構成に反復的な位相分解ステップを採用している。
イテレーション方式により、SpecDiffusionはフェーズ再構築プロセスを複数のステップに分割し、最終フェーズイメージまで徐々に構築することができる。
この属性は、各ステップでの計算課題を緩和し、複雑な顕微鏡画像におけるリッチディテールの再構築を可能にする。
有効性を検証するため,MCFからスペックルを捕捉し,10万枚のペア画像からなるデータセットを構築する光学システムを構築した。
SpecDiffusionは、高忠実度位相再構成結果を提供し、テストチャートや生体組織などの見えない物体に対して強力な一般化能力を示し、再構成された組織画像の平均絶対誤差を7倍に削減する。
さらに、SpecDiffusionを用いて再構成した組織画像は、従来の方法と比較してゼロショット細胞分割作業において高い精度を示し、学習ベースのレンズレスファイバー内視鏡による細胞形態解析の可能性を示した。
SpecDiffusionは、MCFを含む散乱媒体による位相再構成の正確で一般化された方法を提供し、レンズレスファイバ顕微鏡画像の新しい視点を開く。
Lensless fiber endomicroscope is an emerging tool for in-vivo microscopic imaging, where quantitative phase imaging (QPI) can be utilized as a label-free method to enhance image contrast. However, existing single-shot phase reconstruction methods through lensless fiber endomicroscope typically perform well on simple images but struggle with complex microscopic structures. Here, we propose a speckle-conditioned diffusion model (SpecDiffusion), which reconstructs phase images directly from speckles captured at the detection side of a multi-core fiber (MCF). Unlike conventional neural networks, SpecDiffusion employs iterative phase denoising steps for speckle-driven phase reconstruction. The iteration scheme allows SpecDiffusion to break down the phase reconstruction process into multiple steps, gradually building up to the final phase image. This attribute alleviates the computation challenge at each step and enables the reconstruction of rich details in complex microscopic images. To validate its efficacy, we build an optical system to capture speckles from MCF and construct a dataset consisting of 100,000 paired images. SpecDiffusion provides high-fidelity phase reconstruction results and shows powerful generalization capacity for unseen objects, such as test charts and biological tissues, reducing the average mean absolute error of the reconstructed tissue images by 7 times. Furthermore, the reconstructed tissue images using SpecDiffusion shows higher accuracy in zero-shot cell segmentation tasks compared to the conventional method, demonstrating the potential for further cell morphology analysis through the learning-based lensless fiber endomicroscope. SpecDiffusion offers a precise and generalized method to phase reconstruction through scattering media, including MCFs, opening new perspective in lensless fiber endomicroscopic imaging. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# プロトタイプに基づく適応による未確認話者の対話音声認識の強化
Enhancing Dysarthric Speech Recognition for Unseen Speakers via Prototype-Based Adaptation ( http://arxiv.org/abs/2407.18461v1 ) ライセンス: Link先を確認 | Shiyao Wang, Shiwan Zhao, Jiaming Zhou, Aobo Kong, Yong Qin, | (参考訳) Dysarthric Speech Recognition (DSR) は, 話者間変動による難易度の高い課題を呈し, DSRモデルを新しい義歯話者に適用する際の性能低下を招いた。
従来の話者適応手法は、通常、各話者の微調整モデルを含むが、この戦略はコストを抑え、障害者にとって不便であり、かなりのデータ収集を必要とする。
この問題に対処するため, 難聴者に対して, 追加の微調整を伴わずに, DSR性能を著しく向上するプロトタイプベースのアプローチを提案する。
提案手法では,HuBERTで訓練した特徴抽出器を用いて,従来見られなかった話者の特徴をカプセル化した単語単位のプロトタイプを生成する。
これらのプロトタイプは分類の基礎となる。
さらに,教師付きコントラスト学習を取り入れ,特徴抽出を洗練させる。
表現品質を向上させることにより、DSRの性能をさらに向上し、効果的にパーソナライズされたDSRを実現する。
コードをhttps://github.com/NKU-HLT/PB-DSRでリリースします。
Dysarthric speech recognition (DSR) presents a formidable challenge due to inherent inter-speaker variability, leading to severe performance degradation when applying DSR models to new dysarthric speakers. Traditional speaker adaptation methodologies typically involve fine-tuning models for each speaker, but this strategy is cost-prohibitive and inconvenient for disabled users, requiring substantial data collection. To address this issue, we introduce a prototype-based approach that markedly improves DSR performance for unseen dysarthric speakers without additional fine-tuning. Our method employs a feature extractor trained with HuBERT to produce per-word prototypes that encapsulate the characteristics of previously unseen speakers. These prototypes serve as the basis for classification. Additionally, we incorporate supervised contrastive learning to refine feature extraction. By enhancing representation quality, we further improve DSR performance, enabling effective personalized DSR. We release our code at https://github.com/NKU-HLT/PB-DSR. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# MistralBSM:Vehicular Networks Misbehavior DetectionのためのMistral-7Bの活用
MistralBSM: Leveraging Mistral-7B for Vehicular Networks Misbehavior Detection ( http://arxiv.org/abs/2407.18462v1 ) ライセンス: Link先を確認 | Wissal Hamhoum, Soumaya Cherkaoui, | (参考訳) 車両ネットワークは、悪意のある攻撃による様々な脅威にさらされている。
これらの脅威は、道路利用者間の通信のセキュリティと信頼性を損なうため、道路と交通の安全を危うくする。
これらの攻撃の主な原因の1つは、車両の誤動作である。
この課題に対処するために、エッジクラウド検出フレームワーク内に、LLM(Large Language Model)を組み込んだMisbehavior Detection System(MDS)をデプロイすることを提案する。
具体的には、リアルタイム検出を可能にするエッジコンポーネントとして最先端のLLMであるMistral-7Bを微調整する一方、クラウドに展開されるより大きなLLMはより包括的な分析を行うことができる。
拡張VeReMiデータセットを用いて行った実験は、Mistral-7Bの優れた性能を示し、LLAMA2-7BやRoBERTaなどの他のLLMと比較して98倍の精度を実現した。
さらに,ウィンドウサイズが計算コストに与える影響について検討し,展開効率を最適化する。
MDSにおけるLCMの活用は、車両の誤動作の検出を改善し、車載ネットワークのセキュリティを強化し、道路利用者の安全を確保する上で興味深い結果をもたらす。
Vehicular networks are exposed to various threats resulting from malicious attacks. These threats compromise the security and reliability of communications among road users, thereby jeopardizing road and traffic safety. One of the main vectors of these attacks within vehicular networks is misbehaving vehicles. To address this challenge, we propose deploying a pretrained Large Language Model (LLM)-empowered Misbehavior Detection System (MDS) within an edge-cloud detection framework. Specifically, we fine-tune Mistral-7B, a state-of-the-art LLM, as the edge component to enable real-time detection, whereas a larger LLM deployed in the cloud can conduct a more comprehensive analysis. Our experiments conducted on the extended VeReMi dataset demonstrate Mistral-7B's superior performance, achieving 98\% accuracy compared to other LLMs such as LLAMA2-7B and RoBERTa. Additionally, we investigate the impact of window size on computational costs to optimize deployment efficiency. Leveraging LLMs in MDS shows interesting results in improving the detection of vehicle misbehavior, consequently strengthening vehicular network security to ensure the safety of road users. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# ランダムな計測による絡み合いの目撃者保護
Protecting entanglement witnesses with randomized measurements ( http://arxiv.org/abs/2407.18463v1 ) ライセンス: Link先を確認 | Jing-Tao Qiu, Wei-Jie Jiang, Xiao-Dong Yu, | (参考訳) 絡み合いは量子力学の最も顕著な特徴の1つであり、量子情報科学において重要な資源となっている。
したがって、量子情報処理タスクには絡み合いの認定が不可欠である。
絡み合いの目撃者は、実験で最も頻繁に使用されるエンタングルメント認証の方法であるが、最近の研究では、測定の小さな誤りでさえ、目撃者の有効性を著しく損なう可能性があることが示されている。
本研究では,この問題を解決するためにランダム化計測に基づく手法を提案する。
これにより、測定結果の誤差を大幅に抑制し、絡み合い証人の認証能力を回復することができる。
本手法は,多次元の絡み合いや高次元の絡み合いなど,一般的な種類の目撃者にも適用可能であるだけでなく,元の測定設定にわずかな修正しか必要としないという意味で,実験的に親しみやすい。
Entanglement is one of the most prominent features of quantum mechanics and serves as an essential resource in quantum information science. Therefore, the certification of entanglement is crucial for quantum information processing tasks. While entanglement witnesses are the most frequently used method for entanglement certification in experiments, recent research shows that even tiny errors in measurements may significantly undermine the effectiveness of a witness. In this work, we propose a randomized-measurement-based method to solve this problem. Through this method, the errors in measurement results can be substantially suppressed, thereby restoring the certification capability of entanglement witnesses. Our method is not only applicable to general types of witnesses, including multi-party entanglement and high-dimensional entanglement witnesses, but also experimentally friendly in the sense that only slight modifications are needed to the original measurement settings. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# アルツハイマー病サブタイプ診断のための多モード分類フレームワークの進歩的一様性
A Progressive Single-Modality to Multi-Modality Classification Framework for Alzheimer's Disease Sub-type Diagnosis ( http://arxiv.org/abs/2407.18466v1 ) ライセンス: Link先を確認 | Yuxiao Liu, Mianxin Liu, Yuanwang Zhang, Kaicong Sun, Dinggang Shen, | (参考訳) アルツハイマー病(AD)の現在の診断枠組みは、複数の診断段階から取得した複数のモダリティをそれぞれ異なる使用法とコストで含む。
従来のAD診断研究は主に、エンドツーエンドのワンステージ診断のために複数のモダリティを直接融合する方法に重点を置いている。
さらに, 臨床ガイドラインを考慮せずにADを診断し, 正確なサブタイプ診断はできない。
本稿では,複数モード間の相互相関を探索し,全ての段階のモダリティではなく,早期の低コスト段階におけるアクセシビリティに基づく診断結果の提供を目的とした,新しいADサブタイプ診断フレームワークを提案する。
まず第一に デザインは
1)初期で収集した表データの処理を改善するためのテキスト・ディアンタングメント・ネットワーク
2)マルチモーダル特徴を別々に融合するモダリティ融合モジュール。
第2に,早期の低コスト段階において得られたモダリティと,後期のコスト削減のために,実際のモダリティ獲得を伴わずに正確な診断を行うため,早期の低コスト段階において得られたモダリティと,後期の高コスト段階における特徴を整合させる。
さらに,サブタイプ診断を行うために,各段階で特徴を整列させるための臨床ガイドラインに従う。
第3に、診断コストと診断性能のバランスをとるために、段階的分類器を段階的に追加的に取得したモダリティ(必要であれば)を含めることができる。
提案手法は,多種多様なパブリックデータセットと家庭内データセット(計8280件)で評価し,最先端手法よりも優れた性能を実現する。
私たちのコードは受理後に解放されます。
The current clinical diagnosis framework of Alzheimer's disease (AD) involves multiple modalities acquired from multiple diagnosis stages, each with distinct usage and cost. Previous AD diagnosis research has predominantly focused on how to directly fuse multiple modalities for an end-to-end one-stage diagnosis, which practically requires a high cost in data acquisition. Moreover, a significant part of these methods diagnose AD without considering clinical guideline and cannot offer accurate sub-type diagnosis. In this paper, by exploring inter-correlation among multiple modalities, we propose a novel progressive AD sub-type diagnosis framework, aiming to give diagnosis results based on easier-to-access modalities in earlier low-cost stages, instead of modalities from all stages. Specifically, first, we design 1) a text disentanglement network for better processing tabular data collected in the initial stage, and 2) a modality fusion module for fusing multi-modality features separately. Second, we align features from modalities acquired in earlier low-cost stage(s) with later high-cost stage(s) to give accurate diagnosis without actual modality acquisition in later-stage(s) for saving cost. Furthermore, we follow the clinical guideline to align features at each stage for achieving sub-type diagnosis. Third, we leverage a progressive classifier that can progressively include additional acquired modalities (if needed) for diagnosis, to achieve the balance between diagnosis cost and diagnosis performance. We evaluate our proposed framework on large diverse public and in-home datasets (8280 in total) and achieve superior performance over state-of-the-art methods. Our codes will be released after the acceptance. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# マルチGANモデルを用いた機械学習
Machine Unlearning using a Multi-GAN based Model ( http://arxiv.org/abs/2407.18467v1 ) ライセンス: Link先を確認 | Amartya Hatua, Trung T. Nguyen, Andrew H. Sung, | (参考訳) 本稿では,GAN(Generative Adversarial Network)をベースとした新しい機械学習手法を提案する。
提案手法は2つのフェーズから構成される。
一 忘れデータセットの逆クラスラベルでGANモデルを用いた合成データを導入したデータ再構成及び
二 事前訓練された模型を微調整すること。
GANモデルは2組のジェネレータと識別器で構成されている。
ジェネレータ判別器ペアは、保持および忘れたデータセットのための合成データを生成する。
次に、事前訓練されたモデルを使用して、合成データセットのクラスラベルを取得する。
合成データセットとオリジナルデータセットのクラスラベルは反転する。
最後に、すべての組み合わせデータセットを使用して、トレーニング済みのモデルを微調整して、未学習のモデルを取得する。
CIFAR-10データセット上で実験を行い、MIA(Commanship Inference Attacks)を用いて未学習モデルの試験を行った。
逆クラスラベルプロシージャと合成されたデータは、モデルが最先端のモデルやその他の標準の未学習分類器を上回り得る貴重な情報を取得するのに役立ちます。
This article presents a new machine unlearning approach that utilizes multiple Generative Adversarial Network (GAN) based models. The proposed method comprises two phases: i) data reorganization in which synthetic data using the GAN model is introduced with inverted class labels of the forget datasets, and ii) fine-tuning the pre-trained model. The GAN models consist of two pairs of generators and discriminators. The generator discriminator pairs generate synthetic data for the retain and forget datasets. Then, a pre-trained model is utilized to get the class labels of the synthetic datasets. The class labels of synthetic and original forget datasets are inverted. Finally, all combined datasets are used to fine-tune the pre-trained model to get the unlearned model. We have performed the experiments on the CIFAR-10 dataset and tested the unlearned models using Membership Inference Attacks (MIA). The inverted class labels procedure and synthetically generated data help to acquire valuable information that enables the model to outperform state-of-the-art models and other standard unlearning classifiers. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# 帯域制約付き生成モデルのための拡散駆動セマンティック通信
Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints ( http://arxiv.org/abs/2407.18468v1 ) ライセンス: Link先を確認 | Lei Guo, Wei Chen, Yuxuan Sun, Bo Ai, Nikolaos Pappas, Tony Quek, | (参考訳) 近年、拡散モデルはAIGC(AI-Generation Content)で広く利用されている。
セマンティックコミュニケーションと組み合わせて、拡散モデルは、妄想、データ再構成、コンテンツ生成といったタスクに使用される。
しかし、既存の拡散に基づく生成モデルは、無線通信における帯域幅制限を考慮しない。
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
我々の設計したアーキテクチャは拡散モデルを利用しており、無線チャネルを経由した信号伝達プロセスが拡散の前進過程として機能する。
帯域幅の要求を低減するため,受信側で再パラメータ化を行う可変オートエンコーダをベースとしたダウンサンプリングモジュールとペアアップサンプリングモジュールを組み込んで,回収した特徴がガウス分布に適合することを確かめる。
さらに,提案システムにおける損失関数を導出し,その性能を総合実験により評価する。
実験の結果,ピーク信号対雑音比 (PSNR) やLPIPS (Learning Perceptual Image patch similarity) のような意味的指標など,画素レベルの指標が大幅に改善された。
これらの拡張は、ディープジョイントソースチャネル符号化(DJSCC)と比較して、圧縮速度とSNRに深く関わっている。
Diffusion models have been extensively utilized in AI-generated content (AIGC) in recent years, thanks to the superior generation capabilities. Combining with semantic communications, diffusion models are used for tasks such as denoising, data reconstruction, and content generation. However, existing diffusion-based generative models do not consider the stringent bandwidth limitation, which limits its application in wireless communication. This paper introduces a diffusion-driven semantic communication framework with advanced VAE-based compression for bandwidth-constrained generative model. Our designed architecture utilizes the diffusion model, where the signal transmission process through the wireless channel acts as the forward process in diffusion. To reduce bandwidth requirements, we incorporate a downsampling module and a paired upsampling module based on a variational auto-encoder with reparameterization at the receiver to ensure that the recovered features conform to the Gaussian distribution. Furthermore, we derive the loss function for our proposed system and evaluate its performance through comprehensive experiments. Our experimental results demonstrate significant improvements in pixel-level metrics such as peak signal to noise ratio (PSNR) and semantic metrics like learned perceptual image patch similarity (LPIPS). These enhancements are more profound regarding the compression rates and SNR compared to deep joint source-channel coding (DJSCC). | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# CORD-19ワクチンデータセットの構築
Constructing the CORD-19 Vaccine Dataset ( http://arxiv.org/abs/2407.18471v1 ) ライセンス: Link先を確認 | Manisha Singh, Divy Sharma, Alonso Ma, Bridget Tyree, Margaret Mitchell, | (参考訳) 我々は、新型コロナウイルスに関する研究を専門とする科学者を対象に、新しいデータセット「CORD-19-Vaccination」を紹介した。
このデータセットは CORD-19 データセット [Wang et al , 2020] から抽出され,言語の詳細や著者のデモグラフィ,キーワード,論文毎のトピックなどの新たなコラムで拡張されている。
FacebookのfastTextモデルは、[Joulin et al , 2016]言語を識別するために使用される。
著者のデモグラフィ(著者のアフィリエイト、ラボ/機関位置、ラボ/機関のカントリーカラム)を確立するために、各論文のJSONファイルを処理し、さらにGoogleの検索APIを使用して国価を判定しました。
各論文の題名、要約、体からキーワードを抽出するために「やけ」を用い、トピック情報(Campos et al , 2020, 2018a, b)をLDAアルゴリズムで追加した。
このデータセットを評価するために, CORD-19 Kaggle Challenge [Goldbloom et al , 2022] で使用されているような質問応答タスクを実演する。
さらに評価するために,Dernoncourt et al [2016] のモデルを用いて,各論文の要約に逐次文分類を行った。
トレーニングデータセットの一部を手作業でアノテートし,事前トレーニングしたBERT-PubMedレイヤを使用した。
「CORD-19ワクチン接種」には30万件の研究論文が含まれており、テキストマイニング、情報抽出、質問応答など、新型コロナウイルスワクチン研究の領域に特有なNLP研究に非常に有用である。
We introduce new dataset 'CORD-19-Vaccination' to cater to scientists specifically looking into COVID-19 vaccine-related research. This dataset is extracted from CORD-19 dataset [Wang et al., 2020] and augmented with new columns for language detail, author demography, keywords, and topic per paper. Facebook's fastText model is used to identify languages [Joulin et al., 2016]. To establish author demography (author affiliation, lab/institution location, and lab/institution country columns) we processed the JSON file for each paper and then further enhanced using Google's search API to determine country values. 'Yake' was used to extract keywords from the title, abstract, and body of each paper and the LDA (Latent Dirichlet Allocation) algorithm was used to add topic information [Campos et al., 2020, 2018a,b]. To evaluate the dataset, we demonstrate a question-answering task like the one used in the CORD-19 Kaggle challenge [Goldbloom et al., 2022]. For further evaluation, sequential sentence classification was performed on each paper's abstract using the model from Dernoncourt et al. [2016]. We partially hand annotated the training dataset and used a pre-trained BERT-PubMed layer. 'CORD- 19-Vaccination' contains 30k research papers and can be immensely valuable for NLP research such as text mining, information extraction, and question answering, specific to the domain of COVID-19 vaccine research. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# FedUD: クロスプラットフォーム・フェデレーションによるクリックスルーレート予測のための非整合データ公開
FedUD: Exploiting Unaligned Data for Cross-Platform Federated Click-Through Rate Prediction ( http://arxiv.org/abs/2407.18472v1 ) ライセンス: Link先を確認 | Wentao Ouyang, Rui Dong, Ri Tao, Xiangzheng Liu, | (参考訳) クリックスルー率(CTR)予測は、オンライン広告プラットフォームにおいて重要な役割を果たす。
既存の手法のほとんどは、CTR予測に広告プラットフォーム自体のデータを使用する。
また,他のプラットフォーム,例えばメディアプラットフォームにもユーザ行動が存在するため,ユーザの興味をモデル化し,CTR予測性能を向上させるために,このような補完情報をさらに活用することは有益である。
しかし、プライバシー上の懸念から、異なるプラットフォームからのデータは集中型モデルトレーニングのためにサーバにアップロードすることはできない。
垂直連合学習(VFL)は、各参加者の生データを保存し、プライバシー保護の方法で協調モデルを学ぶことのできる、可能なソリューションを提供する。
しかし、従来のVFLメソッドは、パーティ間で共通のキーで整列したデータしか利用せず、アプリケーションの範囲を厳しく制限している。
本稿では、より正確なCTR予測のために、整合性のないデータに加えて、整合性のないデータを利用することができるFedUDを提案する。
FedUDには2つのステップがある。
最初のステップでは、FedUDは従来のVFLのようなパーティ間で整列データを利用するが、知識蒸留モジュールも含んでいる。
このモジュールは、ゲストパーティのハイレベルな表現から有用な知識を抽出し、表現伝達ネットワークの学習をガイドする。
2番目のステップでは、FedUDは学習知識を適用して、ホストの非整合データの表現を強化し、整合データと整合データの両方がフェデレートされたモデルトレーニングに寄与できるようにします。
2つの実世界のデータセットに対する実験は、フェデレーションCTR予測におけるFedUDの優れた性能を示す。
Click-through rate (CTR) prediction plays an important role in online advertising platforms. Most existing methods use data from the advertising platform itself for CTR prediction. As user behaviors also exist on many other platforms, e.g., media platforms, it is beneficial to further exploit such complementary information for better modeling user interest and for improving CTR prediction performance. However, due to privacy concerns, data from different platforms cannot be uploaded to a server for centralized model training. Vertical federated learning (VFL) provides a possible solution which is able to keep the raw data on respective participating parties and learn a collaborative model in a privacy-preserving way. However, traditional VFL methods only utilize aligned data with common keys across parties, which strongly restricts their application scope. In this paper, we propose FedUD, which is able to exploit unaligned data, in addition to aligned data, for more accurate federated CTR prediction. FedUD contains two steps. In the first step, FedUD utilizes aligned data across parties like traditional VFL, but it additionally includes a knowledge distillation module. This module distills useful knowledge from the guest party's high-level representations and guides the learning of a representation transfer network. In the second step, FedUD applies the learned knowledge to enrich the representations of the host party's unaligned data such that both aligned and unaligned data can contribute to federated model training. Experiments on two real-world datasets demonstrate the superior performance of FedUD for federated CTR prediction. | 翻訳日:2024-07-29 14:39:47 公開日:2024-07-26 |
# 2量子系における絡み合いの最適化
Optimizing entanglement in two-qubit systems ( http://arxiv.org/abs/2407.18474v1 ) ライセンス: Link先を確認 | Salvio Luna-Hernandez, Claudia Quintana, Oscar Rosas-Ortiz, | (参考訳) 基本パラメータの最小値に基づく幾何表現を用いた2量子系の絡み合いについて検討する。
状態はX字型であり、同一集団のホスト対であり、関連するコヒーレンスの数を減らす。
絡み合いの幾何学的L-測度は、絡み合い状態を表す点と分離状態を定義する最も近い点の間の距離として導入される。
我々の結果は、L が C と一致するため、ヒル・ウォッター収束 C に幾何学的な意味を与える。さらに、C とは異なり、測度 L は最大絡み合いを持つ状態のランクを区別する。
我々は、時間依存の2量子状態を構築し、純粋な四粒子系の相補成分をトレースし、その1量子状態が同じエントロピーを共有することを発見した。
絡み合いの測定結果は、そのようなエントロピーのミニマのエンベロープによって上から束縛される。
We investigate entanglement in two-qubit systems using a geometric representation based on the minimum of essential parameters. The states are X-shaped and host pairs of identical populations while reducing the number of coherences involved. A geometric L-measure of entanglement is introduced as the distance between the points that represent entangled states and the closest point that defines separable states. Our results give a geometric meaning to the Hill-Wootters concurrence C since L coincides with C. Furthermore, unlike C, the measure L distinguishes the rank of states with maximum entanglement. We construct a time-dependent two-qubit state, traced out over the complementary components of a pure tetra-partite system, and find that its one-qubit states share the same entropy. The entanglement measure results bounded from above by the envelope of the minima of such entropy. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# ファインマン経路積分に基づく量子光コヒーレンス理論
Quantum optical coherence theory based on Feynman's path integral ( http://arxiv.org/abs/2407.18478v1 ) ライセンス: Link先を確認 | Jianbin Liu, Yu Zhou, Hui Chen, Huaibin Zheng, Yuchen He, Fuli Li, Zhuo Xu, | (参考訳) 古典的および非古典的光の第一、第二、高次干渉は、Feynman\rq{} の経路積分に基づく量子光学的コヒーレンス理論で解釈される。
Maxwell\rq{} の電磁理論とGlauber\rq{} の量子光学コヒーレンス理論に基づく古典光学コヒーレンス理論と比較すると、Feynman\rq{} の経路積分に基づく量子光学コヒーレンス理論は、光学コヒーレンスを研究する新しいツールを提供し、物理学と数理計算の間の関係を理解する利点がある。
例えば、2つの独立した光の過渡的な1次干渉の結果から、多くの光学教科書で導入された熱光の電場モデルが正確でないと予測される。
熱光の2光子束と絡み合った光子対のHong-Ou-Mandelディップの物理は、それぞれ構成的および破壊的な2光子干渉によって解釈できる。
2つの独立した光線の2階干渉を詳しく紹介する。
Feynman\rq{}の経路積分に基づく量子光学コヒーレンス理論における光の干渉を解釈することは、光の物理を理解するのに役立つ。
The first, second and higher-order interference of classical and nonclassical light is interpreted in quantum optical coherence theory based on Feynman\rq{}s path integral. Compared to the existed classical optical coherence theory based on Maxwell\rq{}s electromagnetic theory and Glauber\rq{}s quantum optical coherence theory based on wave mechanics formulation of quantum mechanics, quantum optical coherence theory based on Feynman\rq{}s path integral provides a new tool to study optical coherence and has the advantage of understanding the connection between the physics and mathematical calculations. For instance, based on the results of transient first-order interference of two independent light beams, it is predicted that the well-accepted electric field model for thermal light introduced by many optical textbooks may not be accurate. The physics of two-photon bunching of thermal light and Hong-Ou-Mandel dip of entangled photon pairs is the same, which can be interpreted by constructive and destructive two-photon interference, respectively. The second-order interference of two independent light beams are introduced in detail. Interpreting the interference of light in quantum optical coherence theory based on Feynman\rq{}s path integral is helpful to understand the physics of light, and may eventually lead to the answer of the question puzzling us for a long time: what is photon? | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# 常識強化言語モデルを用いたマルチターン応答選択
Multi-turn Response Selection with Commonsense-enhanced Language Models ( http://arxiv.org/abs/2407.18479v1 ) ライセンス: Link先を確認 | Yuandong Wang, Xuhui Ren, Tong Chen, Yuxiao Dong, Nguyen Quoc Viet Hung, Jie Tang, | (参考訳) 高度な人工知能の分野として、対話システムは繁栄している。
マルチターン応答選択は対話システムにおける一般的な研究課題である。
背景情報と事前学習言語モデルの助けを借りて、この問題に対する最先端の手法の性能が著しく向上する。
しかし、既存の研究では、外部の常識知識の重要性は無視されている。
そこで我々は,事前学習された言語モデルとグラフニューラルネットワーク(SinLG)が融合する,シームズネットワークを設計する。
SinLGは、事前訓練された言語モデル(PLM)を利用して、文脈と応答候補における単語相関をキャッチし、グラフニューラルネットワーク(GNN)を使用して、外部知識グラフから有用な共通感覚を推論する。
GNNはPLMの微調整を支援することを目的としており、関連する記憶を刺激してパフォーマンスの向上を目指している。
具体的には、まず外部知識グラフから関連する概念をノードとして抽出し、各サンプルに対してコンテキスト応答対をスーパーノードとしてサブグラフを構築する。
次に、PLMとGNNの両方を通して、文脈応答対の2つの表現を学習する。
2つの表現間の類似性損失を利用して、共通センスの知識をGNNからPLMに転送する。
そして、PLMのみがオンラインでの推論に使われ、効率が保証される。
最後に, PERSONA-CHATデータセットの2つの変種について広範な実験を行い, 提案手法がPLMの性能を向上させるだけでなく, 効率的な推論も達成できることを証明した。
As a branch of advanced artificial intelligence, dialogue systems are prospering. Multi-turn response selection is a general research problem in dialogue systems. With the assistance of background information and pre-trained language models, the performance of state-of-the-art methods on this problem gains impressive improvement. However, existing studies neglect the importance of external commonsense knowledge. Hence, we design a Siamese network where a pre-trained Language model merges with a Graph neural network (SinLG). SinLG takes advantage of Pre-trained Language Models (PLMs) to catch the word correlations in the context and response candidates and utilizes a Graph Neural Network (GNN) to reason helpful common sense from an external knowledge graph. The GNN aims to assist the PLM in fine-tuning, and arousing its related memories to attain better performance. Specifically, we first extract related concepts as nodes from an external knowledge graph to construct a subgraph with the context response pair as a super node for each sample. Next, we learn two representations for the context response pair via both the PLM and GNN. A similarity loss between the two representations is utilized to transfer the commonsense knowledge from the GNN to the PLM. Then only the PLM is used to infer online so that efficiency can be guaranteed. Finally, we conduct extensive experiments on two variants of the PERSONA-CHAT dataset, which proves that our solution can not only improve the performance of the PLM but also achieve an efficient inference. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# スケーラブルグラフ圧縮コンボリューション
Scalable Graph Compressed Convolutions ( http://arxiv.org/abs/2407.18480v1 ) ライセンス: Link先を確認 | Junshu Sun, Chenxue Yang, Shuhui Wang, Qingming Huang, | (参考訳) メッセージパッシングによる効果的なグラフニューラルネットワーク(GNN)の設計には、最適なメッセージパッシング経路の決定と、局所的なアグリゲータの設計という、2つの根本的な課題がある。
従来の最適経路設計手法は入力特性の情報損失に制限される。
一方、既存の局所アグリゲータは、一般にマルチスケールの特徴を抽出できず、パラメータスケールの制限下では様々な演算子を近似する。
これらの方法とは対照的に、ユークリッドの畳み込みは表現的アグリゲータとして証明されており、GNN構築の完璧な候補となっている。
しかし、ユークリッドのグラフへの畳み込みを一般化するという課題は、グラフの不規則構造から生じる。
ユークリッド空間とグラフトポロジーのギャップを埋めるために、ユークリッド畳み込みのための入力グラフのキャリブレーションに置換を適用する微分可能な方法を提案する。
置換は入力順序に関係なく行内のすべてのノードを制約し、したがってユークリッドのグラフへの畳み込みの柔軟な一般化を可能にする。
グラフキャリブレーションに基づいて,階層型グラフ表現学習のための圧縮畳み込みネットワーク(CoCN)を提案する。
CoCNは畳み込みニューラルネットワークの局所的な特徴学習とグローバルなパラメータ共有メカニズムに従う。
モデル全体をエンドツーエンドにトレーニングし、個々のノードの特徴とそれに対応する構造の特徴を学習するために圧縮畳み込みを適用する。
CoCNは、残りの接続や開始機構を含むユークリッドの畳み込みから成功したプラクティスをさらに借りることができる。
ノードレベルのベンチマークとグラフレベルのベンチマークでCoCNを検証する。
CoCNは競合するGNNベースラインよりも優れたパフォーマンスを実現している。
コードはhttps://github.com/sunjss/CoCNで入手できる。
Designing effective graph neural networks (GNNs) with message passing has two fundamental challenges, i.e., determining optimal message-passing pathways and designing local aggregators. Previous methods of designing optimal pathways are limited with information loss on the input features. On the other hand, existing local aggregators generally fail to extract multi-scale features and approximate diverse operators under limited parameter scales. In contrast to these methods, Euclidean convolution has been proven as an expressive aggregator, making it a perfect candidate for GNN construction. However, the challenges of generalizing Euclidean convolution to graphs arise from the irregular structure of graphs. To bridge the gap between Euclidean space and graph topology, we propose a differentiable method that applies permutations to calibrate input graphs for Euclidean convolution. The permutations constrain all nodes in a row regardless of their input order and therefore enable the flexible generalization of Euclidean convolution to graphs. Based on the graph calibration, we propose the Compressed Convolution Network (CoCN) for hierarchical graph representation learning. CoCN follows local feature-learning and global parameter-sharing mechanisms of convolution neural networks. The whole model can be trained end-to-end, with compressed convolution applied to learn individual node features and their corresponding structure features. CoCN can further borrow successful practices from Euclidean convolution, including residual connection and inception mechanism. We validate CoCN on both node-level and graph-level benchmarks. CoCN achieves superior performance over competitive GNN baselines. Codes are available at https://github.com/sunjss/CoCN. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# 羅生門セットの実践的帰属指導
Practical Attribution Guidance for Rashomon Sets ( http://arxiv.org/abs/2407.18482v1 ) ライセンス: Link先を確認 | Sichao Li, Amanda S. Barnard, Quanling Deng, | (参考訳) 異なる予測モデルは、同じタスクで等しくうまく機能するが、データに関する矛盾する解釈と結論を提供する。
説明可能なAI(XAI)の文脈における羅生門効果は重要な要因として認識されている。
羅生門セットは様々な文脈で導入・研究されてきたが、その実践的応用は初期段階にあり、十分な指導や評価が欠如している。
本稿では,実践的観点からの羅生門集合サンプリングの問題点を考察し,実用上満足すべき方法を探究する一般化可能性と実装範囲の2つの基本公理を同定する。
これらの2つの公理は、最も知られている帰属法によって満たされない。
我々はこのノルムを用いて$\epsilon$-subgradient-based sampleメソッドの設計をガイドする。
本稿では,本手法を概念実証としての基本数学的問題に適用し,既存のサンプリング手法と比較して実用的データセットの集合に適用する。
Different prediction models might perform equally well (Rashomon set) in the same task, but offer conflicting interpretations and conclusions about the data. The Rashomon effect in the context of Explainable AI (XAI) has been recognized as a critical factor. Although the Rashomon set has been introduced and studied in various contexts, its practical application is at its infancy stage and lacks adequate guidance and evaluation. We study the problem of the Rashomon set sampling from a practical viewpoint and identify two fundamental axioms - generalizability and implementation sparsity that exploring methods ought to satisfy in practical usage. These two axioms are not satisfied by most known attribution methods, which we consider to be a fundamental weakness. We use the norms to guide the design of an $\epsilon$-subgradient-based sampling method. We apply this method to a fundamental mathematical problem as a proof of concept and to a set of practical datasets to demonstrate its ability compared with existing sampling methods. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# 立体差分に基づく眼科相談における役割特化指導型大言語モデル
A Role-specific Guided Large Language Model for Ophthalmic Consultation Based on Stylistic Differentiation ( http://arxiv.org/abs/2407.18483v1 ) ライセンス: Link先を確認 | Laiyi Fu, Binbin Fan, Hongkai Du, Yanxiang Feng, Chunhua Li, Huping Song, | (参考訳) 眼科相談は、眼疾患の診断、治療、予防に不可欠である。
しかし、コンサルテーションの需要は眼科医以上のものになっている。
事前訓練された大規模な言語モデルを活用することで、特定のシナリオに対する効果的な対話を設計し、相談を支援することができる。
従来の質問応答タスクの微調整戦略は、モデルのサイズが大きくなることと、コンサルテーション中に患者・医師の役割を無視することがしばしばあるため、現実的ではない。
本稿では,医師の役割認識をガイドした眼科医療問合せ大言語モデルであるEyeDoctorと,外部疾患情報を用いた知識ベースを提案する。
眼科相談においてEyeDoctorはより高い質問応答精度を達成できることを示す実験結果を得た。
特に、EyeDoctorは第2のベストモデルであるChatGPTと比較してルージュ-1スコアが7.25%改善し、F1スコアが10.16%改善した。
EyeDocは無料のWebベースサービスとしても機能し、souceコードはhttps://github.com/sperfu/EyeDoc.comで入手できる。
Ophthalmology consultations are crucial for diagnosing, treating, and preventing eye diseases. However, the growing demand for consultations exceeds the availability of ophthalmologists. By leveraging large pre-trained language models, we can design effective dialogues for specific scenarios, aiding in consultations. Traditional fine-tuning strategies for question-answering tasks are impractical due to increasing model size and often ignoring patient-doctor role function during consultations. In this paper, we propose EyeDoctor, an ophthalmic medical questioning large language model that enhances accuracy through doctor-patient role perception guided and an augmented knowledge base with external disease information. Experimental results show EyeDoctor achieves higher question-answering precision in ophthalmology consultations. Notably, EyeDoctor demonstrated a 7.25% improvement in Rouge-1 scores and a 10.16% improvement in F1 scores on multi-round datasets compared to second best model ChatGPT, highlighting the importance of doctor-patient role differentiation and dynamic knowledge base expansion for intelligent medical consultations. EyeDoc also serves as a free available web based service and souce code is available at https://github.com/sperfu/EyeDoc. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# キラル対称性を持たない非単位量子力学における非キラル非ブロッホ不変量と位相位相図
Non-chiral non-Bloch invariants and topological phase diagram in non-unitary quantum dynamics without chiral symmetry ( http://arxiv.org/abs/2407.18485v1 ) ライセンス: Link先を確認 | Yue Zhang, Shuai Li, Yingchao Xu, Rui Tian, Miao Zhang, Hongrong Li, Hong Gao, M. Suhail Zubairy, Fuli Li, Bo Liu, | (参考訳) 非ブロック位相は、開境界条件 (OBC) の下で非エルミート系において様々な反直観現象が出現し、エルミート系ではその逆は見つからない。
しかしながら、キラル対称性を持たない非エルミート系では、自然界においてユビキタスであり、その非ブロッホ位相を探索することは、これまで実験的な努力を欠いていた。
ここでは、非キラルな非ブロッホ不変量の概念を導入することにより、単光子の離散時間非ユニタリ量子ウォークにおいて、キラル対称性を持たない1次元(1次元)非エルミート系の非ブロッホ位相図を理論的に予測し、実験的に同定する。
興味深いことに、そのような位相不変量は位相的に異なるギャップ位相を区別するだけでなく、位相境界における開境界スペクトルにおける対応するギャップ閉包を忠実に捉えることができる。
歩行者の変位の高次モーメントの特徴的不連続性を測定することで,異なる位相領域を実験的に同定した。
我々の研究は、トポロジ、対称性、非ハーミティティー間の相互作用を研究する上で有用なプラットフォームを提供する。
The non-Bloch topology leads to the emergence of various counter-intuitive phenomena in non-Hermitian systems under the open boundary condition (OBC), which can not find a counterpart in Hermitian systems. However, in the non-Hermitian system without chiral symmetry, being ubiquitous in nature, exploring its non-Bloch topology has so far eluded experimental effort. Here by introducing the concept of non-chiral non-Bloch invariants, we theoretically predict and experimentally identify the non-Bloch topological phase diagram of a one-dimensional (1D) non-Hermitian system without chiral symmetry in discrete-time non-unitary quantum walks of single photons. Interestingly, we find that such topological invariants not only can distinguish topologically distinct gapped phases, but also faithfully capture the corresponding gap closing in open-boundary spectrum at the phase boundary. Different topological regions are experimentally identified by measuring the featured discontinuities of the higher moments of the walker's displacement, which amazingly match excellently with our defined non-Bloch invariants. Our work provides a useful platform to study the interplay among topology, symmetries and the non-Hermiticity. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# SMPISD-MTPNet:マルチタスク知覚ネットワークを用いたシーンセマンティック事前支援赤外線船舶検出
SMPISD-MTPNet: Scene Semantic Prior-Assisted Infrared Ship Detection Using Multi-Task Perception Networks ( http://arxiv.org/abs/2407.18487v1 ) ライセンス: Link先を確認 | Chen Hu, Xiaogang Dong, Yian Huang Lele Wang, Liang Xu, Tian Pu, Zhenming Peng, | (参考訳) 赤外線船舶検出(IRSD)は、近年、悪天候に対する赤外線画像の堅牢性により注目されている。
しかし、複雑な場面で大量の誤報が発生する可能性がある。
これらの課題に対処するために,シーン意味抽出,深い特徴抽出,予測の3段階を含むScene Semantic Prior-Assisted Multi-Task Perception Network (SMPISD-MTPNet)を提案する。
シーンセマンティック・エクストラクタ(SSE)を用いたシーンセマンティック・セマンティック・エクストラクタ(SSE)を用いて,専門家の知識に基づいて抽出した特徴によってネットワークを誘導する。
深い特徴抽出段階では、深い特徴を抽出するためにバックボーンネットワークが使用される。
これらの機能はその後、核融合ネットワークによって統合され、様々な大きさのターゲットに対する検出能力を向上する。
予測段階では、グラディエント・ベース・モジュールとシーン・セグメンテーション・モジュールを含むマルチタスク・パーセプション・モジュールを使用し、複雑なシーン内で小さなターゲットと暗いターゲットを正確に検出する。
トレーニングプロセスでは,データ拡張による歪みを抑制するためのソフトファインチューニングトレーニング戦略を導入する。
さらに、シーン用にラベル付けされた公開データセットがないため、IRSDSS(Infrared Ship Dataset with Scene Segmentation)を導入します。
最後に,SMPISD-MTPNetが既存手法よりも優れていることを示す。
この研究のソースコードとデータセットはhttps://github.com/greekinRoma/KMNDNetでアクセスできる。
Infrared ship detection (IRSD) has received increasing attention in recent years due to the robustness of infrared images to adverse weather. However, a large number of false alarms may occur in complex scenes. To address these challenges, we propose the Scene Semantic Prior-Assisted Multi-Task Perception Network (SMPISD-MTPNet), which includes three stages: scene semantic extraction, deep feature extraction, and prediction. In the scene semantic extraction stage, we employ a Scene Semantic Extractor (SSE) to guide the network by the features extracted based on expert knowledge. In the deep feature extraction stage, a backbone network is employed to extract deep features. These features are subsequently integrated by a fusion network, enhancing the detection capabilities across targets of varying sizes. In the prediction stage, we utilize the Multi-Task Perception Module, which includes the Gradient-based Module and the Scene Segmentation Module, enabling precise detection of small and dim targets within complex scenes. For the training process, we introduce the Soft Fine-tuning training strategy to suppress the distortion caused by data augmentation. Besides, due to the lack of a publicly available dataset labelled for scenes, we introduce the Infrared Ship Dataset with Scene Segmentation (IRSDSS). Finally, we evaluate the network and compare it with state-of-the-art (SOTA) methods, indicating that SMPISD-MTPNet outperforms existing approaches. The source code and dataset for this research can be accessed at https://github.com/greekinRoma/KMNDNet. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# 一般化線形モデルにおける会話デュエル帯域
Conversational Dueling Bandits in Generalized Linear Models ( http://arxiv.org/abs/2407.18488v1 ) ライセンス: Link先を確認 | Shuhua Yang, Hui Yuan, Xiaoying Zhang, Mengdi Wang, Hong Zhang, Huazheng Wang, | (参考訳) 会話レコメンデーションシステムは、ユーザと対話して、推奨商品に対するフィードバックを得ることによって、ユーザの嗜好を喚起する。
このようなシステムは、マルチアームのバンディット・フレームワークを用いて、ユーザの好みをオンラインで学習し、近年大きな成功を収めている。
しかし、既存の会話型帯域幅法にはいくつかの制限がある。
まず、推奨項目やカテゴリに対して明確なバイナリフィードバックを提供することしかできず、解釈の曖昧さにつながる。
実際には、ユーザーは通常複数の選択肢に直面する。
その情報性で知られる相対的なフィードバックは、レコメンデーションシステム設計において人気が高まっている。
さらに、現在の文脈帯域法は主に線形報酬仮定の下で機能し、一般化線形モデルにおける実用的な非線形報酬構造を無視している。
そこで本稿では,一般化線形モデル(GLM)におけるダウリング帯域幅の統合を通じて,相対的なフィードバックに基づく会話を会話レコメンデーションシステムに導入し,ConDuelと呼ばれる新しい会話ダウリング帯域幅アルゴリズムを提案する。
コンデュエルの有効性を裏付ける合成および実世界のデータに対する後悔の上界と実証的検証の理論解析
また,提案手法を理論的,実験的に保証したマルチノードロジット帯域に拡張する可能性を示し,提案手法の適用性をさらに証明する。
Conversational recommendation systems elicit user preferences by interacting with users to obtain their feedback on recommended commodities. Such systems utilize a multi-armed bandit framework to learn user preferences in an online manner and have received great success in recent years. However, existing conversational bandit methods have several limitations. First, they only enable users to provide explicit binary feedback on the recommended items or categories, leading to ambiguity in interpretation. In practice, users are usually faced with more than one choice. Relative feedback, known for its informativeness, has gained increasing popularity in recommendation system design. Moreover, current contextual bandit methods mainly work under linear reward assumptions, ignoring practical non-linear reward structures in generalized linear models. Therefore, in this paper, we introduce relative feedback-based conversations into conversational recommendation systems through the integration of dueling bandits in generalized linear models (GLM) and propose a novel conversational dueling bandit algorithm called ConDuel. Theoretical analyses of regret upper bounds and empirical validations on synthetic and real-world data underscore ConDuel's efficacy. We also demonstrate the potential to extend our algorithm to multinomial logit bandits with theoretical and experimental guarantees, which further proves the applicability of the proposed framework. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# ホモロジー製品コードによる高速で並列な論理計算
Fast and Parallelizable Logical Computation with Homological Product Codes ( http://arxiv.org/abs/2407.18490v1 ) ライセンス: Link先を確認 | Qian Xu, Hengyun Zhou, Guo Zheng, Dolev Bluvstein, J. Pablo Bonilla Ataides, Mikhail D. Lukin, Liang Jiang, | (参考訳) 大規模な量子計算を行うには量子エラー補正が必要であるが、空間と時間の両方において非常に大きなオーバーヘッドを必要とする。
高速量子低密度パリティチェック(qLDPC)符号は、量子ビット数を減少させるルートを約束するが、低空間コストを維持しながら計算を行うには、演算のシリアライズと余分な時間コストが必要である。
そこで本研究では,qLDPC符号の高速かつ並列化可能な論理ゲートを設計し,量子加算器などのアルゴリズム的サブルーチンの利点を実証する。
我々のゲートガジェットは、データqLDPCコードと好適に構築されたアンシラコードとの間を横断論理CNOTを用いて、データ論理量子ビット上でパラレルパウリ製品計測(PPM)を行う。
ハイパーグラフ製品コードでは,データコードの基本となる古典的符号を単純に修正し,論理量子ビットのサブグリッド上で並列なPPMを実現することで,アンシラを構築できることが示される。
3Dおよび4Dホモロジー積コードへの一般化はさらに高速なPPMを一定の深さで特徴付ける。
従来のqLDPCコードは個々の論理ゲートに重点を置いていたが、拡張されたネイティブなqLDPCコード操作によるフォールトトレラントコンパイルの研究を開始し、$k$-qubit GHZ状態を作成するアルゴリズムプリミティブを構築し、$k$のマジックステートを$O(1)$スペースオーバヘッドで$O(1)$と$O(\sqrt{k} \log k)$論理サイクルで構築した。
さらにこれをアルゴリズムのサブルーチンに一般化し、並列演算を用いた量子加算器の効率的な実装を実証する。
我々の構造は、中性原子配列のような再構成可能なアーキテクチャと自然に互換性があり、空間と時間オーバーヘッドの少ない大規模量子計算への道を開いた。
Quantum error correction is necessary to perform large-scale quantum computation, but requires extremely large overheads in both space and time. High-rate quantum low-density-parity-check (qLDPC) codes promise a route to reduce qubit numbers, but performing computation while maintaining low space cost has required serialization of operations and extra time costs. In this work, we design fast and parallelizable logical gates for qLDPC codes, and demonstrate their utility for key algorithmic subroutines such as the quantum adder. Our gate gadgets utilize transversal logical CNOTs between a data qLDPC code and a suitably constructed ancilla code to perform parallel Pauli product measurements (PPMs) on the data logical qubits. For hypergraph product codes, we show that the ancilla can be constructed by simply modifying the base classical codes of the data code, achieving parallel PPMs on a subgrid of the logical qubits with a lower space-time cost than existing schemes for an important class of circuits. Generalizations to 3D and 4D homological product codes further feature fast PPMs in constant depth. While prior work on qLDPC codes has focused on individual logical gates, we initiate the study of fault-tolerant compilation with our expanded set of native qLDPC code operations, constructing algorithmic primitives for preparing $k$-qubit GHZ states and distilling/teleporting $k$ magic states with $O(1)$ space overhead in $O(1)$ and $O(\sqrt{k} \log k)$ logical cycles, respectively. We further generalize this to key algorithmic subroutines, demonstrating the efficient implementation of quantum adders using parallel operations. Our constructions are naturally compatible with reconfigurable architectures such as neutral atom arrays, paving the way to large-scale quantum computation with low space and time overheads. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# うつ病患者の肯定的・否定的感情に対する神経調節変化:肯定的・否定的感情アトラスを用いたfMRIからの考察
Neural Modulation Alteration to Positive and Negative Emotions in Depressed Patients: Insights from fMRI Using Positive/Negative Emotion Atlas ( http://arxiv.org/abs/2407.18492v1 ) ライセンス: Link先を確認 | Yu Feng, Weiming Zeng, Yifan Xie, Hongyu Chen, Lei Wang, Yingying Wang, Hongjie Yan, Kaile Zhang, Ran Tao, Wai Ting Siok, Nizhuan Wang, | (参考訳) 背景: うつ病患者では処理感情の違いが指摘されているが, 正と負の感情の正確な神経調節機構はいまだ解明されていない。
FMRIは、高空間分解能と動的時間的情報で有名な最先端の医療画像技術であり、うつ病研究の神経力学に特に適している。
方法:本研究は,まずfMRIを用いて,健常者における肯定的および否定的感情に関連する活動領域を抽出し,正の感情アトラス(PEA)と負の感情アトラス(NEA)を創出した。
その後, うつ病患者の神経画像変化をこれらのアトラスを用いて検討し, 機械学習による診断性能の評価を行った。
結果: PEA, NEAによる抑うつ患者の分類精度は0。
さらに, ALFF分析では, NEA中の8つの機能的クラスターにおいて, うつ病患者と健常者との間に有意な差が認められた。
一方, PEAでは, 右翼状回, 副海馬回, 頭頂葉下葉を含む15個の群間において, より顕著な差が認められた。
限界: うつ病患者のサンプルサイズとサブタイプに制限があるため、将来さらなる検証が必要である可能性がある。
結論: うつ病患者では, 感情変調とうつ病の複雑な相互作用が強調され, PEAとNEAの両方に有意な変化がみられた。
本研究は、うつ病における感情調節の理解を深め、診断と治療評価に寄与する。
Background: Although it has been noticed that depressed patients show differences in processing emotions, the precise neural modulation mechanisms of positive and negative emotions remain elusive. FMRI is a cutting-edge medical imaging technology renowned for its high spatial resolution and dynamic temporal information, making it particularly suitable for the neural dynamics of depression research. Methods: To address this gap, our study firstly leveraged fMRI to delineate activated regions associated with positive and negative emotions in healthy individuals, resulting in the creation of positive emotion atlas (PEA) and negative emotion atlas (NEA). Subsequently, we examined neuroimaging changes in depression patients using these atlases and evaluated their diagnostic performance based on machine learning. Results: Our findings demonstrate that the classification accuracy of depressed patients based on PEA and NEA exceeded 0.70, a notable improvement compared to the whole-brain atlases. Furthermore, ALFF analysis unveiled significant differences between depressed patients and healthy controls in eight functional clusters during the NEA, focusing on the left cuneus, cingulate gyrus, and superior parietal lobule. In contrast, the PEA revealed more pronounced differences across fifteen clusters, involving the right fusiform gyrus, parahippocampal gyrus, and inferior parietal lobule. Limitations: Due to the limited sample size and subtypes of depressed patients, the efficacy may need further validation in future. Conclusions: These findings emphasize the complex interplay between emotion modulation and depression, showcasing significant alterations in both PEA and NEA among depression patients. This research enhances our understanding of emotion modulation in depression, with implications for diagnosis and treatment evaluation. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# 高度なNLP, トランスフォーマーネットワーク, 言語方法論を組み合わせたテキスト・マルチターン会話における人間の共感と感情のより正確な予測に向けて
Towards More Accurate Prediction of Human Empathy and Emotion in Text and Multi-turn Conversations by Combining Advanced NLP, Transformers-based Networks, and Linguistic Methodologies ( http://arxiv.org/abs/2407.18496v1 ) ライセンス: Link先を確認 | Manisha Singh, Divy Sharma, Alonso Ma, Nora Goldfine, | (参考訳) WASSA 2022の共感検出と感情分類の共有タスクに基づいて,エッセイに表される共感的関心と個人的な苦悩のレベルを予測する。
このプロジェクトの最初の段階では,文レベルの埋め込みを機能として用いたフィードフォワードニューラルネットワークを実装した。
ニューラルネットワークへの入力を生成するために,4種類の埋め込みモデルを実験した。
その後の段階は、以前の作業に基づいて構築され、3種類のリビジョンを実施しました。
最初の改訂は、モデルアーキテクチャとトレーニングアプローチの強化に焦点を当てている。
第2の改訂は、階層化されたデータサンプリングを用いたクラス不均衡の処理に焦点を当てている。
第3の改訂は、データセットに関連する機能を強化するために、4つの異なるリソースを適用する、語彙リソースの活用に焦点を当てている。
本プロジェクトの最終段階において,本研究は,主タスクのパフォーマンスを改善するために,モデルのアンサンブルを用いて,主タスクの最終エンド・ツー・エンドシステムを構築した。
さらに、最終段階として、これらのアプローチは、対話における共感感情とパーソナリティ検出の共有タスク(WASSA 2023)に適応し、ダイアドテキストの会話における共感的関心、感情の極性、感情の強さを予測する。
Based on the WASSA 2022 Shared Task on Empathy Detection and Emotion Classification, we predict the level of empathic concern and personal distress displayed in essays. For the first stage of this project we implemented a Feed-Forward Neural Network using sentence-level embeddings as features. We experimented with four different embedding models for generating the inputs to the neural network. The subsequent stage builds upon the previous work and we have implemented three types of revisions. The first revision focuses on the enhancements to the model architecture and the training approach. The second revision focuses on handling class imbalance using stratified data sampling. The third revision focuses on leveraging lexical resources, where we apply four different resources to enrich the features associated with the dataset. During the final stage of this project, we have created the final end-to-end system for the primary task using an ensemble of models to revise primary task performance. Additionally, as part of the final stage, these approaches have been adapted to the WASSA 2023 Shared Task on Empathy Emotion and Personality Detection in Interactions, in which the empathic concern, emotion polarity, and emotion intensity in dyadic text conversations are predicted. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# 解答可能性場:拡散モデルによる解答可能な位置推定
Answerability Fields: Answerable Location Estimation via Diffusion Models ( http://arxiv.org/abs/2407.18497v1 ) ライセンス: Link先を確認 | Daichi Azuma, Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Motoaki Kawanabe, | (参考訳) 人工知能とロボティクスの進歩を特徴とし、機械が環境と対話し理解できるようにする時代は、重要な研究課題である。
本稿では,複雑な屋内環境における応答性予測手法であるAnswerability Fieldsを提案する。
3D質問応答データセットを活用することで、ScanNetのさまざまなシーンや質問を含む、総合的なAnswerability Fieldsデータセットを構築します。
拡散モデルを用いて、対象物とその位置がシーン内の質問に答えることの重要性を実証し、これらの解答性フィールドを推論し、評価した。
本研究は,シーン理解タスクの指導における解答性フィールドの有効性を実証し,知的エージェントと環境との相互作用を強化するための基礎を築き上げたものである。
In an era characterized by advancements in artificial intelligence and robotics, enabling machines to interact with and understand their environment is a critical research endeavor. In this paper, we propose Answerability Fields, a novel approach to predicting answerability within complex indoor environments. Leveraging a 3D question answering dataset, we construct a comprehensive Answerability Fields dataset, encompassing diverse scenes and questions from ScanNet. Using a diffusion model, we successfully infer and evaluate these Answerability Fields, demonstrating the importance of objects and their locations in answering questions within a scene. Our results showcase the efficacy of Answerability Fields in guiding scene-understanding tasks, laying the foundation for their application in enhancing interactions between intelligent agents and their environments. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# LLMとゴール指向ASP.NETを用いた信頼性の高いコモンセンス推論型ソーシャルボット
A Reliable Common-Sense Reasoning Socialbot Built Using LLMs and Goal-Directed ASP ( http://arxiv.org/abs/2407.18498v1 ) ライセンス: Link先を確認 | Yankai Zeng, Abhiramon Rajashekharan, Kinjal Basu, Huaduo Wang, Joaquín Arias, Gopal Gupta, | (参考訳) GPTのような大規模言語モデル(LLM)の開発により、ChatGPTのような、人間の会話をシミュレートする能力に多くの注目を集めているいくつかのソーシャルボットの構築が可能になった。
しかし、会話はゴールによって導かれるものではなく、制御するのが難しい。
さらに, LLMは帰納的推論よりもパターン認識に頼っているため, 解答を混乱させ, 複数のトピックを結合的な応答に統合することが困難である。
これらの制限により、LLMは会話を面白く保つためにメイントピックから逸脱することが多い。
本稿では,LLMモデルを用いて自然言語を述語に翻訳するソーシャルボットAutoCompanionを提案する。
特に、ASPをバックエンドとしてゴール指向の実装であるs(CASP)に依存しています。
本稿では, LLM を用いてユーザメッセージを解析し, s(CASP) エンジン出力から応答を生成する手法について述べる。
提案を検証するために、チャットボットのゴールは、映画や本について話すことでユーザーを楽しませることであり、s(CASP)は確実にする(実際の)会話を記述する。
(i)答えの正しさ
(ii)会話中のコヒーレンス(と精度)は、その特定の目的を達成するために動的に規制され、
三 主な話題から逸脱しないこと。
The development of large language models (LLMs), such as GPT, has enabled the construction of several socialbots, like ChatGPT, that are receiving a lot of attention for their ability to simulate a human conversation. However, the conversation is not guided by a goal and is hard to control. In addition, because LLMs rely more on pattern recognition than deductive reasoning, they can give confusing answers and have difficulty integrating multiple topics into a cohesive response. These limitations often lead the LLM to deviate from the main topic to keep the conversation interesting. We propose AutoCompanion, a socialbot that uses an LLM model to translate natural language into predicates (and vice versa) and employs commonsense reasoning based on Answer Set Programming (ASP) to hold a social conversation with a human. In particular, we rely on s(CASP), a goal-directed implementation of ASP as the backend. This paper presents the framework design and how an LLM is used to parse user messages and generate a response from the s(CASP) engine output. To validate our proposal, we describe (real) conversations in which the chatbot's goal is to keep the user entertained by talking about movies and books, and s(CASP) ensures (i) correctness of answers, (ii) coherence (and precision) during the conversation, which it dynamically regulates to achieve its specific purpose, and (iii) no deviation from the main topic. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# チップ設計における強化学習に基づくマクロ細胞の非重複配置
Non-Overlapping Placement of Macro Cells based on Reinforcement Learning in Chip Design ( http://arxiv.org/abs/2407.18499v1 ) ライセンス: Link先を確認 | Tao Yu, Peng Gao, Fei Wang, Ru-Yue Yuan, | (参考訳) チップ設計の複雑さが増大しているため、既存の配置法では、マクロセルのカバレッジと最適化効率に多くの欠点がある。
本稿では,既存のチップ設計手法におけるレイアウトの重複,性能の低下,最適化効率の低下といった問題に着目し,強化学習に基づくエンドツーエンド配置手法SRLPlacerを提案する。
まず、配置問題をマクロセル間の結合関係グラフモデルを確立することによりマルコフ決定プロセスに変換し、レイアウトの最適化戦略を学ぶ。
第2に、標準セルレイアウトを統合した後、配置プロセス全体を最適化する。
提案するSRLPlacerは,一般ベンチマークISPD2005に基づいて,混雑のルーティングやワイヤ長さの短縮を考慮しつつ,マクロセル間の重なり合う問題を効果的に解くことができる。
Due to the increasing complexity of chip design, existing placement methods still have many shortcomings in dealing with macro cells coverage and optimization efficiency. Aiming at the problems of layout overlap, inferior performance, and low optimization efficiency in existing chip design methods, this paper proposes an end-to-end placement method, SRLPlacer, based on reinforcement learning. First, the placement problem is transformed into a Markov decision process by establishing the coupling relationship graph model between macro cells to learn the strategy for optimizing layouts. Secondly, the whole placement process is optimized after integrating the standard cell layout. By assessing on the public benchmark ISPD2005, the proposed SRLPlacer can effectively solve the overlap problem between macro cells while considering routing congestion and shortening the total wire length to ensure routability. | 翻訳日:2024-07-29 14:29:54 公開日:2024-07-26 |
# 更新イベント生成モデル:意図しないニューラル表現を用いたイベント・ツー・ビデオ再構成の自己教師付き学習
Revisit Event Generation Model: Self-Supervised Learning of Event-to-Video Reconstruction with Implicit Neural Representations ( http://arxiv.org/abs/2407.18500v1 ) ライセンス: Link先を確認 | Zipeng Wang, Yunfan Lu, Lin Wang, | (参考訳) イベントベースとフレームベースのコンピュータビジョンのギャップを埋めるためには、高時間分解能とダイナミックレンジを維持しながら、イベントデータから強度フレームを再構築することが不可欠である。
これまでのアプローチは、イベントシミュレータの設定に過度に適合する解釈可能性やリスクに欠ける合成データによる教師あり学習に依存していた。
近年,光干渉による強度推定にフレーム単位の光フローを主体とした自己教師あり学習法が盛んに研究されている。
しかし、不正確な光流の場合の誤差に弱い。
本稿では,ラベル付きデータや光フロー推定を必要としない新しいSSLイベント・ビデオ再構成手法であるEvINRを提案する。
我々の中核となる考え方は、事象生成モデル(本質的には偏微分方程式(PDE))に時間変化の明るさ信号に基づいてイベントがどのように生成されるかを記述することで、強度フレームを再構築することである。
具体的には、時空間座標を$(x, y, t)$とし、強度値を予測する暗黙的ニューラル表現(INR)を用いて、事象発生方程式の解を表す。
INRは、完全に接続された多層パーセプトロン(MLP)としてパラメータ化され、イベントによって制御される時間微分で最適化することができる。
オンラインの要求に対してEvINRを実現するために,トレーニングプロセスを大幅に高速化するいくつかのアクセラレーション手法を提案する。
包括的な実験により、EvINRは従来のSSLメソッドを38%上回り、SoTAの監視手法に匹敵するか、優れていることが示された。
プロジェクトページ:https://vlislab22.github.io/EvINR/。
Reconstructing intensity frames from event data while maintaining high temporal resolution and dynamic range is crucial for bridging the gap between event-based and frame-based computer vision. Previous approaches have depended on supervised learning on synthetic data, which lacks interpretability and risk over-fitting to the setting of the event simulator. Recently, self-supervised learning (SSL) based methods, which primarily utilize per-frame optical flow to estimate intensity via photometric constancy, has been actively investigated. However, they are vulnerable to errors in the case of inaccurate optical flow. This paper proposes a novel SSL event-to-video reconstruction approach, dubbed EvINR, which eliminates the need for labeled data or optical flow estimation. Our core idea is to reconstruct intensity frames by directly addressing the event generation model, essentially a partial differential equation (PDE) that describes how events are generated based on the time-varying brightness signals. Specifically, we utilize an implicit neural representation (INR), which takes in spatiotemporal coordinate $(x, y, t)$ and predicts intensity values, to represent the solution of the event generation equation. The INR, parameterized as a fully-connected Multi-layer Perceptron (MLP), can be optimized with its temporal derivatives supervised by events. To make EvINR feasible for online requisites, we propose several acceleration techniques that substantially expedite the training process. Comprehensive experiments demonstrate that our EvINR surpasses previous SSL methods by 38% w.r.t. Mean Squared Error (MSE) and is comparable or superior to SoTA supervised methods. Project page: https://vlislab22.github.io/EvINR/. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# 早期音韻獲得における知覚空間の形成--言語間モデリングアプローチ
The formation of perceptual space in early phonetic acquisition: a cross-linguistic modeling approach ( http://arxiv.org/abs/2407.18501v1 ) ライセンス: Link先を確認 | Frank Lihui Tan, Youngah Do, | (参考訳) 本研究では,先行研究を2つの重要な側面で進めることで,学習者が早期音声習得において知覚空間をどのように構成するかを検討する。
まず、学習した隠れ表現の形状と、音韻カテゴリーを分類する能力について検討する。
第二に、学習モデルが文脈のない音響情報に与える影響について、文脈的手がかりを伴わずに、音素習得が早期言語学習の段階を忠実に模倣することについて検討する。
言語横断的モデリング手法を用いて、オートエンコーダモデルは英語とマンダリンで訓練され、母国語と非母国語の両方で評価される。
その結果、教師なし音響情報に対するボトムアップトレーニングは、乳幼児におけるユニバーサルリスニングの初期段階に類似した、英語とマンダリンの両方のネイティブ条件と非ネイティブ条件の知覚空間の同等の学習的表現をもたらすことが示された。
これらの知見は,早期の音韻習得における知覚空間の組織化に関する洞察を与え,音韻カテゴリーの形成と表現の理解に寄与する。
This study investigates how learners organize perceptual space in early phonetic acquisition by advancing previous studies in two key aspects. Firstly, it examines the shape of the learned hidden representation as well as its ability to categorize phonetic categories. Secondly, it explores the impact of training models on context-free acoustic information, without involving contextual cues, on phonetic acquisition, closely mimicking the early language learning stage. Using a cross-linguistic modeling approach, autoencoder models are trained on English and Mandarin and evaluated in both native and non-native conditions, following experimental conditions used in infant language perception studies. The results demonstrate that unsupervised bottom-up training on context-free acoustic information leads to comparable learned representations of perceptual space between native and non-native conditions for both English and Mandarin, resembling the early stage of universal listening in infants. These findings provide insights into the organization of perceptual space during early phonetic acquisition and contribute to our understanding of the formation and representation of phonetic categories. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# デザインスペースとソフトウェアデザイナの使い方:
Design Spaces and How Software Designers Use Them: a sampler ( http://arxiv.org/abs/2407.18502v1 ) ライセンス: Link先を確認 | Mary Shaw, Marian Petre, | (参考訳) ソフトウェア設計に関する議論は、しばしば利用可能な設計代替品のスペクトルを記述するために「設計空間」を使用する。
ドメイン知識の取得、さまざまな設計活動のサポート、代替案の特性の分析や予測、設計選択間の相互作用や依存関係の理解などです。
我々は、デザイナー、特にソフトウェアデザイナーが「デザイン空間」と言うときに何を意味するかのサンプルを示し、デザイン空間がデザイン活動に果たす役割の例を示す。
これは、設計空間が設計者をレンズとして提供し、全体の可能性の空間を減らし、体系的な設計決定をサポートする方法を示している。
Discussions of software design often refer to using "design spaces" to describe the spectrum of available design alternatives. This supports design thinking in many ways: to capture domain knowledge, to support a wide variety of design activity, to analyze or predict properties of alternatives, to understand interactions and dependencies among design choices. We present a sampling of what designers, especially software designers, mean when they say "design space" and provide examples of the roles their design spaces serve in their design activity. This shows how design spaces can serve designers as lenses to reduce the overall space of possibilities and support systematic design decision making. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# リソース制約IoVネットワークにおけるプライバシー保護侵入検出のための同型暗号化型フェデレーション学習
Homomorphic Encryption-Enabled Federated Learning for Privacy-Preserving Intrusion Detection in Resource-Constrained IoV Networks ( http://arxiv.org/abs/2407.18503v1 ) ライセンス: Link先を確認 | Bui Duc Manh, Chi-Hieu Nguyen, Dinh Thai Hoang, Diep N. Nguyen, | (参考訳) 本稿では,限られた計算資源を持つインターネット・オブ・Vehicles(IoVs)におけるフェデレート・ラーニング(FL)ベースの侵入検知システム(IDS)におけるデータプライバシ問題に対処する新しい枠組みを提案する。
特に、従来のFLシステムでは、計算ノードはトレーニングタスクを処理するのに十分な計算資源を持っていると仮定される。
しかし、実用的なIoVシステムでは、車両は通常、集中的なトレーニングタスクを処理するための限られた計算資源を持ち、IDSにFLを配置する効果を妥協する。
車両からクラウドにデータをオフロードすることはこの問題を軽減することができるが、車両ユーザー(VU)にとって重要なプライバシー上の懸念をもたらす。
この問題を解決するために,我々はまず,同型暗号を用いた高効率なフレームワークを提案し,処理のために中央集中サーバにオフロードを必要とするデータを保護する。
さらに、FLベースのシステムの課題を暗号化データで処理するための効果的なトレーニングアルゴリズムを開発する。
このアルゴリズムにより、集中型サーバは復号化を必要とせずに、量子セキュアな暗号化暗号文を直接計算できる。
このアプローチは、VUから集中サーバへのオフロードプロセス中にデータプライバシを保護するだけでなく、IoVシステムにおけるIDSのためのFLの利用効率を高める。
シミュレーションの結果,提案手法は,0.8%未満のギャップで,暗号化なしで解に近い性能が得られることがわかった。
This paper aims to propose a novel framework to address the data privacy issue for Federated Learning (FL)-based Intrusion Detection Systems (IDSs) in Internet-of-Vehicles(IoVs) with limited computational resources. In particular, in conventional FL systems, it is usually assumed that the computing nodes have sufficient computational resources to process the training tasks. However, in practical IoV systems, vehicles usually have limited computational resources to process intensive training tasks, compromising the effectiveness of deploying FL in IDSs. While offloading data from vehicles to the cloud can mitigate this issue, it introduces significant privacy concerns for vehicle users (VUs). To resolve this issue, we first propose a highly-effective framework using homomorphic encryption to secure data that requires offloading to a centralized server for processing. Furthermore, we develop an effective training algorithm tailored to handle the challenges of FL-based systems with encrypted data. This algorithm allows the centralized server to directly compute on quantum-secure encrypted ciphertexts without needing decryption. This approach not only safeguards data privacy during the offloading process from VUs to the centralized server but also enhances the efficiency of utilizing FL for IDSs in IoV systems. Our simulation results show that our proposed approach can achieve a performance that is as close to that of the solution without encryption, with a gap of less than 0.8%. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# SPOLRE:画像キャプションシステムテストのための意味保存オブジェクトレイアウト再構成
SPOLRE: Semantic Preserving Object Layout Reconstruction for Image Captioning System Testing ( http://arxiv.org/abs/2407.18512v1 ) ライセンス: Link先を確認 | Yi Liu, Guanyu Wang, Xinyi Zheng, Gelei Deng, Kailong Wang, Yang Liu, Haoyu Wang, | (参考訳) Microsoft Azure Cognitive Serviceのような画像キャプション(IC)システムは、イメージコンテンツを記述言語に変換するが、誤解釈につながる不正確な情報を生成することができる。
MetaICやROMEのような高度なテスト技術はこれらの問題に対処することを目指しているが、重大な課題に直面している。
これらの方法は、詳細なアノテーションのために集中的な手作業を必要とし、しばしば無関係なオブジェクトを追加するか、既存のオブジェクトを削除するのに失敗することによって、非現実的なイメージを生成する。
さらに、MetaICは特定のオブジェクトの挿入に制限され、ROMEは限られた範囲のバリエーションに制限されたテストスイートを生成する。
ICシステムテストにおけるオブジェクトレイアウト再構築のセマンティック保存のための新しい自動化ツールSPOLREを紹介する。
SPOLREは4つの変換技術を利用して、画像の意味を変更せずにオブジェクトレイアウトを変更する。
この自動化アプローチは、手動のアノテーションの必要性を排除し、現実的で多様なテストスイートを生成する。
調査によると、回答者の75%以上が、最先端の手法よりもSPOLRE生成画像の方がリアルであることがわかった。
SPOLREはキャプションエラーを識別し、平均精度が91.62%の7つのICシステムで31,544個の誤ったキャプションを検出し、平均85.65%の精度で17,160個の不正確なキャプションを識別する他の手法を上回っている。
特にSPOLREは、Azure内の6,236のユニークな問題を特定し、最も先進的なICシステムに対する効果を実証した。
Image captioning (IC) systems, such as Microsoft Azure Cognitive Service, translate image content into descriptive language but can generate inaccuracies leading to misinterpretations. Advanced testing techniques like MetaIC and ROME aim to address these issues but face significant challenges. These methods require intensive manual labor for detailed annotations and often produce unrealistic images, either by adding unrelated objects or failing to remove existing ones. Additionally, they generate limited test suites, with MetaIC restricted to inserting specific objects and ROME limited to a narrow range of variations. We introduce SPOLRE, a novel automated tool for semantic-preserving object layout reconstruction in IC system testing. SPOLRE leverages four transformation techniques to modify object layouts without altering the image's semantics. This automated approach eliminates the need for manual annotations and creates realistic, varied test suites. Our tests show that over 75% of survey respondents find SPOLRE-generated images more realistic than those from state-of-the-art methods. SPOLRE excels in identifying caption errors, detecting 31,544 incorrect captions across seven IC systems with an average precision of 91.62%, surpassing other methods which average 85.65% accuracy and identify 17,160 incorrect captions. Notably, SPOLRE identified 6,236 unique issues within Azure, demonstrating its effectiveness against one of the most advanced IC systems. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# SLIM:汎用オーディオディープフェイク検出のためのスタイル言語ミストマッチモデル
SLIM: Style-Linguistics Mismatch Model for Generalized Audio Deepfake Detection ( http://arxiv.org/abs/2407.18517v1 ) ライセンス: Link先を確認 | Yi Zhu, Surya Koppisetti, Trang Tran, Gaurav Bharaj, | (参考訳) 音声ディープフェイク検出(ADD)は、生成AIモデルから合成された音声の誤用に対処するために重要である。
既存のADDモデルは、ドメイン内データとドメイン外データの間に大きなパフォーマンス差があるため、一般化の問題に悩まされている。
さらに、既存のモデルのブラックボックスの性質は、モデル決定に説明が必要な実世界のシナリオでの使用を制限する。
これらの問題を緩和するために、偽音声においてStyleLInguistics Mismatch (SLIM) を明示的に使用し、実際の音声と区別する新しいADDモデルを導入する。
SLIMは、まず、実際のクラスにおけるスタイル言語依存を学ぶために、実際のサンプルのみに自己教師付き事前訓練を採用する。
学習した機能は、標準的な事前訓練された音響特徴(例えば、Wav2vec)を補完して、実と偽のクラスで分類器を学ぶために使用される。
機能エンコーダが凍結されると、SLIMはドメイン外のデータセットのベンチマークメソッドより優れ、ドメイン内のデータに対する競合的な結果が得られる。
SLIMが学習した特徴は、サンプル中のスタイルと言語コンテンツ間の(ミス)マッチを定量化し、モデル決定の説明を容易にする。
Audio deepfake detection (ADD) is crucial to combat the misuse of speech synthesized from generative AI models. Existing ADD models suffer from generalization issues, with a large performance discrepancy between in-domain and out-of-domain data. Moreover, the black-box nature of existing models limits their use in real-world scenarios, where explanations are required for model decisions. To alleviate these issues, we introduce a new ADD model that explicitly uses the StyleLInguistics Mismatch (SLIM) in fake speech to separate them from real speech. SLIM first employs self-supervised pretraining on only real samples to learn the style-linguistics dependency in the real class. The learned features are then used in complement with standard pretrained acoustic features (e.g., Wav2vec) to learn a classifier on the real and fake classes. When the feature encoders are frozen, SLIM outperforms benchmark methods on out-of-domain datasets while achieving competitive results on in-domain data. The features learned by SLIM allow us to quantify the (mis)match between style and linguistic content in a sample, hence facilitating an explanation of the model decision. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# WorkR: インテリジェントタスクアシストのための実行推論
WorkR: Occupation Inference for Intelligent Task Assistance ( http://arxiv.org/abs/2407.18518v1 ) ライセンス: Link先を確認 | Yonchanok Khaokaew, Hao Xue, Mohammad Saiedur Rahaman, Flora D. Salim, | (参考訳) 作業情報は、デジタルアシスタントによって、割り込み管理、タスク計画、レコメンデーションを含む、職業固有の個別タスクサポートを提供するために利用することができる。
デジタル・ワークス・アシスタント・ドメインにおける先行研究では、利用者は効果的な支援のために職業情報を入力する必要がある。
しかし、多くの個人が毎日複数の職業を切り替えるにつれて、現在のソリューションは継続的なユーザー入力なしで混乱する。
そこで本研究では,受動的センシングを利用して様々なタスク活動から広汎な信号を捉え,受動的センシングアーキテクチャの欠如,職業特性のパーソナライズ,職業変数間の潜伏関係の発見という3つの課題に対処するフレームワークWorkRを紹介する。
アプリケーション利用,移動,社会的相互作用,環境からの信号は,ユーザの職業を知らせるものである,と我々は主張する。
WorkRは変分オートエンコーダ(VAE)を使用して、職業を推測するトレーニングモデルの潜在機能を引き出す。
匿名化された、文脈に富んだアクティビティとタスクログのデータセットを用いた実験により、我々のモデルは6つのISO職業カテゴリで91%以上の精度で正確に職業を推測できることを示した。
Occupation information can be utilized by digital assistants to provide occupation-specific personalized task support, including interruption management, task planning, and recommendations. Prior research in the digital workplace assistant domain requires users to input their occupation information for effective support. However, as many individuals switch between multiple occupations daily, current solutions falter without continuous user input. To address this, this study introduces WorkR, a framework that leverages passive sensing to capture pervasive signals from various task activities, addressing three challenges: the lack of a passive sensing architecture, personalization of occupation characteristics, and discovering latent relationships among occupation variables. We argue that signals from application usage, movements, social interactions, and the environment can inform a user's occupation. WorkR uses a Variational Autoencoder (VAE) to derive latent features for training models to infer occupations. Our experiments with an anonymized, context-rich activity and task log dataset demonstrate that our models can accurately infer occupations with more than 91% accuracy across six ISO occupation categories. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# TCGPN: 株価予測のための時間相関グラフ事前学習ネットワーク
TCGPN: Temporal-Correlation Graph Pre-trained Network for Stock Forecasting ( http://arxiv.org/abs/2407.18519v1 ) ライセンス: Link先を確認 | Wenbo Yan, Ying Tan, | (参考訳) 近年,時系列予測において時間的特徴と時系列間の相関の両立が有効なアプローチとなっている。
時空間グラフニューラルネットワーク(STGNN)は多くの時間相関予測問題において優れた性能を示す。
しかし、ストックデータ予測のような周期性に欠けるタスクに適用した場合、STGNNの有効性とロバスト性は不十分であることが判明した。
またSTGNNはメモリの節約によって制限されているため、多数のノードで問題に対処できない。
本稿では,これらの制約に対処するため,TCGPN(Temporal-Correlation Graph Pre-trained Network)と呼ばれる新しい手法を提案する。
TCGPNはテンポラル相関融合エンコーダを用いて,時間的および相関的な事前学習タスクを慎重に設計した混合表現と事前学習を行う。
入出力構造はノードの数や順序に依存しないので、様々なデータ拡張によってより良い結果が得られる。
トレーニング中のメモリ消費量は、複数のサンプリングによって大幅に削減できる。
CSI300とCSI500は、最小限の周期性を示す。
ダウンストリームタスクで単純なMLPを微調整し、最先端の結果を達成し、より堅牢な時間相関パターンをキャプチャする能力を検証する。
Recently, the incorporation of both temporal features and the correlation across time series has become an effective approach in time series prediction. Spatio-Temporal Graph Neural Networks (STGNNs) demonstrate good performance on many Temporal-correlation Forecasting Problem. However, when applied to tasks lacking periodicity, such as stock data prediction, the effectiveness and robustness of STGNNs are found to be unsatisfactory. And STGNNs are limited by memory savings so that cannot handle problems with a large number of nodes. In this paper, we propose a novel approach called the Temporal-Correlation Graph Pre-trained Network (TCGPN) to address these limitations. TCGPN utilize Temporal-correlation fusion encoder to get a mixed representation and pre-training method with carefully designed temporal and correlation pre-training tasks. Entire structure is independent of the number and order of nodes, so better results can be obtained through various data enhancements. And memory consumption during training can be significantly reduced through multiple sampling. Experiments are conducted on real stock market data sets CSI300 and CSI500 that exhibit minimal periodicity. We fine-tune a simple MLP in downstream tasks and achieve state-of-the-art results, validating the capability to capture more robust temporal correlation patterns. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# 欠落ラベルを用いた複数ラベル画像認識のためのテキストレギュレーションマッチング
Text-Region Matching for Multi-Label Image Recognition with Missing Labels ( http://arxiv.org/abs/2407.18520v1 ) ライセンス: Link先を確認 | Leilei Ma, Hongxing Xie, Lei Wang, Yanping Fu, Dengdi Sun, Haifeng Zhao, | (参考訳) 近年,大規模ビジュアル言語事前訓練(VLP)モデルでは,下流タスクにまたがる顕著なパフォーマンスが示されている。
これらの進歩に触発されて、VLPプロンプトチューニング技術を活用して、ラベルを欠いたマルチラベル画像認識において先駆的な取り組みが生まれている。
しかし、複雑なセマンティクスのギャップやマルチラベル画像のラベルの欠如のため、テキストや視覚機能とよく一致しないことが多い。
この課題に対処するために, 意味のあるクロスモーダルマッチングを向上するための新しい手法である TRM-ML という, 即時チューニングを最適化するための \textbf{T}ext-\textbf{R}egion \textbf{M}atching を提案する。
既存の手法と比較して,画像や画素全体ではなくカテゴリ認識領域の情報を探究することを提唱し,テキストと視覚のセマンティックなギャップを1対1で埋めることに寄与する。
同時に,テキストと視覚のセマンティックなギャップを狭め,クラス内およびクラス間関係を確立するために,マルチモーダルコントラスト学習を導入する。
また,ラベルの欠落に対処するために,カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知ラベルを推定し,擬似ラベル生成を容易にするマルチモーダルカテゴリのプロトタイプを提案する。
MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, CUB-200-211ベンチマークデータセットの大規模な実験により, 提案したフレームワークは最先端の手法よりも大幅に優れていることが示された。
私たちのコードはここで利用可能です。
Recently, large-scale visual language pre-trained (VLP) models have demonstrated impressive performance across various downstream tasks. Motivated by these advancements, pioneering efforts have emerged in multi-label image recognition with missing labels, leveraging VLP prompt-tuning technology. However, they usually cannot match text and vision features well, due to complicated semantics gaps and missing labels in a multi-label image. To tackle this challenge, we propose \textbf{T}ext-\textbf{R}egion \textbf{M}atching for optimizing \textbf{M}ulti-\textbf{L}abel prompt tuning, namely TRM-ML, a novel method for enhancing meaningful cross-modal matching. Compared to existing methods, we advocate exploring the information of category-aware regions rather than the entire image or pixels, which contributes to bridging the semantic gap between textual and visual representations in a one-to-one matching manner. Concurrently, we further introduce multimodal contrastive learning to narrow the semantic gap between textual and visual modalities and establish intra-class and inter-class relationships. Additionally, to deal with missing labels, we propose a multimodal category prototype that leverages intra- and inter-category semantic relationships to estimate unknown labels, facilitating pseudo-label generation. Extensive experiments on the MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, and CUB-200-211 benchmark datasets demonstrate that our proposed framework outperforms the state-of-the-art methods by a significant margin. Our code is available here\href{https://github.com/yu-gi-oh-leilei/TRM-ML}{\raisebox{-1pt}{\faGithub}}. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# Patched MOA: 多様なソフトウェア開発タスクの推論を最適化する
Patched MOA: optimizing inference for diverse software development tasks ( http://arxiv.org/abs/2407.18521v1 ) ライセンス: Link先を確認 | Asankhaya Sharma, | (参考訳) 本稿では,多種多様なソフトウェア開発タスクにおける大規模言語モデル(LLM)の性能を大幅に向上させる推論最適化手法であるPatched MOA(Mixture of Agents)を紹介する。
我々は3つの推論最適化アルゴリズム、Best of N、Mixture of Agents、Monte Carlo Tree Searchを評価し、Patched MOAがより大型で高価なモデルを上回るように小型モデルの性能を向上させることを実証した。
特に,Arena-Hard-Autoベンチマークにおけるgpt-4o-miniモデルの性能は15.52%向上し,低コストでgpt-4-turboを上回った。
また、様々なソフトウェア開発ワークフローにPatched MOAを適用し、タスク完了率を一貫した改善を示します。
提案手法はモデルに依存しず,エンドユーザーに対して透過的であり,既存のLLMパイプラインに容易に組み込むことができる。
この研究はLLM最適化の分野の発展に寄与し、微調整や大型モデルを必要としないモデル性能を向上させるためのコスト効率の高いソリューションを提供する。
This paper introduces Patched MOA (Mixture of Agents), an inference optimization technique that significantly enhances the performance of large language models (LLMs) across diverse software development tasks. We evaluate three inference optimization algorithms - Best of N, Mixture of Agents, and Monte Carlo Tree Search and demonstrate that Patched MOA can boost the performance of smaller models to surpass that of larger, more expensive models. Notably, our approach improves the gpt-4o-mini model's performance on the Arena-Hard-Auto benchmark by 15.52%, outperforming gpt-4-turbo at a fraction of the cost. We also apply Patched MOA to various software development workflows, showing consistent improvements in task completion rates. Our method is model-agnostic, transparent to end-users, and can be easily integrated into existing LLM pipelines. This work contributes to the growing field of LLM optimization, offering a cost-effective solution for enhancing model performance without the need for fine-tuning or larger models. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# DTFormer:離散時間動的グラフ表現学習のためのトランスフォーマーベース手法
DTFormer: A Transformer-Based Method for Discrete-Time Dynamic Graph Representation Learning ( http://arxiv.org/abs/2407.18523v1 ) ライセンス: Link先を確認 | Xi Chen, Yun Xiong, Siwei Zhang, Jiawei Zhang, Yao Zhang, Shiyang Zhou, Xixi Wu, Mingyang Zhang, Tengfei Liu, Weiqiang Wang, | (参考訳) 離散時間動的グラフ(DTDG)は、実世界の実装で広く普及しており、データ取得の容易さで有名であるが、学術研究者と産業専門家の両方からかなりの注目を集めている。
DTDGの表現学習は、時間的に変化する実体とその進化する接続のダイナミクスをモデル化するために広く応用されてきた。
現在、DTDG表現学習は主にGNN+RNNアーキテクチャに依存しており、グラフニューラルネットワーク(GNN)とリカレントニューラルネットワーク(RNN)の両方に固有の制限がある。
GNNはモデルアーキテクチャがより深くなっていくにつれ、過度にスムースな問題に悩まされる一方、RNNは長期的な依存関係を効果的に捉えるのに苦労する。
GNN+RNNアーキテクチャは、大きなグラフサイズと長いシーケンスへのスケーリングにも適している。
さらに、これらの手法はノードの表現を別々に計算し、個々のノードの特徴のみに焦点を合わせ、リンクが予測されている2つのノード間の動作の交点を見渡す。
本稿では,従来の GNN+RNN フレームワークから Transformer ベースのアーキテクチャへ移行した DTDG のための表現学習手法 DTFormer を提案する。
提案手法は,各タイムスタンプにおけるグラフ内のトポロジ情報と,タイムスタンプに沿ったグラフの時間的ダイナミクスを同時に処理するための注意機構を利用して,前述のGNNとRNNの根本的な弱点を回避する。
さらに,ノード間の相互関係を組み込んでマルチパッチモジュールを統合することで,モデルの表現能力を向上する。
6つのパブリック・ダイナミック・グラフ・ベンチマーク・データセットで実施された大規模な実験により、我々のモデルの有効性が確認され、SOTA性能が達成された。
Discrete-Time Dynamic Graphs (DTDGs), which are prevalent in real-world implementations and notable for their ease of data acquisition, have garnered considerable attention from both academic researchers and industry practitioners. The representation learning of DTDGs has been extensively applied to model the dynamics of temporally changing entities and their evolving connections. Currently, DTDG representation learning predominantly relies on GNN+RNN architectures, which manifest the inherent limitations of both Graph Neural Networks (GNNs) and Recurrent Neural Networks (RNNs). GNNs suffer from the over-smoothing issue as the models architecture goes deeper, while RNNs struggle to capture long-term dependencies effectively. GNN+RNN architectures also grapple with scaling to large graph sizes and long sequences. Additionally, these methods often compute node representations separately and focus solely on individual node characteristics, thereby overlooking the behavior intersections between the two nodes whose link is being predicted, such as instances where the two nodes appear together in the same context or share common neighbors. This paper introduces a novel representation learning method DTFormer for DTDGs, pivoting from the traditional GNN+RNN framework to a Transformer-based architecture. Our approach exploits the attention mechanism to concurrently process topological information within the graph at each timestamp and temporal dynamics of graphs along the timestamps, circumventing the aforementioned fundamental weakness of both GNNs and RNNs. Moreover, we enhance the model's expressive capability by incorporating the intersection relationships among nodes and integrating a multi-patching module. Extensive experiments conducted on six public dynamic graph benchmark datasets confirm our model's efficacy, achieving the SOTA performance. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# AI生成画像におけるジェンダーバイアスの謎
She Works, He Works: A Curious Exploration of Gender Bias in AI-Generated Imagery ( http://arxiv.org/abs/2407.18524v1 ) ライセンス: Link先を確認 | Amalia Foka, | (参考訳) 本稿では, 建設作業員のAI画像における性別バイアスについて検討し, 男女の描写における相違点を明らかにする。
この分析は、グリセルダ・ポロックの視覚文化とジェンダーの理論に基づいており、AIモデルは女性の人物をより権威的で有能な人物として描写しながらセクシュアライズする傾向があることを示している。
これらの発見は、AIが生成したコンテンツに対する批判的関与の必要性を強調し、社会的バイアスを反映し、永続するAIの可能性を強調している。
このプロジェクトは、創造的な実践におけるAIの倫理的意味と、ジェンダーの文化的知覚に対するその広範な影響に関する議論に貢献する。
This paper examines gender bias in AI-generated imagery of construction workers, highlighting discrepancies in the portrayal of male and female figures. Grounded in Griselda Pollock's theories on visual culture and gender, the analysis reveals that AI models tend to sexualize female figures while portraying male figures as more authoritative and competent. These findings underscore AI's potential to mirror and perpetuate societal biases, emphasizing the need for critical engagement with AI-generated content. The project contributes to discussions on the ethical implications of AI in creative practices and its broader impact on cultural perceptions of gender. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# 大きい方が常に良いか? -非世代医療における大規模言語モデルの評価と促進-
Is larger always better? Evaluating and prompting large language models for non-generative medical tasks ( http://arxiv.org/abs/2407.18525v1 ) ライセンス: Link先を確認 | Yinghao Zhu, Junyi Gao, Zixiang Wang, Weibin Liao, Xiaochen Zheng, Lifang Liang, Yasha Wang, Chengwei Pan, Ewen M. Harrison, Liantao Ma, | (参考訳) 医学におけるLarge Language Models(LLMs)の利用は増加しているが、構造化電子健康記録(EHR)データと非構造化臨床ノートの両方を扱う能力は十分に研究されていない。
本研究は、GPTベースのLCM、BERTベースのモデル、従来の臨床予測モデルを含む様々なモデルを用いて、評価されたデータセットを利用した非生成医療タスクをベンチマークする。
MIMICデータセット(ICU患者記録)とTJHデータセット(初期のCOVID-19 EHRデータ)を用いて,14の言語モデル(9GPTベース,5BERTベース)と7つの従来の予測モデルを評価し,ゼロショットと微調整の両方のパフォーマンスを比較した。
その結果,LLMは構造化EHRデータに頑健なゼロショット予測能力を示し,よく設計されたプロンプト戦略を用いて,しばしば従来のモデルを上回った。
しかし、構造化されていない医療用テキストでは、LLMは教師なしタスクと教師なしタスクの両方において優れた微調整されたBERTモデルよりも優れていなかった。
したがって、LCMは構造化データに対するゼロショット学習に有効であるが、細調整されたBERTモデルは非構造化テキストにより適しており、NLP技術の医療への応用を最適化するために、特定のタスク要求とデータ特性に基づいてモデルを選択することの重要性を強調している。
The use of Large Language Models (LLMs) in medicine is growing, but their ability to handle both structured Electronic Health Record (EHR) data and unstructured clinical notes is not well-studied. This study benchmarks various models, including GPT-based LLMs, BERT-based models, and traditional clinical predictive models, for non-generative medical tasks utilizing renowned datasets. We assessed 14 language models (9 GPT-based and 5 BERT-based) and 7 traditional predictive models using the MIMIC dataset (ICU patient records) and the TJH dataset (early COVID-19 EHR data), focusing on tasks such as mortality and readmission prediction, disease hierarchy reconstruction, and biomedical sentence matching, comparing both zero-shot and finetuned performance. Results indicated that LLMs exhibited robust zero-shot predictive capabilities on structured EHR data when using well-designed prompting strategies, frequently surpassing traditional models. However, for unstructured medical texts, LLMs did not outperform finetuned BERT models, which excelled in both supervised and unsupervised tasks. Consequently, while LLMs are effective for zero-shot learning on structured data, finetuned BERT models are more suitable for unstructured texts, underscoring the importance of selecting models based on specific task requirements and data characteristics to optimize the application of NLP technology in healthcare. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# オンライン授業増分学習のための強化された相互情報の構築
Constructing Enhanced Mutual Information for Online Class-Incremental Learning ( http://arxiv.org/abs/2407.18526v1 ) ライセンス: Link先を確認 | Huan Zhang, Fan Lyu, Shenghua Fan, Yujin Zheng, Dingwen Wang, | (参考訳) Online Class-Incremental Continuousal Learning (OCIL)は、単一チャネルのデータストリームから継続的に学習し、破滅的な忘れを軽減しつつ、新しいタスクに適応するという課題に対処する。
近年,相互情報(MI)に基づく手法はOCILにおいて有望な性能を示した。
しかし、既存のMIベースの手法は、タスク間の知識の混乱を無視して、様々な知識コンポーネントを分離して扱う。
この制限されたMI知識アライメントは,従来のタスクを忘れやすく,過去の知識と現在の知識の共通部分の喪失を危険にさらし,多様性,代表性,分離性の観点からMI関係を分析し,knwoledgeデカップリングに基づく相互情報強化手法を提案する。
EMIは、多様性相互情報(DMI)、代表性相互情報(RMI)、分離性相互情報(SMI)から構成される。
DMIは、クラス間サンプル特徴間の類似性関係を考慮してクラス内サンプル特徴を多様化し、ネットワークがより一般的な知識を学習できるようにする。
RMIは、各カテゴリの代表的特徴を要約し、これらの代表的特徴とサンプルの特徴を一致させ、クラス内のサンプル分布をよりコンパクトにする。
SMIは、クラス間代表的特徴に対するMI関係を確立し、クラス間代表的特徴の区別を高めながら、クラス間代表的特徴の安定性を高め、クラス間の境界を明確にする。
広く使用されているベンチマークデータセットの大規模な実験結果は、最先端のベースライン手法よりもEMIの優れた性能を示している。
Online Class-Incremental continual Learning (OCIL) addresses the challenge of continuously learning from a single-channel data stream, adapting to new tasks while mitigating catastrophic forgetting. Recently, Mutual Information (MI)-based methods have shown promising performance in OCIL. However, existing MI-based methods treat various knowledge components in isolation, ignoring the knowledge confusion across tasks. This narrow focus on simple MI knowledge alignment may lead to old tasks being easily forgotten with the introduction of new tasks, risking the loss of common parts between past and present knowledge.To address this, we analyze the MI relationships from the perspectives of diversity, representativeness, and separability, and propose an Enhanced Mutual Information (EMI) method based on knwoledge decoupling. EMI consists of Diversity Mutual Information (DMI), Representativeness Mutual Information (RMI) and Separability Mutual Information (SMI). DMI diversifies intra-class sample features by considering the similarity relationships among inter-class sample features to enable the network to learn more general knowledge. RMI summarizes representative features for each category and aligns sample features with these representative features, making the intra-class sample distribution more compact. SMI establishes MI relationships for inter-class representative features, enhancing the stability of representative features while increasing the distinction between inter-class representative features, thus creating clear boundaries between class. Extensive experimental results on widely used benchmark datasets demonstrate the superior performance of EMI over state-of-the-art baseline methods. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# 混合ロジットモデルによる制約配置最適化のための外部近似と超モジュラーカット
Outer Approximation and Super-modular Cuts for Constrained Assortment Optimization under Mixed-Logit Model ( http://arxiv.org/abs/2407.18532v1 ) ライセンス: Link先を確認 | Hoang Giang Pham, Tien Mai, | (参考訳) 本稿では,混合ロジット顧客選択モデルに基づくアソシエーション最適化問題について検討する。
アソシエーション最適化は、何十年にもわたって収益管理において主要なトピックとなっているが、混合ロジットモデルは、顧客の購買行動のモデリングと予測において、最も一般的で柔軟なアプローチの1つと考えられている。
既存の正確な手法は、主にMILP(mixed-integer linear programming)やCONIC(Second-order cone)の修正に頼っている。
しかし、これらのアプローチは、しばしば弱い連続緩和に悩まされ、大きなインスタンスを解く際には遅くなる。
我々の研究は、単調に超モジュラーかつ凸であることを示す客観的関数の成分に焦点をあてることによって、この問題に対処する。
これにより、非線形目的関数の外部近似に有効なカットを導出することができる。
次に、これらの有効なカットをカットプレーンやブランチ・アンド・カットの手法に組み込むことで、その問題を正確に解決できることを実証する。
大規模な実験により、我々のアプローチは、ソリューションの品質と計算時間の両方において、従来手法よりも一貫して優れていたことが示される。
In this paper, we study the assortment optimization problem under the mixed-logit customer choice model. While assortment optimization has been a major topic in revenue management for decades, the mixed-logit model is considered one of the most general and flexible approaches for modeling and predicting customer purchasing behavior. Existing exact methods have primarily relied on mixed-integer linear programming (MILP) or second-order cone (CONIC) reformulations, which allow for exact problem solving using off-the-shelf solvers. However, these approaches often suffer from weak continuous relaxations and are slow when solving large instances. Our work addresses the problem by focusing on components of the objective function that can be proven to be monotonically super-modular and convex. This allows us to derive valid cuts to outer-approximate the nonlinear objective functions. We then demonstrate that these valid cuts can be incorporated into Cutting Plane or Branch-and-Cut methods to solve the problem exactly. Extensive experiments show that our approaches consistently outperform previous methods in terms of both solution quality and computation time. | 翻訳日:2024-07-29 14:20:08 公開日:2024-07-26 |
# 2次元変圧器の蒸留前処理による分岐点分類の高速化
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers ( http://arxiv.org/abs/2407.18534v1 ) ライセンス: Link先を確認 | Longkun Zou, Wanru Zhu, Ke Chen, Lihua Guo, Kailing Guo, Kui Jia, Yaowei Wang, | (参考訳) オブジェクト・ポイント・クラウドのセマンティック・パターンは、その局所的ジオメトリの位相的構成によって決定される。
識別表現の学習は、局所領域における点集合と大域的な視点における不完全曲面の大きな形状変化のために困難であり、非教師なし領域適応(UDA)の文脈でさらに深刻にすることができる。
特定の3Dネットワークでは、主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視し、領域間の一般化を大幅に制限する。
近年、トランスフォーマーベースのモデルでは、ローカルパッチ間の長距離相関をキャプチャすることによる、強力な一般化能力とスケーラビリティの恩恵を受け、画像ベースのタスクにおいて、目覚ましいパフォーマンス向上を実現している。
このような視覚変換器の成功に触発されて,大規模画像上のよく訓練された変換器から関係事前を抽出するRPD(Relational Priors Distillation)法を提案する。
そこで我々は,2次元教師モデルと3次元学生モデルの間で共有されるパラメータフリーズ事前学習トランスフォーマーモジュールを構築し,オンライン知識蒸留戦略を補完し,3次元学生モデルを意味論的に正規化する。
さらに,マスク付き多視点画像特徴を用いたマスク付き点雲パッチの再構築を中心にした,新たな自己教師型タスクを導入する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
この作業のソースコードはhttps://github.com/zou-longkun/RPD.gitで公開されている。
Semantic pattern of an object point cloud is determined by its topological configuration of local geometries. Learning discriminative representations can be challenging due to large shape variations of point sets in local regions and incomplete surface in a global perspective, which can be made even more severe in the context of unsupervised domain adaptation (UDA). In specific, traditional 3D networks mainly focus on local geometric details and ignore the topological structure between local geometries, which greatly limits their cross-domain generalization. Recently, the transformer-based models have achieved impressive performance gain in a range of image-based tasks, benefiting from its strong generalization capability and scalability stemming from capturing long range correlation across local patches. Inspired by such successes of visual transformers, we propose a novel Relational Priors Distillation (RPD) method to extract relational priors from the well-trained transformers on massive images, which can significantly empower cross-domain representations with consistent topological priors of objects. To this end, we establish a parameter-frozen pre-trained transformer module shared between 2D teacher and 3D student models, complemented by an online knowledge distillation strategy for semantically regularizing the 3D student model. Furthermore, we introduce a novel self-supervised task centered on reconstructing masked point cloud patches using corresponding masked multi-view image features, thereby empowering the model with incorporating 3D geometric information. Experiments on the PointDA-10 and the Sim-to-Real datasets verify that the proposed method consistently achieves the state-of-the-art performance of UDA for point cloud classification. The source code of this work is available at https://github.com/zou-longkun/RPD.git. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 共感型会話システムのための多次元評価フレームワークの実現に向けて
Towards a Multidimensional Evaluation Framework for Empathetic Conversational Systems ( http://arxiv.org/abs/2407.18538v1 ) ライセンス: Link先を確認 | Aravind Sesagiri Raamkumar, Siyuan Brandon Loh, | (参考訳) 共感的会話システム(ECS)は、アプリケーションドメインに関係なく、ユーザの感情や感情に共感的に反応するように構築されている。
現在のECS評価手法は、主に金標準比較とベンチマークのためのオフライン評価実験と、特定の構成物に対する人間の評価収集のためのユーザ評価研究に限られている。
これらの方法は、会話における共感の実際の品質を測定するのに不十分である。
本稿では,共感を計測する3つの新しい手法を用いた多次元共感評価フレームワークを提案する。
(i)3つの共感関係次元を用いた構造レベル
(二)共感行動型を用いた行動レベル、及び
三 共感レキシコンを用いて総合的に評価し、その結果、評価過程を固める。
フレームワークの有用性を示すため、最先端のECSモデルと大規模言語モデル(LLM)を用いて実験を行った。
Empathetic Conversational Systems (ECS) are built to respond empathetically to the user's emotions and sentiments, regardless of the application domain. Current ECS studies evaluation approaches are restricted to offline evaluation experiments primarily for gold standard comparison & benchmarking, and user evaluation studies for collecting human ratings on specific constructs. These methods are inadequate in measuring the actual quality of empathy in conversations. In this paper, we propose a multidimensional empathy evaluation framework with three new methods for measuring empathy at (i) structural level using three empathy-related dimensions, (ii) behavioral level using empathy behavioral types, and (iii) overall level using an empathy lexicon, thereby fortifying the evaluation process. Experiments were conducted with the state-of-the-art ECS models and large language models (LLMs) to show the framework's usefulness. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 大規模言語モデルを用いた自然言語テキストからのプロセスモデル情報抽出のための普遍的プロンプト戦略
A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models ( http://arxiv.org/abs/2407.18540v1 ) ライセンス: Link先を確認 | Julian Neuberger, Lars Ackermann, Han van der Aa, Stefan Jablonski, | (参考訳) 過去10年間に渡り、テキストのプロセス記述から情報を抽出する研究が盛んに行われてきた。
自然言語処理(NLP)における顕著な進歩にもかかわらず、ビジネスプロセス管理ドメイン内の情報抽出は、ルールベースのシステムや機械学習の方法論に大きく依存している。
データ不足は、ディープラーニング技術の適用を成功させるのを妨げてきた。
しかし、生成型大規模言語モデル(LLM)の急速な進歩により、広範囲なデータを必要とすることなく、非常に高い品質で多くのNLPタスクを解くことができる。
そこで本研究では,テキストプロセス記述から情報を抽出し,アクティビティやアクターなどのプロセス要素の検出を対象とし,それらの関連性について検討する。
ヒューリスティックアルゴリズムを用いて,プロセスモデル生成のための抽出した情報の適合性を実証する。
新たなプロンプト戦略に基づいて、LLMは最先端の機械学習アプローチよりも高いパフォーマンスで、最大8\%のF_1$スコアを3つの異なるデータセットで実現可能であることを示す。
我々は,8種類のLDM上でのプロンプト戦略を評価するとともに,特定のプロンプト部品が抽出品質に与える影響を解析した。
抽出された情報の精度を向上させる鍵として、サンプルテキストの数、定義の特異性、フォーマット命令の厳密さを識別する。
私たちのコード、プロンプト、データは公開されています。
Over the past decade, extensive research efforts have been dedicated to the extraction of information from textual process descriptions. Despite the remarkable progress witnessed in natural language processing (NLP), information extraction within the Business Process Management domain remains predominantly reliant on rule-based systems and machine learning methodologies. Data scarcity has so far prevented the successful application of deep learning techniques. However, the rapid progress in generative large language models (LLMs) makes it possible to solve many NLP tasks with very high quality without the need for extensive data. Therefore, we systematically investigate the potential of LLMs for extracting information from textual process descriptions, targeting the detection of process elements such as activities and actors, and relations between them. Using a heuristic algorithm, we demonstrate the suitability of the extracted information for process model generation. Based on a novel prompting strategy, we show that LLMs are able to outperform state-of-the-art machine learning approaches with absolute performance improvements of up to 8\% $F_1$ score across three different datasets. We evaluate our prompting strategy on eight different LLMs, showing it is universally applicable, while also analyzing the impact of certain prompt parts on extraction quality. The number of example texts, the specificity of definitions, and the rigour of format instructions are identified as key for improving the accuracy of extracted information. Our code, prompts, and data are publicly available. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 自己教師付き音声モデルを用いたNAM音声合成の信頼性向上に向けて
Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models ( http://arxiv.org/abs/2407.18541v1 ) ライセンス: Link先を確認 | Neil Shah, Shirish Karande, Vineet Gandhi, | (参考訳) そこで本稿では, 自己超越とシーケンシャル・ツー・シーケンス(Seq2Seq)学習技術を活用して, 非聴覚型Murmur-to-Speech変換タスクにおけるインテリジェンスを著しく向上させる新しい手法を提案する。
提案手法は, 音声の自己超越と音声合成に依拠し, 音素音声を合成する従来の手法と異なり, 音素音声の自己合成と音声合成に依拠する。
提案手法は, 模擬音声を用いたにもかかわらず, メルケプストラル歪み(MCD)測定値の29.08%改善により, 最先端のSOTA(so-of-the-art)を克服する。
さらに,興味のある音声で音声を合成する手法として,誤り率を示し,モデルの有効性を実証する。
さらに,既存のCSTR NAM TIMIT Plusコーパスを拡張し,単語誤り率(WER)を42.57%に設定し,合成音声の可知性を評価する手法を提案する。
音声サンプルはhttps://nam2speech.github.io/NAM2Speech/で見ることができる。
We propose a novel approach to significantly improve the intelligibility in the Non-Audible Murmur (NAM)-to-speech conversion task, leveraging self-supervision and sequence-to-sequence (Seq2Seq) learning techniques. Unlike conventional methods that explicitly record ground-truth speech, our methodology relies on self-supervision and speech-to-speech synthesis to simulate ground-truth speech. Despite utilizing simulated speech, our method surpasses the current state-of-the-art (SOTA) by 29.08% improvement in the Mel-Cepstral Distortion (MCD) metric. Additionally, we present error rates and demonstrate our model's proficiency to synthesize speech in novel voices of interest. Moreover, we present a methodology for augmenting the existing CSTR NAM TIMIT Plus corpus, setting a benchmark with a Word Error Rate (WER) of 42.57% to gauge the intelligibility of the synthesized speech. Speech samples can be found at https://nam2speech.github.io/NAM2Speech/ | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 複合織物製造における品質予測のための説明可能な技術の利用
Utilising Explainable Techniques for Quality Prediction in a Complex Textiles Manufacturing Use Case ( http://arxiv.org/abs/2407.18544v1 ) ライセンス: Link先を確認 | Briony Forsberg, Dr Henry Williams, Prof Bruce MacDonald, Tracy Chen, Dr Reza Hamzeh, Dr Kirstine Hulse, | (参考訳) 本稿では, 複合織物製造データセットにおける製品故障事例を説明可能な手法を用いて分類する手法を開発した。
この研究で使用されたデータセットは、ニュージーランドの毛むくじゃらのカーペットとラグの製造者から得られた。
精度と説明可能性のトレードオフを検討するために,3種類の木分類アルゴリズム,決定木とランダムフォレストとXGBoostの2つのアンサンブル手法を評価した。
さらに、スコア関数としてchi-squaredを用いたSelectKBest法、ピアソン相関係数、ボルタアルゴリズムの3つの特徴選択法も評価した。
当然のことながら、アンサンブル法は典型的には決定木モデルよりも優れた結果を生み出した。
ランダムフォレストモデルでは,ボルタの特徴選択技術と組み合わせて総合的に最高の結果を得た。
最後に,ヒトが容易に解釈できる学習モデルにより,分類に必要な,十分な条件を把握するためのルールリストを抽出するために,ツリーアンサンブル説明法が用いられた。
特に、抽出されたルールリストに含まれるいくつかの特徴は、元のデータセットに追加された統計的特徴と計算された特徴であった。
これは、データ前処理の段階で追加情報をもたらすことが、究極のモデルパフォーマンスに与える影響を示している。
This paper develops an approach to classify instances of product failure in a complex textiles manufacturing dataset using explainable techniques. The dataset used in this study was obtained from a New Zealand manufacturer of woollen carpets and rugs. In investigating the trade-off between accuracy and explainability, three different tree-based classification algorithms were evaluated: a Decision Tree and two ensemble methods, Random Forest and XGBoost. Additionally, three feature selection methods were also evaluated: the SelectKBest method, using chi-squared as the scoring function, the Pearson Correlation Coefficient, and the Boruta algorithm. Not surprisingly, the ensemble methods typically produced better results than the Decision Tree model. The Random Forest model yielded the best results overall when combined with the Boruta feature selection technique. Finally, a tree ensemble explaining technique was used to extract rule lists to capture necessary and sufficient conditions for classification by a trained model that could be easily interpreted by a human. Notably, several features that were in the extracted rule lists were statistical features and calculated features that were added to the original dataset. This demonstrates the influence that bringing in additional information during the data preprocessing stages can have on the ultimate model performance. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# ReALFRED:フォトリアリスティックな環境におけるベンチマーク後の身体的インストラクション
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments ( http://arxiv.org/abs/2407.18550v1 ) ライセンス: Link先を確認 | Taewoong Kim, Cheolhong Min, Byeonghwi Kim, Jinyeon Kim, Wonje Jeung, Jonghyun Choi, | (参考訳) シミュレーション仮想環境は、日常的な家庭作業を行うロボットエージェントの学習に広く利用されている。
これらの環境は研究の進歩を促進するが、しばしばオブジェクトの相互作用性や実際の環境とは異なる視覚的外観、あるいは比較的小さな環境サイズを提供する。
これにより、仮想シーンの学習したモデルが容易にデプロイできなくなる。
学習環境と実際の環境とのギャップを埋めるために,実世界のシーン,オブジェクト,部屋のレイアウトを取り入れたReALFREDベンチマークを提案する。
具体的には、視覚領域のギャップを小さくした環境空間を更新したALFREDベンチマークを拡張する。
ReALFREDでは、以前作られたALFREDベンチマークのメソッドを分析し、すべてのメトリクスで一貫して低いパフォーマンスが得られることを観察し、コミュニティがより現実的な環境でメソッドを開発することを奨励します。
私たちのコードとデータは公開されています。
Simulated virtual environments have been widely used to learn robotic agents that perform daily household tasks. These environments encourage research progress by far, but often provide limited object interactability, visual appearance different from real-world environments, or relatively smaller environment sizes. This prevents the learned models in the virtual scenes from being readily deployable. To bridge the gap between these learning environments and deploying (i.e., real) environments, we propose the ReALFRED benchmark that employs real-world scenes, objects, and room layouts to learn agents to complete household tasks by understanding free-form language instructions and interacting with objects in large, multi-room and 3D-captured scenes. Specifically, we extend the ALFRED benchmark with updates for larger environmental spaces with smaller visual domain gaps. With ReALFRED, we analyze previously crafted methods for the ALFRED benchmark and observe that they consistently yield lower performance in all metrics, encouraging the community to develop methods in more realistic environments. Our code and data are publicly available. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 困難誘導型特徴拡張ネットワークを用いたマルチエージェント軌道予測
Multi-Agent Trajectory Prediction with Difficulty-Guided Feature Enhancement Network ( http://arxiv.org/abs/2407.18551v1 ) ライセンス: Link先を確認 | Guipeng Xin, Duanfeng Chu, Liping Lu, Zejian Deng, Yuang Lu, Xigang Wu, | (参考訳) 軌道予測は、交通参加者の将来の動きを予測することを目的として、自動運転に不可欠である。
従来の手法は通常、エージェントの軌道に関する全体論的推論を行い、エージェント間の予測困難の違いを無視する。
本稿では,エージェント間の予測難易度差を利用したDGFNet(Difficulty-Guided Feature Enhancement Network)を提案する。
まず,時空間的特徴を抽出するために時空間的特徴符号化と相互作用を用いる。
第二に、後続のモジュールへの将来の軌道の流れを制御し、信頼性の高い将来の軌道を得るために、困難誘導デコーダが使用される。
そして、将来の機能相互作用モジュールを介して機能相互作用と融合を行う。
最後に、融合剤の特徴を最終予測器に供給し、複数の参加者に対して予測された軌道分布を生成する。
実験の結果,我々のDGFNetはArgoverse 1\&2運動予測ベンチマークで最先端の性能を達成できた。
アブレーション研究は各モジュールの有効性をさらに検証する。
さらに,SOTA法と比較して,軌道予測精度とリアルタイム推論速度のバランスをとる。
Trajectory prediction is crucial for autonomous driving as it aims to forecast the future movements of traffic participants. Traditional methods usually perform holistic inference on the trajectories of agents, neglecting the differences in prediction difficulty among agents. This paper proposes a novel Difficulty-Guided Feature Enhancement Network (DGFNet), which leverages the prediction difficulty differences among agents for multi-agent trajectory prediction. Firstly, we employ spatio-temporal feature encoding and interaction to capture rich spatio-temporal features. Secondly, a difficulty-guided decoder is used to control the flow of future trajectories into subsequent modules, obtaining reliable future trajectories. Then, feature interaction and fusion are performed through the future feature interaction module. Finally, the fused agent features are fed into the final predictor to generate the predicted trajectory distributions for multiple participants. Experimental results demonstrate that our DGFNet achieves state-of-the-art performance on the Argoverse 1\&2 motion forecasting benchmarks. Ablation studies further validate the effectiveness of each module. Moreover, compared with SOTA methods, our method balances trajectory prediction accuracy and real-time inference speed. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# クロスアテンションを用いたオーディオ・ビデオ変換器フュージョンを用いたマルチモーダル感情認識
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention ( http://arxiv.org/abs/2407.18552v1 ) ライセンス: Link先を確認 | Joe Dhanith P R, Shravan Venkatraman, Vigya Sharma, Santhosh Malarvannan, | (参考訳) 感情を理解することは人間のコミュニケーションの基本的な側面である。
音声とビデオ信号の統合は、音声や表情のような単一のデータソースに依存する従来の方法と比較して、感情状態のより包括的な理解を提供する。
その可能性にもかかわらず、マルチモーダル感情認識は特に同期、特徴抽出、多様なデータソースの融合において重大な課題に直面している。
これらの問題に対処するために,Audio-Video Transformer Fusion with Cross Attention (AVT-CA) という新しいトランスフォーマーモデルを提案する。
AVT-CAモデルは、音声とビデオの両方からリンクされた特徴を効果的にキャプチャし、同期化するために、トランスフォーマー融合方式を採用している。
さらに、AVT-CA内のクロスアテンション機構は、重要な特徴を選択的に抽出し、モダリティから無関係なものを捨て、特徴抽出と融合の課題に対処しながら強調する。
CMU-MOSEI, RAVDESS, CREMA-Dデータセットを用いた大規模実験により, 提案モデルの有効性が示された。
AVT-CAは,実践的応用のための正確で信頼性の高いマルチモーダル感情認識システムの開発において重要である。
Understanding emotions is a fundamental aspect of human communication. Integrating audio and video signals offers a more comprehensive understanding of emotional states compared to traditional methods that rely on a single data source, such as speech or facial expressions. Despite its potential, multimodal emotion recognition faces significant challenges, particularly in synchronization, feature extraction, and fusion of diverse data sources. To address these issues, this paper introduces a novel transformer-based model named Audio-Video Transformer Fusion with Cross Attention (AVT-CA). The AVT-CA model employs a transformer fusion approach to effectively capture and synchronize interlinked features from both audio and video inputs, thereby resolving synchronization problems. Additionally, the Cross Attention mechanism within AVT-CA selectively extracts and emphasizes critical features while discarding irrelevant ones from both modalities, addressing feature extraction and fusion challenges. Extensive experimental analysis conducted on the CMU-MOSEI, RAVDESS and CREMA-D datasets demonstrates the efficacy of the proposed model. The results underscore the importance of AVT-CA in developing precise and reliable multimodal emotion recognition systems for practical applications. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 深層学習を用いた皮膚癌検出:視覚変換器を用いた皮膚病変画像の分類
Skin Cancer Detection utilizing Deep Learning: Classification of Skin Lesion Images using a Vision Transformer ( http://arxiv.org/abs/2407.18554v1 ) ライセンス: Link先を確認 | Carolin Flosdorf, Justin Engelker, Igor Keller, Nicolas Mohr, | (参考訳) 皮膚がん検出は依然として医療における大きな課題である。
一般的な検出方法は長く、多くの国で不足している人的援助を必要とする。
これまでの研究では、畳み込みニューラルネットワーク(CNN)が、自動化と人間のレベルに匹敵する精度の両方を効果的に活用する方法が示されている。
しかし、過去数十年の進歩にもかかわらず、精度は依然として限られており、人々の健康に深刻な影響を及ぼす重大な誤分類につながっている。
そこで我々は,近年開発されているビジョントランスフォーマー(ViT)を,自己注意機構,特に事前学習したViTの2つの構成に基づいて採用している。
判定木分類器やk-nearest neighbor(KNN)分類器,CNNやより複雑なVTと比較し,皮膚病変の分類に優れた指標が得られた。
特に,最も致命的な皮膚癌であるメラノーマの悪性度に重きを置いている。
ViT-L32モデルは91.57%、メラノーマリコールは58.54%、ViT-L16は92.79%、メラノーマリコールは56.10%である。
これは、より迅速で正確な診断のための潜在的なツールと、医療セクター全体の改善を提供する。
Skin cancer detection still represents a major challenge in healthcare. Common detection methods can be lengthy and require human assistance which falls short in many countries. Previous research demonstrates how convolutional neural networks (CNNs) can help effectively through both automation and an accuracy that is comparable to the human level. However, despite the progress in previous decades, the precision is still limited, leading to substantial misclassifications that have a serious impact on people's health. Hence, we employ a Vision Transformer (ViT) that has been developed in recent years based on the idea of a self-attention mechanism, specifically two configurations of a pre-trained ViT. We generally find superior metrics for classifying skin lesions after comparing them to base models such as decision tree classifier and k-nearest neighbor (KNN) classifier, as well as to CNNs and less complex ViTs. In particular, we attach greater importance to the performance of melanoma, which is the most lethal type of skin cancer. The ViT-L32 model achieves an accuracy of 91.57% and a melanoma recall of 58.54%, while ViT-L16 achieves an accuracy of 92.79% and a melanoma recall of 56.10%. This offers a potential tool for faster and more accurate diagnoses and an overall improvement for the healthcare sector. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 2次元モデルを用いた3次元領域分割法:多角最大強度投影と拡散モデルを用いたPETボリュームにおける前立腺癌転移病変の3次元自動分離
How To Segment in 3D Using 2D Models: Automated 3D Segmentation of Prostate Cancer Metastatic Lesions on PET Volumes Using Multi-Angle Maximum Intensity Projections and Diffusion Models ( http://arxiv.org/abs/2407.18555v1 ) ライセンス: Link先を確認 | Amirhosein Toosi, Sara Harsini, François Bénard, Carlos Uribe, Arman Rahmim, | (参考訳) 前立腺特異的膜抗原 (PSMA) ポジトロン・エミッション・トモグラフィー (PET/CT) は前立腺癌 (PCa) 転移の可視化において極めてエキサイティングなフロンティアを提供する。
しかし,低信号-雑音比,可変サイズ,形状,病変の位置が原因で,正確な転移巣の分節化が困難である。
本研究は2次元拡散確率モデル(DDPM)を用いたPSMA PET/CT 3Dボリューム画像における転移病変の自動分割のための新しいアプローチを提案する。
提案手法は,PSMA PET画像の多重角最大強度射影(MA-MIP)の病変を2次元半軸スライスや3次元ボリュームの代わりに分割し,3次元オーダーサブセット予測最大化(OSEM)による2次元MA-MIP分割の再構成から最終3次元セグメンテーションマスクを得る。
提案法は, 微小転移性PCa病変の検出・分節における精度, 堅牢性の観点から, 最先端の3次元分節法に比べ, 優れた性能を示した。
提案法はPCa患者の転移性負担の定量的解析ツールとして有意な可能性を秘めている。
Prostate specific membrane antigen (PSMA) positron emission tomography/computed tomography (PET/CT) imaging provides a tremendously exciting frontier in visualization of prostate cancer (PCa) metastatic lesions. However, accurate segmentation of metastatic lesions is challenging due to low signal-to-noise ratios and variable sizes, shapes, and locations of the lesions. This study proposes a novel approach for automated segmentation of metastatic lesions in PSMA PET/CT 3D volumetric images using 2D denoising diffusion probabilistic models (DDPMs). Instead of 2D trans-axial slices or 3D volumes, the proposed approach segments the lesions on generated multi-angle maximum intensity projections (MA-MIPs) of the PSMA PET images, then obtains the final 3D segmentation masks from 3D ordered subset expectation maximization (OSEM) reconstruction of 2D MA-MIPs segmentations. Our proposed method achieved superior performance compared to state-of-the-art 3D segmentation approaches in terms of accuracy and robustness in detecting and segmenting small metastatic PCa lesions. The proposed method has significant potential as a tool for quantitative analysis of metastatic burden in PCa patients. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# 世界観と推論:スパース知識グラフに関する2段階の経路推論
Look Globally and Reason: Two-stage Path Reasoning over Sparse Knowledge Graphs ( http://arxiv.org/abs/2407.18556v1 ) ライセンス: Link先を確認 | Saiping Guan, Jiyao Wei, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng, | (参考訳) 現実世界のアプリケーションでよく見られるスパース知識グラフ(KG)は、より人口の多いKGに比べて、(ヘッドエンティティ、リレーショナル、テールエンティティ)形式の事実が少ない。
スパースKG完了タスクは、スパースKGに対する(ヘッドエンティティ、リレーション、?)形式で、与えられたクエリに対する応答を理由付けるもので、限られた事実に基づいて、行方不明な事実を推論する必要があるため、特に困難である。
優れた説明可能性で知られるパスベースモデルは、しばしばこのタスクに使用される。
しかし、既存のパスベースのモデルは通常、欠落した事実を補うために外部モデルに依存し、その後パス推論を実行する。
このアプローチは説明不可能な要素を導入するか、厳密なルール設計を必要とする。
そこで本稿では,外部支援を求めるのではなく,内向きのアプローチを提案する。
スパースKGに対してLoGRe(Look Globally and Reason)と呼ばれる2段階経路推論モデルを導入する。
LoGReは、訓練データをグローバルに分析して関係パス推論スキーマを構築し、スパースネス問題を緩和する。
このスキーマに基づいて、LoGReは回答を推論するためにパスを集約する。
5つのベンチマークスパースKGデータセットの実験結果から,提案したLoGReモデルの有効性が示された。
Sparse Knowledge Graphs (KGs), frequently encountered in real-world applications, contain fewer facts in the form of (head entity, relation, tail entity) compared to more populated KGs. The sparse KG completion task, which reasons answers for given queries in the form of (head entity, relation, ?) for sparse KGs, is particularly challenging due to the necessity of reasoning missing facts based on limited facts. Path-based models, known for excellent explainability, are often employed for this task. However, existing path-based models typically rely on external models to fill in missing facts and subsequently perform path reasoning. This approach introduces unexplainable factors or necessitates meticulous rule design. In light of this, this paper proposes an alternative approach by looking inward instead of seeking external assistance. We introduce a two-stage path reasoning model called LoGRe (Look Globally and Reason) over sparse KGs. LoGRe constructs a relation-path reasoning schema by globally analyzing the training data to alleviate the sparseness problem. Based on this schema, LoGRe then aggregates paths to reason out answers. Experimental results on five benchmark sparse KG datasets demonstrate the effectiveness of the proposed LoGRe model. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# VSSD:Vision Mamba - 非Casual State Space Duality
VSSD: Vision Mamba with Non-Casual State Space Duality ( http://arxiv.org/abs/2407.18559v1 ) ライセンス: Link先を確認 | Yuheng Shi, Minjing Dong, Mingjia Li, Chang Xu, | (参考訳) ビジョントランスフォーマーはコンピュータビジョンの分野を大きく進歩させ、堅牢なモデリング機能とグローバルな受容機能を提供している。
しかし、その高い計算要求は、長いシーケンスを処理する際の適用性を制限している。
この問題に対処するため、状態空間モデル(SSM)は線形計算の複雑さを提供するため、視覚タスクで優位に立った。
近年,SSMの改良版であるState Space Duality (SSD) がMamba2で導入され,モデル性能と効率が向上した。
しかし、SSD/SSMの本質的な因果性は、非因果視覚タスクにおけるそれらの応用を制限する。
この制限に対処するために、SSDの非因果形式を持つVisual State Space Duality(VSSD)モデルを導入する。
具体的には,トークンの相対重みを保ちつつ,隠蔽状態とトークン間の相互作用の大きさを排除し,トークンへのコントリビューションの依存性を緩和することを提案する。
マルチスキャン戦略の関与とともに、スキャン結果が非因果性を実現するために統合できることを示し、視力タスクにおけるSSDの性能の向上だけでなく、その効率の向上も図っている。
我々は、VSSDが既存の最先端SSMモデルを上回る画像分類、検出、セグメンテーションを含む様々なベンチマークで広範な実験を行う。
コードとウェイトは \url{https://github.com/YuHengss/VSSD} で入手できる。
Vision transformers have significantly advanced the field of computer vision, offering robust modeling capabilities and global receptive field. However, their high computational demands limit their applicability in processing long sequences. To tackle this issue, State Space Models (SSMs) have gained prominence in vision tasks as they offer linear computational complexity. Recently, State Space Duality (SSD), an improved variant of SSMs, was introduced in Mamba2 to enhance model performance and efficiency. However, the inherent causal nature of SSD/SSMs restricts their applications in non-causal vision tasks. To address this limitation, we introduce Visual State Space Duality (VSSD) model, which has a non-causal format of SSD. Specifically, we propose to discard the magnitude of interactions between the hidden state and tokens while preserving their relative weights, which relieves the dependencies of token contribution on previous tokens. Together with the involvement of multi-scan strategies, we show that the scanning results can be integrated to achieve non-causality, which not only improves the performance of SSD in vision tasks but also enhances its efficiency. We conduct extensive experiments on various benchmarks including image classification, detection, and segmentation, where VSSD surpasses existing state-of-the-art SSM-based models. Code and weights are available at \url{https://github.com/YuHengsss/VSSD}. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# Retrieval Augmentationを用いたノイズデータからエンティティ認識者のロバスト学習
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation ( http://arxiv.org/abs/2407.18562v1 ) ライセンス: Link先を確認 | Chaoyi Ai, Yong Jiang, Shen Huang, Pengjun Xie, Kewei Tu, | (参考訳) 名前付きエンティティ認識(NER)モデルは、光学文字認識プロセスによるスペルミスや誤りなどのノイズの多い入力に苦しむことが多く、堅牢なNERモデルを学ぶことは難しい。
既存の堅牢なNERモデルはノイズの多いテキストとそれに対応するゴールドテキストの両方をトレーニングに利用しており、ゴールドテキストが利用できない現実世界の多くのアプリケーションでは利用できない。
本稿では,ノイズの多いテキストとそのNERラベルのみを利用できる,より現実的な設定について考察する。
本稿では、知識コーパスからノイズテキストの関連テキストを取得し、それを用いて、元のノイズ入力の表現を強化することを提案する。
本稿では,語彙類似度に基づくスパース検索,意味類似度に基づく密検索,タスク固有テキストに基づく自己検索の3つの手法を設計する。
関連テキストを検索した後、検索したテキストを元のノイズテキストと結合し、トランスフォーマーネットワークで符号化し、自己アテンションを利用して、検索したテキストを用いて、ノイズテキストのコンテキストトークン表現を強化する。
推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークも採用している。
実験により, 検索強化モデルにより, 各種ノイズNER設定の大幅な改善が得られた。
Named entity recognition (NER) models often struggle with noisy inputs, such as those with spelling mistakes or errors generated by Optical Character Recognition processes, and learning a robust NER model is challenging. Existing robust NER models utilize both noisy text and its corresponding gold text for training, which is infeasible in many real-world applications in which gold text is not available. In this paper, we consider a more realistic setting in which only noisy text and its NER labels are available. We propose to retrieve relevant text of the noisy text from a knowledge corpus and use it to enhance the representation of the original noisy input. We design three retrieval methods: sparse retrieval based on lexicon similarity, dense retrieval based on semantic similarity, and self-retrieval based on task-specific text. After retrieving relevant text, we concatenate the retrieved text with the original noisy text and encode them with a transformer network, utilizing self-attention to enhance the contextual token representations of the noisy text using the retrieved text. We further employ a multi-view training framework that improves robust NER without retrieving text during inference. Experiments show that our retrieval-augmented model achieves significant improvements in various noisy NER settings. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# プライバシーの脆弱性を解き明かす - グラフデータにおける構造の役割を探る
Unveiling Privacy Vulnerabilities: Investigating the Role of Structure in Graph Data ( http://arxiv.org/abs/2407.18564v1 ) ライセンス: Link先を確認 | Hanyang Yuan, Jiarong Xu, Cong Wang, Ziqi Yang, Chunping Wang, Keting Yin, Yang Yang, | (参考訳) ユーザー情報の公開共有は、敵がプライベートデータを推測する扉を開き、プライバシー侵害と悪意ある活動を促進する。
多くの研究は、公開ユーザ属性によるプライバシー漏洩に集中しているが、特にネットワーク構造を通じて、ユーザー関係の暴露に関連する脅威は無視されることが多い。
本研究の目的は,ネットワーク構造から生じるプライバシーリスクに対する理解と保護を向上し,ネットワーク構造パターンの広範な影響を含むように,近隣との直接接続を超えて,この重要なギャップを埋めることである。
そこで我々はまず,構造情報によるグラフプライバシー漏洩の問題を調査し,GPSにおけるプライバシー侵害のリスクに寄与する様々なメカニズムを定量化するために,一般化ホモフィリ比(Generalized Homophily Ratio)という新しい尺度を導入する。
この知見に基づいて、最悪のシナリオ下でのネットワーク構造によるプライバシー漏洩の可能性を評価するための重要なツールとして機能する、新しいグラフプライベート属性推論攻撃を開発する。
このような脆弱性からユーザのプライベートデータを保護するために,学習可能なグラフサンプリング手法を取り入れたグラフデータパブリッシング手法を提案する。
大規模な実験では,攻撃モデルがユーザのプライバシに重大な脅威をもたらすことが示され,グラフデータパブリッシング手法は,ベースラインと比較して最適なプライバシ・ユーティリティ・トレードオフを実現することに成功した。
The public sharing of user information opens the door for adversaries to infer private data, leading to privacy breaches and facilitating malicious activities. While numerous studies have concentrated on privacy leakage via public user attributes, the threats associated with the exposure of user relationships, particularly through network structure, are often neglected. This study aims to fill this critical gap by advancing the understanding and protection against privacy risks emanating from network structure, moving beyond direct connections with neighbors to include the broader implications of indirect network structural patterns. To achieve this, we first investigate the problem of Graph Privacy Leakage via Structure (GPS), and introduce a novel measure, the Generalized Homophily Ratio, to quantify the various mechanisms contributing to privacy breach risks in GPS. Based on this insight, we develop a novel graph private attribute inference attack, which acts as a pivotal tool for evaluating the potential for privacy leakage through network structures under worst-case scenarios. To protect users' private data from such vulnerabilities, we propose a graph data publishing method incorporating a learnable graph sampling technique, effectively transforming the original graph into a privacy-preserving version. Extensive experiments demonstrate that our attack model poses a significant threat to user privacy, and our graph data publishing method successfully achieves the optimal privacy-utility trade-off compared to baselines. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# サノフ定理の別の量子バージョン
Another quantum version of Sanov theorem ( http://arxiv.org/abs/2407.18566v1 ) ライセンス: Link先を確認 | Masahito Hayashi, | (参考訳) 我々は、サノフの定理を量子集合に拡張する方法を研究する。
しかし、サノフの定理の量子バージョンはBjelakovic et al (Commun) で提案された。
数学。
Phys
なぜなら、サノフの定理は、経験分布が真の分布と異なるときに経験分布の挙動を論じるものであるが、古典的なサノフの定理によって古典的なバージョンが示される量子仮説テストに関連する問題を研究したからである。
我々は、経験的分布の量子アナログを考慮することで、サノフの定理の別の量子バージョンを提案する。
We study how to extend Sanov theorem to the quantum setting. Although a quantum version of the Sanov theorem was proposed in Bjelakovic et al (Commun. Math. Phys., 260, p.659 (2005)), the classical case of their statement is not the same as Sanov theorem because Sanov theorem discusses the behavior of the empirical distribution when the empirical distribution is different from the true distribution, but they studied a problem related to quantum hypothesis testing, whose classical version can be shown by classical Sanov theorem. We propose another quantum version of Sanov theorem by considering the quantum analog of the empirical distribution. | 翻訳日:2024-07-29 14:10:09 公開日:2024-07-26 |
# ドメイン一般化セマンティックセグメンテーションのためのスペクトル分解トークンの学習
Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2407.18568v1 ) ライセンス: Link先を確認 | Jingjun Yi, Qi Bi, Hao Zheng, Haolan Zhan, Wei Ji, Yawen Huang, Yuexiang Li, Yefeng Zheng, | (参考訳) ビジョン・ファンデーション・モデル(VFM)の急速な開発は、様々な下流タスクに固有の外部領域の一般化をもたらす。
中でもドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)は、クロスドメイン画像が共通のピクセル単位のコンテンツ情報を共有するが、スタイルの点で大きく異なるため、ユニークな課題を抱えている。
本稿では、フロンティアを前進させるための新しいスペクトル-dEcomposed Token(SET)学習フレームワークを提案する。
既存の微調整トークンやフリーズバックボーンのパラダイムを超えて、提案されたSETは特に、これらの学習可能なトークンからスタイル不変の機能を学ぶ方法に焦点を当てている。
特に、凍結されたVFM特徴は、まず、主に内容情報とスタイルの情報を含む周波数空間の位相成分と振幅成分に分解され、次いでタスク固有の情報抽出のための学習可能なトークンによって別々に処理される。
分解後、スタイルの変化は、主に振幅分岐内のトークンベースの特徴強化に影響を与える。
この問題に対処するため、我々は、推論中にスタイル影響表現と静的トークンのギャップを埋めるための注意最適化手法をさらに開発する。
広範囲にわたるクロスドメイン実験は、最先端のパフォーマンスを示している。
The rapid development of Vision Foundation Model (VFM) brings inherent out-domain generalization for a variety of down-stream tasks. Among them, domain generalized semantic segmentation (DGSS) holds unique challenges as the cross-domain images share common pixel-wise content information but vary greatly in terms of the style. In this paper, we present a novel Spectral-dEcomposed Token (SET) learning framework to advance the frontier. Delving into further than existing fine-tuning token & frozen backbone paradigm, the proposed SET especially focuses on the way learning style-invariant features from these learnable tokens. Particularly, the frozen VFM features are first decomposed into the phase and amplitude components in the frequency space, which mainly contain the information of content and style, respectively, and then separately processed by learnable tokens for task-specific information extraction. After the decomposition, style variation primarily impacts the token-based feature enhancement within the amplitude branch. To address this issue, we further develop an attention optimization method to bridge the gap between style-affected representation and static tokens during inference. Extensive cross-domain experiments show its state-of-the-art performance. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# PP-TIL:インスタンスを用いた移動模倣学習による自律運転の個人化計画
PP-TIL: Personalized Planning for Autonomous Driving with Instance-based Transfer Imitation Learning ( http://arxiv.org/abs/2407.18569v1 ) ライセンス: Link先を確認 | Fangze Lin, Ying He, Fei Yu, | (参考訳) パーソナライズド・モーション・プランニングは、都会の自動運転において重要な役割を担い、個々の利用者のユニークな要求に応えている。
それにもかかわらず、事前の取り組みは、複雑な都市環境におけるパーソナライズされた計画と、データ利用による計画性能の向上の2つの重要な側面に同時に対処する上で、しばしば困難に直面している。
この課題は、ユーザデータの高価で制限された性質と、無限大に傾向するシーン状態空間から生じます。
これらの要因は、モデルトレーニングにおける過度な適合と一般化の問題に寄与する。
そこで本研究では,インスタンスベースの伝達模倣学習手法を提案する。
本手法は,知識を専門領域データからユーザ領域へ移行し,これらの課題に対する根本的な解決方法を示す。
私たちは最初、大規模な専門家データを使って事前訓練されたモデルをトレーニングします。
その後、微調整フェーズにおいて、専門家とユーザデータからなるバッチデータをフィードする。
逆強化学習手法を用いて,ユーザ・デモからスタイル特徴分布を抽出し,ユーザ・スタイルの近似のための正規化項を構築する。
実験では,提案手法の広範な評価を行った。
本手法は,基本手法と比較して,スパースユーザデータによるオーバーフィッティング問題を緩和する。
さらに、エンド・ツー・エンドのパーソナライズされた微調整結果に対する安全保護層として、運転モデルと微分非線形オプティマイザを統合することにより、計画性能が向上することを発見した。
Personalized motion planning holds significant importance within urban automated driving, catering to the unique requirements of individual users. Nevertheless, prior endeavors have frequently encountered difficulties in simultaneously addressing two crucial aspects: personalized planning within intricate urban settings and enhancing planning performance through data utilization. The challenge arises from the expensive and limited nature of user data, coupled with the scene state space tending towards infinity. These factors contribute to overfitting and poor generalization problems during model training. Henceforth, we propose an instance-based transfer imitation learning approach. This method facilitates knowledge transfer from extensive expert domain data to the user domain, presenting a fundamental resolution to these issues. We initially train a pre-trained model using large-scale expert data. Subsequently, during the fine-tuning phase, we feed the batch data, which comprises expert and user data. Employing the inverse reinforcement learning technique, we extract the style feature distribution from user demonstrations, constructing the regularization term for the approximation of user style. In our experiments, we conducted extensive evaluations of the proposed method. Compared to the baseline methods, our approach mitigates the overfitting issue caused by sparse user data. Furthermore, we discovered that integrating the driving model with a differentiable nonlinear optimizer as a safety protection layer for end-to-end personalized fine-tuning results in superior planning performance. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 音声帯域幅拡大と高忠実性生成対向ネットワーク
Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks ( http://arxiv.org/abs/2407.18571v1 ) ライセンス: Link先を確認 | Mahmoud Salhab, Haidar Harmanani, | (参考訳) 音声帯域拡張は低帯域音声信号の周波数範囲の拡大に不可欠であり,デジタルアプリケーションにおける音質,明瞭度,知覚性の向上に寄与する。
その用途は電話、圧縮、音声合成、音声認識に及んでいる。
本稿では,高忠実性生成対向ネットワークを用いた新しい手法を提案する。
提案手法は,様々な帯域幅のアップサンプリング比を,音声帯域幅拡張アプリケーションに特化して設計された単一統一モデルに統合する。
本手法は、訓練中に遭遇しないものやゼロショット機能など、様々な帯域拡大要因に対して頑健な性能を示す。
私たちの知る限りでは、この機能を披露するのはこれが初めてです。
実験の結果,提案手法は補間や従来の手法と同様に従来のエンドツーエンド手法よりも優れており,実用的な音声強調手法としての有効性が示された。
Speech bandwidth expansion is crucial for expanding the frequency range of low-bandwidth speech signals, thereby improving audio quality, clarity and perceptibility in digital applications. Its applications span telephony, compression, text-to-speech synthesis, and speech recognition. This paper presents a novel approach using a high-fidelity generative adversarial network, unlike cascaded systems, our system is trained end-to-end on paired narrowband and wideband speech signals. Our method integrates various bandwidth upsampling ratios into a single unified model specifically designed for speech bandwidth expansion applications. Our approach exhibits robust performance across various bandwidth expansion factors, including those not encountered during training, demonstrating zero-shot capability. To the best of our knowledge, this is the first work to showcase this capability. The experimental results demonstrate that our method outperforms previous end-to-end approaches, as well as interpolation and traditional techniques, showcasing its effectiveness in practical speech enhancement applications. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 非視線イメージングのための開口ファサーフィールドの学習
Learning to Enhance Aperture Phasor Field for Non-Line-of-Sight Imaging ( http://arxiv.org/abs/2407.18574v1 ) ライセンス: Link先を確認 | In Cho, Hyunbo Shim, Seon Joo Kim, | (参考訳) 本研究の目的は,サンプリングやスキャンエリアの数を削減し,より実用的なNLOSイメージングを実現することである。
この目的のために,ノイズのある部分的な観測からクリーンで完全な測定を予測できるファサーベースエンハンスメントネットワークを導入する。
本研究では,デノナイズドオートエンコーダ方式を利用して,測定空間におけるリッチでノイズの多い表現を得る。
このパイプラインを通じて、我々の拡張ネットワークは、破損した部分的な測定から完全な測定を正確に再構築するように訓練されている。
しかし,デノナイジング法では,不必要な周波数信号や急激な周波数信号が原因で,劣化や過度なスムース化が生じることが多い。
この問題に対処するため,ネットワークのスペクトルを周波数範囲に制限するファサーベースパイプラインを導入し,ほとんどの情報信号が検出される。
帯域制限信号である開口部のファサー波面は,ネットワークの入力および出力として利用され,その周波数範囲からネットワークを誘導し,不要な情報を捨てる。
より実用的な買収シナリオの実験結果からは、16ドル(約1,600円)または64ドル(約6,800円)のサンプルと4ドル(約4,800円)の小さな開口部で見回せることが示されています。
私たちのコードは \url{https://github.com/join16/LEAP} で利用可能です。
This paper aims to facilitate more practical NLOS imaging by reducing the number of samplings and scan areas. To this end, we introduce a phasor-based enhancement network that is capable of predicting clean and full measurements from noisy partial observations. We leverage a denoising autoencoder scheme to acquire rich and noise-robust representations in the measurement space. Through this pipeline, our enhancement network is trained to accurately reconstruct complete measurements from their corrupted and partial counterparts. However, we observe that the \naive application of denoising often yields degraded and over-smoothed results, caused by unnecessary and spurious frequency signals present in measurements. To address this issue, we introduce a phasor-based pipeline designed to limit the spectrum of our network to the frequency range of interests, where the majority of informative signals are detected. The phasor wavefronts at the aperture, which are band-limited signals, are employed as inputs and outputs of the network, guiding our network to learn from the frequency range of interests and discard unnecessary information. The experimental results in more practical acquisition scenarios demonstrate that we can look around the corners with $16\times$ or $64\times$ fewer samplings and $4\times$ smaller apertures. Our code is available at \url{https://github.com/join16/LEAP}. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 動的言語グループに基づくMoE:コードスイッチング音声認識の効率性と柔軟性向上
Dynamic Language Group-Based MoE: Enhancing Efficiency and Flexibility for Code-Switching Speech Recognition ( http://arxiv.org/abs/2407.18581v1 ) ライセンス: Link先を確認 | Hukai Huang, Shenghui Lu, Yahui Shan, He Qu, Wenhao Guan, Qingyang Hong, Lin Li, | (参考訳) Mixture of Experts (MoE)アプローチは、マルチ言語とコードスイッチング(CS)の課題に取り組むのに理想的だ。
本研究はバイリンガルシナリオとCSシナリオに最適化されたDLG-MoEを紹介する。
我々の新しいDynamic Language GroupベースのMoEレイヤは、明示的な言語モデリングのための共有重みを持つ言語ルータを備えており、言語グループ内の独立した教師なしルータは、言語以外の属性を処理する。
この構造は、熟練した拡張能力を向上するだけでなく、動的トップkトレーニングもサポートし、様々なトップk値に対する柔軟な推論を可能にし、全体的なパフォーマンスを向上させる。
このモデルは事前トレーニングを必要とせず、ストリーミング認識をサポートし、最先端(SOTA)結果を達成する。
コードはリリースされる。
The Mixture of Experts (MoE) approach is ideally suited for tackling multilingual and code-switching (CS) challenges due to its multi-expert architecture. This work introduces the DLG-MoE, which is optimized for bilingual and CS scenarios. Our novel Dynamic Language Group-based MoE layer features a language router with shared weights for explicit language modeling, while independent unsupervised routers within the language group handle attributes beyond language. This structure not only enhances expert extension capabilities but also supports dynamic top-k training, allowing for flexible inference across various top-k values and improving overall performance. The model requires no pre-training and supports streaming recognition, achieving state-of-the-art (SOTA) results with unmatched flexibility compared to other methods. The Code will be released. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# セキュアなAIベースのシステムの設計:多言語文献レビュー
Designing Secure AI-based Systems: a Multi-Vocal Literature Review ( http://arxiv.org/abs/2407.18584v1 ) ライセンス: Link先を確認 | Simon Schneider, Ananya Saha, Emanuele Mezzi, Katja Tuma, Riccardo Scandariato, | (参考訳) AIベースのシステムは、従来のソフトウェアシステムとAIコンポーネントを組み合わせることで、AI/ML分野における最近の進歩を活用する。
このような方法でアプリケーションの開発が進んでいる。
ソフトウェアエンジニアは通常、任意のテクノロジの使用方法や実装方法に関する多くのサポート情報に頼ることができます。
しかし、AIベースのシステムでは、そのような情報は少ない。
具体的には、アーキテクチャを安全に設計する方法に関するガイダンスは、他のシステムでは利用できない。
我々は,多言語文献レビューを通じてキュレートされたAIベースのシステム設計のための16のアーキテクチャセキュリティガイドラインを提示する。
このガイドラインは、AIベースのシステムのセキュアな開発について、実践者を支援することができる。
さらに、AIベースのシステムの典型的なコンポーネントにガイドラインをマッピングし、8つのジェネリックコンポーネントのうち6つに少なくとも1つのガイドラインが関連付けられている、高いカバレッジを観察した。
AI-based systems leverage recent advances in the field of AI/ML by combining traditional software systems with AI components. Applications are increasingly being developed in this way. Software engineers can usually rely on a plethora of supporting information on how to use and implement any given technology. For AI-based systems, however, such information is scarce. Specifically, guidance on how to securely design the architecture is not available to the extent as for other systems. We present 16 architectural security guidelines for the design of AI-based systems that were curated via a multi-vocal literature review. The guidelines could support practitioners with actionable advice on the secure development of AI-based systems. Further, we mapped the guidelines to typical components of AI-based systems and observed a high coverage where 6 out of 8 generic components have at least one guideline associated to them. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 26$μ$eV前後のORGAN実験による近接量子制限原子性ダークマター探索
Near-quantum limited axion dark matter search with the ORGAN experiment around 26 $μ$eV ( http://arxiv.org/abs/2407.18586v1 ) ライセンス: Link先を確認 | Aaron P. Quiskamp, Graeme Flower, Steven Samuels, Ben T. McAllister, Paul Altin, Eugene N. Ivanov, Maxim Goryachev, Michael E. Tobar, | (参考訳) The ORGAN Experimentの最新の成果は、アクシオンハロスコープである。
この実験はミリケルビン温度で作動し、フラックス駆動のジョセフソンパラメトリック増幅器(JPA)を用いてノイズを低減し、他の様々な改良を行った。
25.45 - 26.27\,\mu\text{eV}$ (6.15-6.35$ GHz) mass ( frequency) rangeをカバーし、ORGANのこの準量子制限位相は、導電性棒共振器と7-Tソレノイド磁石を用いて、現在の範囲で最も敏感な軸-光子結合の排除限界を、|g_{a\gamma\gamma}| \gtrsim 2.8\times10^{-13}$に設定する。
The latest result from The ORGAN Experiment, an axion haloscope is presented. This iteration of the experiment operated at millikelvin temperatures using a flux-driven Josephson parametric amplifier (JPA) for reduced noise, along with various other upgrades over previous iterations. Covering the $25.45 - 26.27\,\mu\text{eV}$ ($6.15-6.35$ GHz) mass (frequency) range, this near-quantum limited phase of ORGAN employs a conducting rod resonator and a 7-T solenoidal magnet to place the most sensitive exclusion limits on axion-photon coupling in the range to date, with $|g_{a\gamma\gamma}| \gtrsim 2.8\times10^{-13}$ at a 95% confidence level. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# HICEScore:画像キャプション評価のための階層的なメトリクス
HICEScore: A Hierarchical Metric for Image Captioning Evaluation ( http://arxiv.org/abs/2407.18589v1 ) ライセンス: Link先を確認 | Zequn Zeng, Jianqiao Sun, Hao Zhang, Tiansheng Wen, Yudi Su, Yan Xie, Zhengjue Wang, Bo Chen, | (参考訳) 画像キャプション評価メトリクスは、参照ベースメトリクスと参照フリーメトリクスの2つのカテゴリに分けられる。
しかしながら、参照ベースのアプローチは、人間の注釈付き参照に大きく依存するため、高度な多モーダルな大規模言語モデルによって生成される豊富な視覚的詳細を持つ記述的キャプションを評価するのに苦労する可能性がある。
対照的に、以前の参照なしメトリクスはCLIPの相互モダリティ類似性によって有効であることが証明されている。
それでも、CLIPベースのメトリクスは、グローバルな画像テキスト互換性のソリューションによって制約され、しばしば局所的なテキスト幻覚を検出するのに不足しており、小さな視覚オブジェクトに無関心である。
また,字幕誤りの位置の特定や記述されていない視覚領域の特定など,解釈可能な評価プロセスの提供も不可能である。
本稿では,階層的画像キャプチャ評価スコア (HICE-S) と呼ばれる,画像キャプション評価のための参照不要な新しい指標を提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することで、解釈可能な階層的なスコアリング機構を構築し、既存の参照フリーメトリクスの単一スケール構造の障壁を突破する。
総合実験の結果,提案手法はいくつかのベンチマークでSOTA性能を達成し,CLIP-SやPAC-Sなどの既存の基準フリー指標,METEORやCIDErなどの基準ベース指標よりも優れていた。
さらに,HICE-Sの詳細な字幕評価プロセスは,解釈可能な人間の判断によく似ており,我々のコードはhttps://github.com/joeyz0z/HICEで公開されている。
Image captioning evaluation metrics can be divided into two categories, reference-based metrics and reference-free metrics. However, reference-based approaches may struggle to evaluate descriptive captions with abundant visual details produced by advanced multimodal large language models, due to their heavy reliance on limited human-annotated references. In contrast, previous reference-free metrics have been proven effective via CLIP cross-modality similarity. Nonetheless, CLIP-based metrics, constrained by their solution of global image-text compatibility, often have a deficiency in detecting local textual hallucinations and are insensitive to small visual objects. Besides, their single-scale designs are unable to provide an interpretable evaluation process such as pinpointing the position of caption mistakes and identifying visual regions that have not been described. To move forward, we propose a novel reference-free metric for image captioning evaluation, dubbed Hierarchical Image Captioning Evaluation Score (HICE-S). By detecting local visual regions and textual phrases, HICE-S builds an interpretable hierarchical scoring mechanism, breaking through the barriers of the single-scale structure of existing reference-free metrics. Comprehensive experiments indicate that our proposed metric achieves the SOTA performance on several benchmarks, outperforming existing reference-free metrics like CLIP-S and PAC-S, and reference-based metrics like METEOR and CIDEr. Moreover, several case studies reveal that the assessment process of HICE-S on detailed captions closely resembles interpretable human judgments.Our code is available at https://github.com/joeyz0z/HICE. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 2Dから3Dへ:AISG-SLAビジュアルローカライゼーションチャレンジ
From 2D to 3D: AISG-SLA Visual Localization Challenge ( http://arxiv.org/abs/2407.18590v1 ) ライセンス: Link先を確認 | Jialin Gao, Bill Ong, Darld Lwi, Zhen Hao Ng, Xun Wei Yee, Mun-Thye Mak, Wee Siong Ng, See-Kiong Ng, Hui Ying Teo, Victor Khoo, Georg Bökman, Johan Edstedt, Kirill Brodt, Clémentin Boittiaux, Maxime Ferrera, Stepan Konev, | (参考訳) 3Dマッピングの研究はスマートシティのアプリケーションにとって不可欠だが、3Dデータを取得するコストは進歩を妨げることが多い。
視覚的ローカライゼーション、特に単眼カメラの位置推定は、視覚的手がかりによってのみカメラのポーズを決定することで解決する。
しかし、単一のカメラからのデータが少ないため、このタスクは難しい。
これらの課題に対処するために、AIが3D空間で2D画像からカメラのポーズデータを正確に抽出する方法を探るため、IJCAI 2023でAISG-SLAビジュアルローカライゼーションチャレンジ(VLC)を開催した。
この挑戦は世界中に300人以上の参加者を集め、50以上のチームを形成した。
勝利チームは、フレームレートの低い車載カメラの画像を用いて、ポーズ推定において高い精度を達成した。
VLCデータセットは、vlc-dataset@aisingapore.orgを通じて、要求に応じて研究目的で利用できる。
Research in 3D mapping is crucial for smart city applications, yet the cost of acquiring 3D data often hinders progress. Visual localization, particularly monocular camera position estimation, offers a solution by determining the camera's pose solely through visual cues. However, this task is challenging due to limited data from a single camera. To tackle these challenges, we organized the AISG-SLA Visual Localization Challenge (VLC) at IJCAI 2023 to explore how AI can accurately extract camera pose data from 2D images in 3D space. The challenge attracted over 300 participants worldwide, forming 50+ teams. Winning teams achieved high accuracy in pose estimation using images from a car-mounted camera with low frame rates. The VLC dataset is available for research purposes upon request via vlc-dataset@aisingapore.org. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# ハイパースペクトル画像分類のためのコンテンツ駆動マグニチュード微分スペクトル補完学習
Content-driven Magnitude-Derivative Spectrum Complementary Learning for Hyperspectral Image Classification ( http://arxiv.org/abs/2407.18593v1 ) ライセンス: Link先を確認 | Huiyan Bai, Tingfa Xu, Huan Chen, Peifu Liu, Jianan Li, | (参考訳) HSI分類のための高スペクトル画像(HSI)における複素スペクトルの詳細から識別情報を抽出することが重要である。
現在の一般的な手法はスペクトル等級に依存するが、特定のクラスで混乱を引き起こし、誤分類と精度の低下をもたらす可能性がある。
微分スペクトルは、隠蔽された情報を捕捉するのにより有効であることが証明され、それによってこれらの混乱したクラスを分離する際、明らかな優位性が得られる。
スペクトル等級と微分特徴の相補性を生かして,これら2つの特徴を複合入力として用いた,Magnitude-Derivative Dual Encoderに基づくコンテント駆動型スペクトル補完ネットワークを提案する。
相補的な情報を十分に活用するために,特徴表現に付随する2値エンコーダ特徴の適応的融合を可能にするコンテンツ適応型ポイントワイドフュージョンモジュールを立ち上げる。
より識別しやすい特徴を抽出しながら補足情報の豊富な情報源を保存するために,2つの枝から特徴の差分表現を高め,クラス間距離を増大させるハイブリッド・ディパリティ・エンハンシング・ロスを導入する。
その結果,ワイドなWHU-OHSデータセットと,他の8つのベンチマークデータセットについて,最先端の結果が得られた。
Extracting discriminative information from complex spectral details in hyperspectral image (HSI) for HSI classification is pivotal. While current prevailing methods rely on spectral magnitude features, they could cause confusion in certain classes, resulting in misclassification and decreased accuracy. We find that the derivative spectrum proves more adept at capturing concealed information, thereby offering a distinct advantage in separating these confusion classes. Leveraging the complementarity between spectral magnitude and derivative features, we propose a Content-driven Spectrum Complementary Network based on Magnitude-Derivative Dual Encoder, employing these two features as combined inputs. To fully utilize their complementary information, we raise a Content-adaptive Point-wise Fusion Module, enabling adaptive fusion of dual-encoder features in a point-wise selective manner, contingent upon feature representation. To preserve a rich source of complementary information while extracting more distinguishable features, we introduce a Hybrid Disparity-enhancing Loss that enhances the differential expression of the features from the two branches and increases the inter-class distance. As a result, our method achieves state-of-the-art results on the extensive WHU-OHS dataset and eight other benchmark datasets. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# LinguaLinker: 暗黙の顔制御機能を備えたオーディオ駆動型ポートレイトアニメーション
LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement ( http://arxiv.org/abs/2407.18595v1 ) ライセンス: Link先を確認 | Rui Zhang, Yixiao Fang, Zhengnan Lu, Pei Cheng, Zebiao Huang, Bin Fu, | (参考訳) 本研究は,多言語音声入力と顔の動きを同期させることの難しさを考察し,拡散に基づく手法による視覚的説得力のある時間同期アニメーションの作成に焦点を当てた。
従来の顔アニメーションのパラメトリックモデルとは違い、我々のアプローチはLinguaLinkerと呼ばれ、聴覚刺激と視覚応答の相乗効果を高めるために、音声駆動型視覚合成を統合する包括的な拡散に基づくフレームワークを採用している。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
高度な音声駆動型視覚合成機構はニュアンス制御を提供するが、出力されたビデオと入力オーディオの互換性を維持しており、異なる言語間で異なるペルソナをより適切に、効果的に表現することができる。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
This study delves into the intricacies of synchronizing facial dynamics with multilingual audio inputs, focusing on the creation of visually compelling, time-synchronized animations through diffusion-based techniques. Diverging from traditional parametric models for facial animation, our approach, termed LinguaLinker, adopts a holistic diffusion-based framework that integrates audio-driven visual synthesis to enhance the synergy between auditory stimuli and visual responses. We process audio features separately and derive the corresponding control gates, which implicitly govern the movements in the mouth, eyes, and head, irrespective of the portrait's origin. The advanced audio-driven visual synthesis mechanism provides nuanced control but keeps the compatibility of output video and input audio, allowing for a more tailored and effective portrayal of distinct personas across different languages. The significant improvements in the fidelity of animated portraits, the accuracy of lip-syncing, and the appropriate motion variations achieved by our method render it a versatile tool for animating any portrait in any language. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 持続可能エネルギーのための強化学習
Reinforcement Learning for Sustainable Energy: A Survey ( http://arxiv.org/abs/2407.18597v1 ) ライセンス: Link先を確認 | Koen Ponse, Felix Kleuker, Márton Fejér, Álvaro Serra-Gómez, Aske Plaat, Thomas Moerland, | (参考訳) 持続可能なエネルギーへの移行は、エネルギー生産、貯蔵、送電、消費のパイプライン全体の変更を必要とする、我々の時代の重要な課題である。
風力発電所の運営から電力網の管理、電気自動車充電ステーションの計画に至るまで、あらゆる段階において、新たなシーケンシャルな意思決定の課題が浮かび上がっている。
これらの問題は、データから振る舞いを学ぶ機械学習の分野である強化学習によく適している。
そのため、持続可能エネルギーへの強化学習の利用について多くの研究がなされている。
本稿では,エネルギーと機械学習の両基礎研究コミュニティを橋渡しする目的で,この文献を調査する。
両分野を簡潔に紹介した後、関連する持続可能性課題、強化学習問題としてモデル化する方法、文献に現在どのような解決策が存在するのかを体系的にリストアップする。
その後、マルチエージェント、オフライン、安全な強化学習など、持続可能性を通して現れる包括的な強化学習テーマを拡大し、特定する。
最後に、両研究分野の接続に不可欠な環境の標準化についても取り上げ、今後の研究の方向性を明らかにする。
まとめると、この調査は持続可能エネルギーの強化学習手法を概観し、エネルギー移行において重要な役割を果たす可能性がある。
The transition to sustainable energy is a key challenge of our time, requiring modifications in the entire pipeline of energy production, storage, transmission, and consumption. At every stage, new sequential decision-making challenges emerge, ranging from the operation of wind farms to the management of electrical grids or the scheduling of electric vehicle charging stations. All such problems are well suited for reinforcement learning, the branch of machine learning that learns behavior from data. Therefore, numerous studies have explored the use of reinforcement learning for sustainable energy. This paper surveys this literature with the intention of bridging both the underlying research communities: energy and machine learning. After a brief introduction of both fields, we systematically list relevant sustainability challenges, how they can be modeled as a reinforcement learning problem, and what solution approaches currently exist in the literature. Afterwards, we zoom out and identify overarching reinforcement learning themes that appear throughout sustainability, such as multi-agent, offline, and safe reinforcement learning. Lastly, we also cover standardization of environments, which will be crucial for connecting both research fields, and highlight potential directions for future work. In summary, this survey provides an extensive overview of reinforcement learning methods for sustainable energy, which may play a vital role in the energy transition. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 表現的注意を伴う複雑度ラダーの登上
Climbing the Complexity Ladder with Expressive Attention ( http://arxiv.org/abs/2407.18601v1 ) ライセンス: Link先を確認 | Claudius Gros, | (参考訳) 注意すべき点は、クエリとキーベクトルをスカラー積である$\mathbf{Q}^T\mathbf{K}$とその後のソフトマックス正規化で比較することである。
古典的には、並列/直交/反並列クエリとキーは、大きな/中間/小さな注意重みにつながる。
ここでは、平方ドット積である $(\mathbf{Q}^T\mathbf{K})^2$ に基づく表現的注意(EA)について検討する。
この場合、クエリとキーが並列または反並列である場合、注意が高まり、直交構成が抑制される。
一連の自己回帰予測タスクにおいて、EAは少なくとも標準メカニズムであるドット・プロダクティヴ・アテンション(DPA)と同様に機能することがわかった。
タスクの複雑さが増すにつれて、EAはマルチタスク設定にも耐えうるマージンの増加とともにDPAを上回ることが観察される。
与えられたモデルサイズに対して、EAは、DPAにアクセスできないさまざまな複雑さレベルに対して、100\%のパフォーマンスを達成することができる。
Attention involves comparing query and key vectors in terms of a scalar product, $\mathbf{Q}^T\mathbf{K}$, together with a subsequent softmax normalization. Classicaly, parallel/orthogonal/antiparallel queries and keys lead to large/intermediate/small attention weights. Here we study expressive attention (EA), which is based on $(\mathbf{Q}^T\mathbf{K})^2$, the squared dot product. In this case attention is enhanced when query and key are either parallel or antiparallel, and suppressed for orthogonal configurations. For a series of autoregressive prediction tasks, we find that EA performs at least as well as the standard mechanism, dot-product attention (DPA). Increasing task complexity, EA is observed to outperform DPA with increasing margins, which also holds for multi-task settings. For a given model size, EA manages to achieve 100\% performance for a range of complexity levels not accessible to DPA. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# 心疾患予測の専門家システムの設計のためのデータバランシング手法
A data balancing approach designing of an expert system for Heart Disease Prediction ( http://arxiv.org/abs/2407.18606v1 ) ライセンス: Link先を確認 | Rahul Karmakar, Udita Ghosh, Arpita Pal, Sattwiki Dey, Debraj Malik, Priyabrata Sain, | (参考訳) 心臓病は、毎年何百万人もの死者を出す世界的な健康上の問題である。
心疾患の予防と効果的な治療は早期発見と正確な予測に大きく依存する。
以前は機械学習の手法で正確に予測されていた。
医療におけるこの革新的な発展は、予防ケアを変革し、多くの命を救う力を持っている。
この研究は、前処理技術、パフォーマンス評価尺度、心臓病研究で使用されるデータセット、予測モデリング戦略、診断方法、現場における現在の問題など、幅広いトピックに関する文献の徹底的な評価から始まった。
これらの基本的理解に基づいて,本研究で実施した特定の行動,例えば,データセットの記述,データ前処理技術,ラベルエンコーディング,特徴選択手法,アルゴリズム選択戦術,厳密なパフォーマンス評価手法について述べる。
主要な予測因子は高血圧、コレステロール値、喫煙状態、身体的不活性である。
決定木とランダムフォレストモデルは99.83%の精度を達成した。
この研究は、機械学習モデル、特にアンサンブルアプローチが、心臓病予測の精度を高める方法を示す。
従来の手法と比較して、モデルは幅広い変数と洗練されたアルゴリズムを統合するため、より信頼性の高いリスク評価を提供する。
結果は、心臓疾患の早期発見と治療を容易にする医療治療の調整への扉を開く。
Heart disease is a major global health concern that results in millions of deaths annually. Prevention and effective treatment of heart-related problems depend heavily on early detection and accurate prediction. It was previously predicted accurately with machine learning methods. This innovative development in healthcare has the power to transform preventative care and save a great deal of lives. The study starts with a thorough assessment of the literature that covers a wide range of topics, including pre-processing techniques, performance evaluation measures, datasets used in heart disease research, predictive modeling strategies, diagnostic methodologies, and current issues in the field. Building on these fundamental understandings, the background section describes the particular actions conducted in this investigation, such as the description of the dataset, data pre-treatment techniques, label encoding, feature selection methodology, algorithm selection tactics, and stringent performance evaluation techniques.The results indicate that ensemble methods, particularly random forests, outperformed individual classifiers in predicting heart disease. Key predictors identified included hypertension, cholesterol levels, smoking status, and physical inactivity. The Decision Tree and Random Forest model achieved an accuracy of 99.83%. This work demonstrates how machine learning models, particularly ensemble approaches, can increase the precision of heart disease prediction. In comparison to conventional techniques, the models offer a more reliable risk assessment since they integrate a wide range of variables and sophisticated algorithms. The results open the door to tailored healthcare treatments that facilitate early identification and treatment of cardiac disease. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# GPT-4を用いた因果機械学習の指導
Using GPT-4 to guide causal machine learning ( http://arxiv.org/abs/2407.18607v1 ) ライセンス: Link先を確認 | Anthony C. Constantinou, Neville K. Kitson, Alessio Zanga, | (参考訳) 一般公開以来、ChatGPTは前例のない影響を与えてきた。
一部の専門家はAIの進歩を称賛し、潜在的なリスクを強調したが、大規模言語モデル(LLM)の正確性と有用性には批判的だった。
本稿では,LLMが因果関係を識別する能力に興味を持つ。
我々は,GPT-4(Turbo)に注目し,その性能を最も制約のある条件下で評価し,ラベルのみ情報の提供時に期待できる最小限の有効性を示すとともに,変数ラベルのみに基づいて因果関係を推定する能力を分離する。
質問紙調査では, GPT-4グラフが評価カテゴリーで最も正確であり, ドメインの専門家が構築した知識グラフが, 因果機械学習(ML)がはるかに遅れていることが示唆された。
これらの結果は,共通感覚に反する因果グラフをしばしば生成し,信頼に影響を及ぼす因果MLの重要な限界を明らかにするために用いられる。
しかし, GPT-4と因果MLのペアリングは, この制限を克服し, 結果として, 因果ML単独で学習した構造に比べて, ドメインの専門家によって同定されたものとより密に一致した実データからグラフィカル構造を学習することを示した。
以上の結果から, GPT-4は因果的推論のために明示的に設計されていないが, 因果的MLアルゴリズムの因果的発見プロセスを改善するため, 因果的表現に有用なツールであることが示唆された。
Since its introduction to the public, ChatGPT has had an unprecedented impact. While some experts praised AI advancements and highlighted their potential risks, others have been critical about the accuracy and usefulness of Large Language Models (LLMs). In this paper, we are interested in the ability of LLMs to identify causal relationships. We focus on the well-established GPT-4 (Turbo) and evaluate its performance under the most restrictive conditions, by isolating its ability to infer causal relationships based solely on the variable labels without being given any context, demonstrating the minimum level of effectiveness one can expect when it is provided with label-only information. We show that questionnaire participants judge the GPT-4 graphs as the most accurate in the evaluated categories, closely followed by knowledge graphs constructed by domain experts, with causal Machine Learning (ML) far behind. We use these results to highlight the important limitation of causal ML, which often produces causal graphs that violate common sense, affecting trust in them. However, we show that pairing GPT-4 with causal ML overcomes this limitation, resulting in graphical structures learnt from real data that align more closely with those identified by domain experts, compared to structures learnt by causal ML alone. Overall, our findings suggest that despite GPT-4 not being explicitly designed to reason causally, it can still be a valuable tool for causal representation, as it improves the causal discovery process of causal ML algorithms that are designed to do just that. | 翻訳日:2024-07-29 14:00:25 公開日:2024-07-26 |
# レービー確率モデルの騒音化
Denoising Lévy Probabilistic Models ( http://arxiv.org/abs/2407.18609v1 ) ライセンス: Link先を確認 | Dario Shariatian, Umut Simsekli, Alain Durmus, | (参考訳) 拡散生成モデルにおけるガウシアンを超えての雑音分布の探索は未解決の問題である。
ガウスのケースは実験的、理論的に成功し、スコアベースおよびデノゲーションの定式化に統一されたSDEフレームワークを適合させた。
近年の研究では、重み付きノイズ分布はモード崩壊に対処し、クラス不均衡、重み付きテール、または外れ値を持つデータセットを管理することが示唆されている。
Yoon et al (NeurIPS 2023) は L'evy-Ito モデル (LIM) を導入し、SDE フレームワークを$\alpha$-stable ノイズでヘビーテール SDE に拡張した。
理論上のエレガンスと性能の向上にもかかわらず、LIMの複雑な数学はアクセシビリティとより広範な採用を制限する可能性がある。
本研究は,拡散確率モデル(DDPM)を$\alpha$-stableノイズで拡張し,L''evy確率モデル(DLPM)を作成した。
初等証明手法を用いることで,DLPMは最小限の変更でバニラDDPMの実行を減らし,最小限の変更で既存の実装を利用できることを示す。
DLPMとLIMは異なるトレーニングアルゴリズムを持ち、ガウスの場合とは異なり、異なる後方プロセスとサンプリングアルゴリズムを認めている。
実験により,DLPMは,データ分散テールのカバレッジの向上,不均衡なデータセットの生成の改善,後方ステップの削減による計算時間の短縮を実現している。
Investigating noise distribution beyond Gaussian in diffusion generative models is an open problem. The Gaussian case has seen success experimentally and theoretically, fitting a unified SDE framework for score-based and denoising formulations. Recent studies suggest heavy-tailed noise distributions can address mode collapse and manage datasets with class imbalance, heavy tails, or outliers. Yoon et al. (NeurIPS 2023) introduced the L\'evy-Ito model (LIM), extending the SDE framework to heavy-tailed SDEs with $\alpha$-stable noise. Despite its theoretical elegance and performance gains, LIM's complex mathematics may limit its accessibility and broader adoption. This study takes a simpler approach by extending the denoising diffusion probabilistic model (DDPM) with $\alpha$-stable noise, creating the denoising L\'evy probabilistic model (DLPM). Using elementary proof techniques, we show DLPM reduces to running vanilla DDPM with minimal changes, allowing the use of existing implementations with minimal changes. DLPM and LIM have different training algorithms and, unlike the Gaussian case, they admit different backward processes and sampling algorithms. Our experiments demonstrate that DLPM achieves better coverage of data distribution tail, improved generation of unbalanced datasets, and faster computation times with fewer backward steps. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# IOVS4NeRF:大規模NeRFの最適視点選択
IOVS4NeRF:Incremental Optimal View Selection for Large-Scale NeRFs ( http://arxiv.org/abs/2407.18611v1 ) ライセンス: Link先を確認 | Jingpeng Xie, Shiyu Tan, Yuanlei Wang, Yizhen Lao, | (参考訳) 都市レベルの3次元再構成は、計算コストを最小化しながら高いレンダリング忠実度を必要とする。
ニューラル・レージアンス・フィールド(NeRF)の出現により3次元再構成が強化されたが、複数の視点で人工物が展示されている。
本稿では,これらの問題に対処する新しいNeRFフレームワークを提案する。
提案手法は,画像コンテンツを使用し,次に最適なビューを反復的に計画するデータをポーズする。
この手法の重要な側面は不確実性の推定であり、候補集合からの最大情報ゲインによるビューの選択を導くことである。
この反復的なプロセスは、時間の経過とともにレンダリング品質を高める。
同時に、Vonoroiダイアグラムとしきい値サンプリングをフライト分類器と共に導入し、元のNeRFネットワークをそのまま維持する。
プラグインツールとして機能し、レンダリングの改善、ベースラインのパフォーマンス向上、それに類する以前の作業を支援することができる。
Urban-level three-dimensional reconstruction for modern applications demands high rendering fidelity while minimizing computational costs. The advent of Neural Radiance Fields (NeRF) has enhanced 3D reconstruction, yet it exhibits artifacts under multiple viewpoints. In this paper, we propose a new NeRF framework method to address these issues. Our method uses image content and pose data to iteratively plan the next best view. A crucial aspect of this method involves uncertainty estimation, guiding the selection of views with maximum information gain from a candidate set. This iterative process enhances rendering quality over time. Simultaneously, we introduce the Vonoroi diagram and threshold sampling together with flight classifier to boost the efficiency, while keep the original NeRF network intact. It can serve as a plug-in tool to assist in better rendering, outperforming baselines and similar prior works. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 画像復元のための拡張ストリップ注意ネットワーク
Dilated Strip Attention Network for Image Restoration ( http://arxiv.org/abs/2407.18613v1 ) ライセンス: Link先を確認 | Fangwei Hao, Jiesheng Wu, Ji Du, Yinjie Wang, Jing Xu, | (参考訳) 画像復元は、劣化した画像から潜むシャープなイメージを回復しようとする長年の課題である。
長距離依存関係をキャプチャする自己注意力の強い能力、トランスフォーマーベースの方法、あるいは注意に基づく畳み込みニューラルネットワークは、近年多くの画像復元タスクにおいて有望な結果を示している。
しかし、既存のアテンションモジュールは、限られた受容場や豊富なパラメータに遭遇する。
本稿では,文脈情報をより効果的かつ効率的に統合するために,画像復元のための拡張ストリップアテンションネットワーク(DSAN)を提案する。
具体的には、隣接する各画素から同じ行または列に、より文脈的な情報を集めるために、拡張ストリップアテンション(DSA)機構を精巧に提案する。
DSA操作を水平および垂直に使用することにより、各場所はより広い領域からコンテキスト情報を収集することができる。
さらに,DSAの異なる特徴群にまたがるマルチスケール受容場を用いて表現学習を改善する。
大規模な実験により、DSANは複数の画像復元タスクにおいて最先端のアルゴリズムより優れていることが示された。
Image restoration is a long-standing task that seeks to recover the latent sharp image from its deteriorated counterpart. Due to the robust capacity of self-attention to capture long-range dependencies, transformer-based methods or some attention-based convolutional neural networks have demonstrated promising results on many image restoration tasks in recent years. However, existing attention modules encounters limited receptive fields or abundant parameters. In order to integrate contextual information more effectively and efficiently, in this paper, we propose a dilated strip attention network (DSAN) for image restoration. Specifically, to gather more contextual information for each pixel from its neighboring pixels in the same row or column, a dilated strip attention (DSA) mechanism is elaborately proposed. By employing the DSA operation horizontally and vertically, each location can harvest the contextual information from a much wider region. In addition, we utilize multi-scale receptive fields across different feature groups in DSA to improve representation learning. Extensive experiments show that our DSAN outperforms state-of-the-art algorithms on several image restoration tasks. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# LookupForensics:多相画像ベースファクト検証のための大規模マルチタスクデータセット
LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification ( http://arxiv.org/abs/2407.18614v1 ) ライセンス: Link先を確認 | Shuhan Cui, Huy H. Nguyen, Trung-Nghia Le, Chun-Shien Lu, Isao Echizen, | (参考訳) 偽造コンテンツの津波など、偽造画像の拡散のなかで、偽造技術の進歩が続く中で、偽造コンテンツを特定するために人工知能(AI)を用いた広範な研究がなされている。
我々は、ディープフェイク検出後の元の認証画像を提供するためのAIの使用を調査し、信頼性と説得力のあるソリューションであると信じている。
これは、ジャーナリストが使用するテキストベースの事実チェックシステムに由来する名前です。
我々は,検出と検索を統合した2段階のオープンフレームワークを開発した。
さらに、Meta Fundamental AI Researchが提案したデータセットにヒントを得て、このタスク用に特別に設計された大規模データセットをさらに構築しました。
このデータセットは現実世界の条件をシミュレートし、コンテント保存とコンテント認識の両方の操作を含む。
このマルチタスクデータセットは完全に注釈付けされており、偽造識別と事実検索ドメイン内のサブタスクに使用することができる。
本稿では,(1)新しいタスクである「画像ベース自動事実検証」を導入し,(2)「偽識別」と「ファクト検索」を組み合わせた新しい2段階のオープンフレームワークを提案する。(2)手作り画像編集と機械学習による操作を特徴とする,このタスクに適した大規模データセットを,様々なサブタスクに適したアノテーションを備えた形で提示する。
広範囲な実験結果から, 事実検証研究の実践性を検証し, 各種サブタスクの難易度を明らかにした。
Amid the proliferation of forged images, notably the tsunami of deepfake content, extensive research has been conducted on using artificial intelligence (AI) to identify forged content in the face of continuing advancements in counterfeiting technologies. We have investigated the use of AI to provide the original authentic image after deepfake detection, which we believe is a reliable and persuasive solution. We call this "image-based automated fact verification," a name that originated from a text-based fact-checking system used by journalists. We have developed a two-phase open framework that integrates detection and retrieval components. Additionally, inspired by a dataset proposed by Meta Fundamental AI Research, we further constructed a large-scale dataset that is specifically designed for this task. This dataset simulates real-world conditions and includes both content-preserving and content-aware manipulations that present a range of difficulty levels and have potential for ongoing research. This multi-task dataset is fully annotated, enabling it to be utilized for sub-tasks within the forgery identification and fact retrieval domains. This paper makes two main contributions: (1) We introduce a new task, "image-based automated fact verification," and present a novel two-phase open framework combining "forgery identification" and "fact retrieval." (2) We present a large-scale dataset tailored for this new task that features various hand-crafted image edits and machine learning-driven manipulations, with extensive annotations suitable for various sub-tasks. Extensive experimental results validate its practicality for fact verification research and clarify its difficulty levels for various sub-tasks. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# MOoSE: オープンセットシーンテキスト認識のための多目的共有エキスパート
MOoSE: Multi-Orientation Sharing Experts for Open-set Scene Text Recognition ( http://arxiv.org/abs/2407.18616v1 ) ライセンス: Link先を確認 | Chang Liu, Simon Corbillé, Elisa H Barney Smith, | (参考訳) オープンセットテキスト認識は、新しい文字と以前に見られた文字の両方に対処することを目的としており、テキスト認識分野における新たなサブトピックの1つである。
しかし、現在のオープンセットテキスト認識ソリューションは水平テキストのみに焦点を当てており、現実のシーンテキストにおける様々な書き方によって引き起こされる現実的な課題をモデル化することができない。
多方向テキスト認識は、一般的に、多様な画像アスペクト比、データ量の著しい不均衡、配向間のドメインギャップといった課題に直面している。
本研究では,新しい文字と書き方の違いの両方の課題をモデル化するために,まずMOOSTR(Multi-Oriented Open-Set Text Recognition Task)を提案する。
次に、強力なベースラインソリューションとして、MOoSE(Multi-Orientation Sharing Experts)フレームワークを提案する。
MOoSEは、専門家が直面するデータ不足を軽減するために、専門家の間で共通の構造的知識を活用しながら、オリエンテーション間のドメインギャップを軽減するために、エキスパートの混在スキームを使用している。
提案したMOoSEフレームワークは, 実験によって検証され, 既存のオープンセットベンチマークの実現可能性についても検証されている。
コード、モデル、ドキュメントは、https://github.com/lancercat/Moose/で入手できる。
Open-set text recognition, which aims to address both novel characters and previously seen ones, is one of the rising subtopics in the text recognition field. However, the current open-set text recognition solutions only focuses on horizontal text, which fail to model the real-life challenges posed by the variety of writing directions in real-world scene text. Multi-orientation text recognition, in general, faces challenges from the diverse image aspect ratios, significant imbalance in data amount, and domain gaps between orientations. In this work, we first propose a Multi-Oriented Open-Set Text Recognition task (MOOSTR) to model the challenges of both novel characters and writing direction variety. We then propose a Multi-Orientation Sharing Experts (MOoSE) framework as a strong baseline solution. MOoSE uses a mixture-of-experts scheme to alleviate the domain gaps between orientations, while exploiting common structural knowledge among experts to alleviate the data scarcity that some experts face. The proposed MOoSE framework is validated by ablative experiments, and also tested for feasibility on the existing open-set benchmark. Code, models, and documents are available at: https://github.com/lancercat/Moose/ | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 半教師付きマルチラベル学習のためのデュアルデカップリング学習とメトリック適応閾値
Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning ( http://arxiv.org/abs/2407.18624v1 ) ライセンス: Link先を確認 | Jia-Hao Xiao, Ming-Kun Xie, Heng-Bo Fan, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang, | (参考訳) 半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
この問題を解決するために、主流の手法は、正確な擬似ラベルを生成する効果的なしきい値作成戦略を開発した。
残念なことに、この手法はモデル予測の品質と擬似ラベル性能に対する潜在的な影響を無視した。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
モデル予測の質を向上させるために,擬似ラベルの生成と利用を改良しながら,相関的特徴と識別的特徴の学習を促進するために二重分離を行う。
適切なクラスワイドしきい値を得るために、ラベル付きデータ上で与えられたメトリックの擬似ラベル性能を最大化する閾値を推定するメトリック適応しきい値決定手法を提案する。
複数のベンチマークデータセットで実験したところ、提案手法は最先端の性能を達成でき、比較手法よりも優れたマージンを持つことがわかった。
Semi-supervised multi-label learning (SSMLL) is a powerful framework for leveraging unlabeled data to reduce the expensive cost of collecting precise multi-label annotations. Unlike semi-supervised learning, one cannot select the most probable label as the pseudo-label in SSMLL due to multiple semantics contained in an instance. To solve this problem, the mainstream method developed an effective thresholding strategy to generate accurate pseudo-labels. Unfortunately, the method neglected the quality of model predictions and its potential impact on pseudo-labeling performance. In this paper, we propose a dual-perspective method to generate high-quality pseudo-labels. To improve the quality of model predictions, we perform dual-decoupling to boost the learning of correlative and discriminative features, while refining the generation and utilization of pseudo-labels. To obtain proper class-wise thresholds, we propose the metric-adaptive thresholding strategy to estimate the thresholds, which maximize the pseudo-label performance for a given metric on labeled data. Experiments on multiple benchmark datasets show the proposed method can achieve the state-of-the-art performance and outperform the comparative methods with a significant margin. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 入力対応動的SNNのためのランダム・メミュレータの位相最適化
Topology Optimization of Random Memristors for Input-Aware Dynamic SNN ( http://arxiv.org/abs/2407.18625v1 ) ライセンス: Link先を確認 | Bo Wang, Shaocong Wang, Ning Lin, Yi Li, Yifei Yu, Yue Zhang, Jichang Yang, Xiaoshan Wu, Yangu He, Songqi Wang, Rui Chen, Guoqi Li, Xiaojuan Qi, Zhongrui Wang, Dashan Shang, | (参考訳) 最近の大規模言語モデルや、デジタルコンピュータ上で動作する人工ニューラルネットワークである世界シミュレータによって実証された機械学習は、前例のない発展を遂げている。
しかし、信号表現、最適化、実行時の再構成性、ハードウェアアーキテクチャの違いにより、エネルギー効率や異なる困難さの入力への適応性の合理化という点では、人間の脳の並列化は依然として不可能である。
このような根本的な課題に対処するために,入力対応動的旋律スパイクニューラルネットワーク(PRIME)のプルーニング最適化を導入する。
信号表現の面では、PRIMEは脳固有のスパイキング機構をエミュレートするために、漏れやすい統合と発火のニューロンを使用する。
脳の構造的可塑性からインスピレーションを得たPRIMEは、高価なメムリスタコンダクタンスを微調整せずにランダムなメムリシブスパイクニューラルネットワークのトポロジーを最適化する。
計算深度の動的調整にインスパイアされた実行時再構成性のために、PRIMEはインプット対応の動的早期停止ポリシーを採用し、推論中の遅延を最小化し、性能を損なうことなくエネルギー効率を向上する。
アーキテクチャの面では、PRIMEはメモリ内コンピューティングを利用して、脳をミラーリングし、フォン・ノイマンのボトルネックを緩和する。
我々は40nm 256 Kb memristor-based in-Memory computing macro on neuromorphic image classification and image inpainting。
その結果,分類精度とインセプションスコアはソフトウェアベースラインに匹敵するが,エネルギー効率は62.50倍,計算負荷は77.0%向上した。
また, アナログメムリスタの確率的シナプス雑音に対して頑健性を示す。
私たちのソフトウェアハードウェアの共同設計モデルは、脳に似たエネルギー効率と適応性を備えた、未来の脳にインスパイアされたニューロモルフィックコンピューティングへの道を開くものです。
There is unprecedented development in machine learning, exemplified by recent large language models and world simulators, which are artificial neural networks running on digital computers. However, they still cannot parallel human brains in terms of energy efficiency and the streamlined adaptability to inputs of different difficulties, due to differences in signal representation, optimization, run-time reconfigurability, and hardware architecture. To address these fundamental challenges, we introduce pruning optimization for input-aware dynamic memristive spiking neural network (PRIME). Signal representation-wise, PRIME employs leaky integrate-and-fire neurons to emulate the brain's inherent spiking mechanism. Drawing inspiration from the brain's structural plasticity, PRIME optimizes the topology of a random memristive spiking neural network without expensive memristor conductance fine-tuning. For runtime reconfigurability, inspired by the brain's dynamic adjustment of computational depth, PRIME employs an input-aware dynamic early stop policy to minimize latency during inference, thereby boosting energy efficiency without compromising performance. Architecture-wise, PRIME leverages memristive in-memory computing, mirroring the brain and mitigating the von Neumann bottleneck. We validated our system using a 40 nm 256 Kb memristor-based in-memory computing macro on neuromorphic image classification and image inpainting. Our results demonstrate the classification accuracy and Inception Score are comparable to the software baseline, while achieving maximal 62.50-fold improvements in energy efficiency, and maximal 77.0% computational load savings. The system also exhibits robustness against stochastic synaptic noise of analogue memristors. Our software-hardware co-designed model paves the way to future brain-inspired neuromorphic computing with brain-like energy efficiency and adaptivity. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# あらゆる要素:多モーダル大言語モデルに基づく科学図形の統合検証
Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models ( http://arxiv.org/abs/2407.18626v1 ) ライセンス: Link先を確認 | Xiang Shi, Jiawei Liu, Yinpeng Liu, Qikai Cheng, Wei Lu, | (参考訳) 本稿は, 科学的な図形の解釈における重要な課題である, テキストと図形のきめ細かいアライメントに対処する。
これは、バーやパイチャートのような単純でデータ駆動の視覚化を主に扱い、キャプションや分類を通じて図の基本的な理解を提供する以前の研究を超えて進歩している。
本稿では,テキスト知識と視覚的要素の整合性を評価するための,新しいタスクであるFinal Integrity Verificationを紹介する。
これを支援するために,大規模データセットであるFiture-segを構築するための半自動手法を開発した。
さらに,多モーダル大言語モデル(MLLM)を活用し,テキスト・フィギュア整合性の整合性と検証を漸進的に改善すると共に,類似推論による整合性の向上を図る,革新的なフレームワークであるEvery Part Matters (EPM)を提案する。
包括的実験により、これらの革新は既存の手法を大幅に改善し、複雑な科学的図形のより精密かつ徹底的な分析を可能にした。
この進歩は、マルチモーダル技術の理解を深めるだけでなく、複雑な視覚データの正確な解釈を必要とする分野にまたがるさらなる研究や実践的応用を促進する。
This paper tackles a key issue in the interpretation of scientific figures: the fine-grained alignment of text and figures. It advances beyond prior research that primarily dealt with straightforward, data-driven visualizations such as bar and pie charts and only offered a basic understanding of diagrams through captioning and classification. We introduce a novel task, Figure Integrity Verification, designed to evaluate the precision of technologies in aligning textual knowledge with visual elements in scientific figures. To support this, we develop a semi-automated method for constructing a large-scale dataset, Figure-seg, specifically designed for this task. Additionally, we propose an innovative framework, Every Part Matters (EPM), which leverages Multimodal Large Language Models (MLLMs) to not only incrementally improve the alignment and verification of text-figure integrity but also enhance integrity through analogical reasoning. Our comprehensive experiments show that these innovations substantially improve upon existing methods, allowing for more precise and thorough analysis of complex scientific figures. This progress not only enhances our understanding of multimodal technologies but also stimulates further research and practical applications across fields requiring the accurate interpretation of complex visual data. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# エネルギー効率の良いマルチホップSTAR-RISアシスト伝送のためのマルチエージェント深部強化学習
Multi-Agent Deep Reinforcement Learning for Energy Efficient Multi-Hop STAR-RIS-Assisted Transmissions ( http://arxiv.org/abs/2407.18627v1 ) ライセンス: Link先を確認 | Pei-Hsiang Liao, Li-Hsiang Shen, Po-Chen Wu, Kai-Ten Feng, | (参考訳) 再構成可能なインテリジェントサーフェス(STAR-RIS)の同時送信と反射は、無線通信のカバレッジを拡大する有望な方法である。
しかし、単一のSTAR-RISの制限は、既存の研究においてRISに焦点を当てたマルチホップ伝送の概念を統合するきっかけとなった。
そこで本研究では,マルチホップSTAR-RISの新たなアーキテクチャを提案する。
本稿では,STAR-RISのハードウェア制限によるエネルギー効率の最大化を目的として,基地局のアクティブビームフォーミングと受動ビームフォーミングを解決する。
さらに,STAR-RIS素子のオンオフ状態がエネルギー効率に及ぼす影響について検討した。
複雑な問題に対処するために、Multi-Agent Global and locAl Deep Reinforcement Learning (MAGAR)アルゴリズムが設計されている。
グローバルエージェントは、個々の学習に焦点を当てたローカルエージェント間のコラボレーションを高める。
数値的な結果から,Q-learning,マルチエージェントディープQネットワーク(DQN),マルチエージェントディープQN(DQN),マルチエージェントディープQN(DQN)といった他のベンチマークと比較して,MAGARの大幅な改善が見られた。
さらに、マルチホップSTAR-RISのアーキテクチャは、モードスイッチングベースのSTAR-RISや従来のRIS、RISやSTAR-RISを使わずに展開するよりも高いエネルギー効率を実現している。
Simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) provides a promising way to expand coverage in wireless communications. However, limitation of single STAR-RIS inspire us to integrate the concept of multi-hop transmissions, as focused on RIS in existing research. Therefore, we propose the novel architecture of multi-hop STAR-RISs to achieve a wider range of full-plane service coverage. In this paper, we intend to solve active beamforming of the base station and passive beamforming of STAR-RISs, aiming for maximizing the energy efficiency constrained by hardware limitation of STAR-RISs. Furthermore, we investigate the impact of the on-off state of STAR-RIS elements on energy efficiency. To tackle the complex problem, a Multi-Agent Global and locAl deep Reinforcement learning (MAGAR) algorithm is designed. The global agent elevates the collaboration among local agents, which focus on individual learning. In numerical results, we observe the significant improvement of MAGAR compared to the other benchmarks, including Q-learning, multi-agent deep Q network (DQN) with golbal reward, and multi-agent DQN with local rewards. Moreover, the proposed architecture of multi-hop STAR-RISs achieves the highest energy efficiency compared to mode switching based STAR-RISs, conventional RISs and deployment without RISs or STAR-RISs. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# CardioLab: 心電図の特徴による検査値の推定 -- 探索的研究
CardioLab: Laboratory Values Estimation from Electrocardiogram Features -- An Exploratory Study ( http://arxiv.org/abs/2407.18629v1 ) ライセンス: Link先を確認 | Juan Miguel Lopez Alcaraz, Nils Strodthoff, | (参考訳) 導入:実験室の価値は、医学診断の基盤となっているが、遅いターンアラウンド時間と高いコストに悩まされており、単一の時点の情報しか提供できない。
心電図(ECG)のような非侵襲的データからの検査値の連続推定は、医療モニタリングにおいて重要なフロンティアとなる。
変革の可能性にもかかわらず、この領域は医療コミュニティ内では比較的過小評価されている。
方法:本研究では,木系モデル(XGBoost)を用いて,ECGの特徴と患者集団から実験室値の推測の可能性を検討するために,公開データセット(MIMIC-IV-ECG)を用いた。
予測タスクを,実験室の値が低いか高いかを予測する二項予測問題として定義する。
モデルパフォーマンスはAUROCを使って評価できる。
結果: 異なる臓器系に関する実験室の値が, 小さいが包括的特徴セットに基づいて推定できることが示唆された。
医療モニタリングにおける心電図による評価の臨床的有用性と一般化性について,さらなる研究と検証が求められている一方で,心電図データを用いた検査値推定手法の今後の研究の基盤となるものと考えられる。
このような進歩は予測医療アプリケーションに革命をもたらすと約束しており、より速く、非侵襲的で、より安価な患者モニタリング手段を提供する。
Introduction: Laboratory value represents a cornerstone of medical diagnostics, but suffers from slow turnaround times, and high costs and only provides information about a single point in time. The continuous estimation of laboratory values from non-invasive data such as electrocardiogram (ECG) would therefore mark a significant frontier in healthcare monitoring. Despite its transformative potential, this domain remains relatively underexplored within the medical community. Methods: In this preliminary study, we used a publicly available dataset (MIMIC-IV-ECG) to investigate the feasibility of inferring laboratory values from ECG features and patient demographics using tree-based models (XGBoost). We define the prediction task as a binary prediction problem of predicting whether the lab value falls into low or high abnormalities. The model performance can then be assessed using AUROC. Results: Our findings demonstrate promising results in the estimation of laboratory values related to different organ systems based on a small yet comprehensive set of features. While further research and validation are warranted to fully assess the clinical utility and generalizability of ECG-based estimation in healthcare monitoring, our findings lay the groundwork for future investigations into approaches to laboratory value estimation using ECG data. Such advancements hold promise for revolutionizing predictive healthcare applications, offering faster, non-invasive, and more affordable means of patient monitoring. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 外部磁場中における量子高調波発振器の複雑さ
Complexity of Quantum Harmonic Oscillator in External Magnetic Field ( http://arxiv.org/abs/2407.18631v1 ) ライセンス: Link先を確認 | V. Avramov, M. Radomirov, R. C. Rashkov, T. Vetsov, | (参考訳) 本稿では,外部磁場を受ける量子調和振動子の回路複雑性について検討する。
温度場力学(TFD)フレームワークにおけるNielsenのアプローチを用いて、温度場二重状態の複雑さを時間、温度、外部磁場の関数として決定する。
以下の分析により、この複雑さの様々な特徴が明らかになる。
例えば、温度が上がると、複雑さの振動の振幅も上昇し、低温では、複雑性は一定の正の値で安定化する。
さらに、磁場は2つの異なるセクターを生成し、強磁場は周期的な複雑さの振動を示す。
最後に、複雑性の速度がロイド境界に従うことを確認する。
In this paper, we investigate the circuit complexity of a quantum harmonic oscillator subjected to an external magnetic field. Utilizing the Nielsen approach within the thermofield dynamics (TFD) framework, we determine the complexity of thermofield double states as functions of time, temperature, and the external magnetic field. Our subsequent analysis reveals various features of this complexity. For instance, as temperature increases, the amplitude of complexity oscillations also rises, while at low temperatures, complexity stabilizes at a constant positive value. Furthermore, the magnetic field creates two distinct sectors: strong magnetic fields exhibit periodic complexity oscillations, whereas weak magnetic fields induce a beating effect. Finally, we confirm that the rate of complexity obeys the Lloyd bound. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 雑音付加データの生成過程によるロバストなVAE
Robust VAEs via Generating Process of Noise Augmented Data ( http://arxiv.org/abs/2407.18632v1 ) ライセンス: Link先を確認 | Hiroo Irobe, Wataru Aoki, Kimihiro Yamazaki, Yuhui Zhang, Takumi Nakagawa, Hiroki Waida, Yuichiro Wada, Takafumi Kanamori, | (参考訳) 生成モデルにおける敵攻撃に対する防御機構の強化は、機械学習における重要な研究課題である。
本研究は,変分自動エンコーダ(VAE)の特定の種類の生成モデルに焦点をあてる。
トレーニングデータに対するノイズ注入によりモデルがより堅牢になることを示す一般的な信念や既存の文献とは対照的に,予備実験では,ノイズ増強技術がVAEのロバスト性を大幅に向上することはなかった。
実際、これは学習した表現の質を低下させ、VAEは敵の摂動に敏感になった。
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
対の確率的事前を標準変動下界に組み込むことで,敵攻撃に対する防御を著しく強化する。
我々の経験的評価は、この手法をRobust Augmented Variational Auto-ENcoder (RAVEN) と呼び、広く認識されているベンチマークデータセットの逆入力に抵抗する際の優れた性能を示すことを示した。
Advancing defensive mechanisms against adversarial attacks in generative models is a critical research topic in machine learning. Our study focuses on a specific type of generative models - Variational Auto-Encoders (VAEs). Contrary to common beliefs and existing literature which suggest that noise injection towards training data can make models more robust, our preliminary experiments revealed that naive usage of noise augmentation technique did not substantially improve VAE robustness. In fact, it even degraded the quality of learned representations, making VAEs more susceptible to adversarial perturbations. This paper introduces a novel framework that enhances robustness by regularizing the latent space divergence between original and noise-augmented data. Through incorporating a paired probabilistic prior into the standard variational lower bound, our method significantly boosts defense against adversarial attacks. Our empirical evaluations demonstrate that this approach, termed Robust Augmented Variational Auto-ENcoder (RAVEN), yields superior performance in resisting adversarial inputs on widely-recognized benchmark datasets. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# DynamicTrack: 群衆シーンにおけるギガピクセル追跡の強化
DynamicTrack: Advancing Gigapixel Tracking in Crowded Scenes ( http://arxiv.org/abs/2407.18637v1 ) ライセンス: Link先を確認 | Yunqi Zhao, Yuchen Guo, Zheng Cao, Kai Ni, Ruqi Huang, Lu Fang, | (参考訳) ギガピクセルのシナリオの追跡は、ビデオ監視と歩行者分析に多くの潜在的な応用をもたらす。
既存のアルゴリズムは、複数のカメラやグループ関係を利用して、混雑したシーンでトラッキングを実行しようとする。
しかし、その性能は、複雑な相互作用や、ギガピクセル画像に固有の閉塞に直面すると著しく低下する。
本稿では,混雑したシーンにおけるギガピクセル追跡問題に対処するために設計された動的トラッキングフレームワークであるDynamicTrackを紹介する。
特に,コントラスト学習を利用して歩行者の頭部と身体を共同で検出する動的検出器を提案する。
そこで我々は,頭部と身体の情報をマッチング目的に効果的に活用する動的アソシエーションアルゴリズムを設計した。
広汎な実験により,我々のトラッカーは,ギガピクセル混在シーンに特化して設計された広範に使用されているトラッキングベンチマークにおいて,最先端のパフォーマンスを達成することができた。
Tracking in gigapixel scenarios holds numerous potential applications in video surveillance and pedestrian analysis. Existing algorithms attempt to perform tracking in crowded scenes by utilizing multiple cameras or group relationships. However, their performance significantly degrades when confronted with complex interaction and occlusion inherent in gigapixel images. In this paper, we introduce DynamicTrack, a dynamic tracking framework designed to address gigapixel tracking challenges in crowded scenes. In particular, we propose a dynamic detector that utilizes contrastive learning to jointly detect the head and body of pedestrians. Building upon this, we design a dynamic association algorithm that effectively utilizes head and body information for matching purposes. Extensive experiments show that our tracker achieves state-of-the-art performance on widely used tracking benchmarks specifically designed for gigapixel crowded scenes. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 機械学習によるEthereumスマートコントラクトの脆弱性検出:定性解析
Vulnerability Detection in Ethereum Smart Contracts via Machine Learning: A Qualitative Analysis ( http://arxiv.org/abs/2407.18639v1 ) ライセンス: Link先を確認 | Dalila Ressi, Alvise Spanò, Lorenzo Benetollo, Carla Piazza, Michele Bugliesi, Sabina Rossi, | (参考訳) スマートコントラクトは、金融トランザクションからサプライチェーン管理に至るまで、無数の重要なブロックチェーンアプリケーションの中心です。
しかし、彼らの採用はセキュリティ上の脆弱性によって妨げられ、大きな損失をもたらす可能性がある。
現在利用可能なほとんどの脆弱性検出ツールとメソッドは、静的解析方法か機械学習のいずれかを利用している。
残念なことに、どちらのアプローチも価値あるものであるように、部分的に有効にしかならない制限に悩まされている。
本調査では,既存のツールや方法論を分類し,評価し,制限を強調することによって,Ethereumスマートコントラクトのマシンラーニング脆弱性検出の最先端を解析する。
私たちのクリティカルアセスメントは、制限された脆弱性カバレッジやデータセット構築上の欠陥といった問題を明らかにし、既存のソリューションの健全な比較を抑える上での困難を克服する新たな指標を提供します。
この結果から,スマートコントラクトにおける脆弱性検出の精度,スコープ,効率を高めるためのベストプラクティスについて議論した。
本ガイドラインは, 既知の欠陥に対処すると同時に, 研究開発の新たな道を開くものである。
現在の課題に光を当て、改善のための新たな方向性を提供することで、セキュアなスマートコントラクト開発とブロックチェーン技術全体の進歩に貢献します。
Smart contracts are central to a myriad of critical blockchain applications, from financial transactions to supply chain management. However, their adoption is hindered by security vulnerabilities that can result in significant financial losses. Most vulnerability detection tools and methods available nowadays leverage either static analysis methods or machine learning. Unfortunately, as valuable as they are, both approaches suffer from limitations that make them only partially effective. In this survey, we analyze the state of the art in machine-learning vulnerability detection for Ethereum smart contracts, by categorizing existing tools and methodologies, evaluating them, and highlighting their limitations. Our critical assessment unveils issues such as restricted vulnerability coverage and dataset construction flaws, providing us with new metrics to overcome the difficulties that restrain a sound comparison of existing solutions. Driven by our findings, we discuss best practices to enhance the accuracy, scope, and efficiency of vulnerability detection in smart contracts. Our guidelines address the known flaws while at the same time opening new avenues for research and development. By shedding light on current challenges and offering novel directions for improvement, we contribute to the advancement of secure smart contract development and blockchain technology as a whole. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 金融時系列からの集合埋め込みのコントラスト学習
Contrastive Learning of Asset Embeddings from Financial Time Series ( http://arxiv.org/abs/2407.18645v1 ) ライセンス: Link先を確認 | Rian Dolphin, Barry Smyth, Ruihai Dong, | (参考訳) 表現学習は複雑な高次元データから価値ある潜在特徴を抽出するための強力なパラダイムとして登場した。
金融分野では、部門分類やリスク管理といったタスクに資産についての情報表現を学ぶことができる。
しかし、金融市場の複雑で確率的な性質は、独特な課題を生んでいる。
金融時系列データから資産埋め込みを生成するための,新しいコントラスト学習フレームワークを提案する。
提案手法は,多くのサブウインドウにまたがる資産返却の類似性を利用して,情報的正・負のサンプルを生成し,仮説テストに基づく統計的サンプリング戦略を用いて財務データのノイズ特性に対処する。
我々は、異なる方法で資産間の関係を捉え、差別的な表現空間を学習する様々な対照的な損失関数を探索する。
実世界のデータセットに関する実験は、ベンチマーク業界分類とポートフォリオ最適化タスクにおける学習した資産埋め込みの有効性を実証している。
それぞれのケースにおいて、我々の新しいアプローチは、財務データにおける有意義で行動可能な関係を捉えるための対照的な学習の可能性を強調した既存のベースラインを著しく上回ります。
Representation learning has emerged as a powerful paradigm for extracting valuable latent features from complex, high-dimensional data. In financial domains, learning informative representations for assets can be used for tasks like sector classification, and risk management. However, the complex and stochastic nature of financial markets poses unique challenges. We propose a novel contrastive learning framework to generate asset embeddings from financial time series data. Our approach leverages the similarity of asset returns over many subwindows to generate informative positive and negative samples, using a statistical sampling strategy based on hypothesis testing to address the noisy nature of financial data. We explore various contrastive loss functions that capture the relationships between assets in different ways to learn a discriminative representation space. Experiments on real-world datasets demonstrate the effectiveness of the learned asset embeddings on benchmark industry classification and portfolio optimization tasks. In each case our novel approaches significantly outperform existing baselines highlighting the potential for contrastive learning to capture meaningful and actionable relationships in financial data. | 翻訳日:2024-07-29 13:50:27 公開日:2024-07-26 |
# 事前補正型神経後部推定を用いた高速・信頼性確率的反射率インバージョン
Fast and Reliable Probabilistic Reflectometry Inversion with Prior-Amortized Neural Posterior Estimation ( http://arxiv.org/abs/2407.18648v1 ) ライセンス: Link先を確認 | Vladimir Starostin, Maximilian Dax, Alexander Gerlach, Alexander Hinderhofer, Álvaro Tejero-Cantero, Frank Schreiber, | (参考訳) 散乱X線や中性子の測定から薄膜や多層膜の構造を再構築することは、物理学、化学、生物学の進歩の鍵となる。
しかしながら、リフレクションメトリーデータと互換性のある全ての構造を見つけることは、標準アルゴリズムでは計算的に禁止され、通常は単一の潜在的な解のみを同定した信頼性の低い解析となる。
この信頼性の欠如に対処するため,確率論的深層学習法を用いて,すべての現実的な構造を数秒で識別し,新しい標準をリフレクションメトリーで設定する。
提案手法は,シミュレーションに基づく推論と,既知の構造特性と制御可能な実験条件を推論ネットワークに通知する適応型事前推定とを組み合わせる。
PANPEネットワークは、高スループットサンプルのキャラクタリゼーション、進化する構造のリアルタイムモニタリング、いくつかの実験データセットのコリファインメントといった重要なシナリオをサポートし、他の多くの逆問題に対して高速で信頼性があり柔軟な推論を提供するように適応することができる。
Reconstructing the structure of thin films and multilayers from measurements of scattered X-rays or neutrons is key to progress in physics, chemistry, and biology. However, finding all structures compatible with reflectometry data is computationally prohibitive for standard algorithms, which typically results in unreliable analysis with only a single potential solution identified. We address this lack of reliability with a probabilistic deep learning method that identifies all realistic structures in seconds, setting new standards in reflectometry. Our method, Prior-Amortized Neural Posterior Estimation (PANPE), combines simulation-based inference with novel adaptive priors that inform the inference network about known structural properties and controllable experimental conditions. PANPE networks support key scenarios such as high-throughput sample characterization, real-time monitoring of evolving structures, or the co-refinement of several experimental data sets, and can be adapted to provide fast, reliable, and flexible inference across many other inverse problems. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# ブラックボックスモデルの機能的分解による解釈可能な機械学習の実現と説明可能な予測効果
Achieving interpretable machine learning by functional decomposition of black-box models into explainable predictor effects ( http://arxiv.org/abs/2407.18650v1 ) ライセンス: Link先を確認 | David Köhler, David Rügamer, Matthias Schmid, | (参考訳) 機械学習(ML)は人気と重要性の両方で大きく成長している。
MLモデルの高い予測精度は、解釈が難しい複雑なブラックボックスアーキテクチャによって達成されることが多い。
この解釈可能性問題は、医療、生態学、保険などの分野におけるMLの使用を妨げるものであり、モデルの内部動作を理解することは、ユーザの受け入れと公正性を保証するために最重要である。
解釈可能なMLモデルの必要性は、解釈可能な機械学習(IML)の分野での研究を加速させている。
本稿では, ブラックボックス予測の関数分解のための新しい手法を提案する。
本手法の考え方は,より単純な部分関数からなる代理モデルによって予測関数を置き換えることである。
加法回帰モデルと同様に、これらの関数は主要な特徴とそれらの相互作用の方向と強さに関する洞察を提供する。
提案手法は,高次相互作用によって説明される情報を含まない,可能な限り多くの機能的挙動を捕捉する,積み重ね直交という新しい概念に基づいている。
初期の機能的IMLアプローチとは異なり、外挿や隠れた特徴相互作用の影響を受けない。
サブファンクションを計算するために,ニューラル加算モデルと効率的なポストホック直交法に基づくアルゴリズムを提案する。
Machine learning (ML) has seen significant growth in both popularity and importance. The high prediction accuracy of ML models is often achieved through complex black-box architectures that are difficult to interpret. This interpretability problem has been hindering the use of ML in fields like medicine, ecology and insurance, where an understanding of the inner workings of the model is paramount to ensure user acceptance and fairness. The need for interpretable ML models has boosted research in the field of interpretable machine learning (IML). Here we propose a novel approach for the functional decomposition of black-box predictions, which is considered a core concept of IML. The idea of our method is to replace the prediction function by a surrogate model consisting of simpler subfunctions. Similar to additive regression models, these functions provide insights into the direction and strength of the main feature contributions and their interactions. Our method is based on a novel concept termed stacked orthogonality, which ensures that the main effects capture as much functional behavior as possible and do not contain information explained by higher-order interactions. Unlike earlier functional IML approaches, it is neither affected by extrapolation nor by hidden feature interactions. To compute the subfunctions, we propose an algorithm based on neural additive modeling and an efficient post-hoc orthogonalization procedure. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# カシミール・リフシッツ力とグラフェン:理論対実験、空間的非局所性の役割、損失
Casimir-Lifshitz force with graphene: theory versus experiment, role of spatial non-locality and of losses ( http://arxiv.org/abs/2407.18651v1 ) ライセンス: Link先を確認 | Pablo Rodriguez-Lopez, Mauro Antezza, | (参考訳) 我々は、金属球とグラフェン被覆SiO$_2$平面の間のカシミール・リフシッツ力(CLF)を計算し、M. Liu \emph{et al }, PRL {\bf 126}, 206802 (2021) による実験と理論との比較を行った。
近年、非局所状態における非物理的結果を予測するために、その導電モデルが正しく正規化されていないことが示されている(arXiv:2403.02279]。
実験結果を正則化久保理論と比較し, グラフェン非局所性と損失による有効効果を明らかにするため, CLFをGCの3つの異なるモデル, 正則な非局所久保モデル, 局所久保モデル, およびM. Liu \emph{et al } で用いられる非正規化・無損失モデルを用いて計算した。
実験のパラメータについて、3つのモデルを用いたカシミール・リフシッツ力の予測は実質的に同一であり、実験では、GCの非局所的効果と損失的効果の両方が無視可能であることを示唆している。
このことは、M. Liu \emph{et al } で使われている GC モデルが実験と一致して結果を提供する理由を説明する。
ドリュード処方薬とプラズマ処方薬を区別できないことが判明した。
グラフェン構造を含むカシミール・リフシッツ力の測定結果と比較した。
実際、非常に単純な局所Kuboモデルが、ディラック質量、化学ポテンシャル、損失、温度に依存して、典型的な実験構成と完全に総合的に比較するのに十分であることを示す。
We calculate the Casimir-Lifshitz force (CLF) between a metallic sphere and a graphene-coated SiO$_2$ plane and compare our finding with the experiment and theory by M. Liu \emph{et al.}, PRL {\bf 126}, 206802 (2021), where a non-local and lossless model for the graphene conductivity (GC) has been used and shown to be compatible with the experimental results. Recently, that conductivity model has been shown to be not correctly regularized [arXiv:2403.02279], to predict nonphysical results in the non-local regime, and being correct only in its local limit, where its expression is identical to the local Kubo conductivity model (once also losses are introduced). To compare the experimental results with the correctly regularized Kubo theory and to clarify the effective role played by the graphene non-locality and losses in that experiment, we calculated the CLF using three different models for the GC: the correct general non-local Kubo model, the local Kubo model, and the non-regularized and lossless model used by M. Liu \emph{et al.}. For the parameters of the experiment, the predictions for the Casimir-Lifshitz force using the three models are practically identical, implying that, for the experiment, both non-local and lossy effects in the GC are negligible. This explains why the GC model used in M. Liu \emph{et al.} provides results in agreement with the experiment. We find that the experiment cannot distinguish between the Drude and Plasma prescriptions. Our findings are relevant for present and future comparisons with experimental measurement of the Casimir-Lifshitz force involving graphene structures. Indeed, we show that an extremely simple local Kubo model, explicitly depending on Dirac mass, chemical potential, losses and temperature, is largely enough for a totally comprehensive comparison with typical experimental configurations. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# リッジレット変換を用いたニューラルネットワークのパラメータ選択における重要サンプリングの側面
Aspects of importance sampling in parameter selection for neural networks using ridgelet transform ( http://arxiv.org/abs/2407.18655v1 ) ライセンス: Link先を確認 | Hikaru Homma, Jun Ohkubo, | (参考訳) ニューラルネットワークにおけるパラメータの選択は、性能において不可欠であり、リッジレット変換から導かれたオラクル分布は、適切な初期パラメータを得ることを可能にする。
言い換えれば、パラメータの分布は対象関数の積分表現と結びついている。
オラクル分布は、従来のバックプロパゲーション学習プロセスを避けることが可能であり、単純な場合でニューラルネットワークを構築するのに十分な線形回帰のみである。
本研究は、オラクル分布とリッジレット変換、すなわち重要サンプリングの側面を新たに考察する。
さらに,パラメータサンプリング手法の拡張を提案する。
その結果, 重みパラメータの大きさは, インターセプトパラメータよりも重要となる可能性が示唆された。
The choice of parameters in neural networks is crucial in the performance, and an oracle distribution derived from the ridgelet transform enables us to obtain suitable initial parameters. In other words, the distribution of parameters is connected to the integral representation of target functions. The oracle distribution allows us to avoid the conventional backpropagation learning process; only a linear regression is enough to construct the neural network in simple cases. This study provides a new look at the oracle distributions and ridgelet transforms, i.e., an aspect of importance sampling. In addition, we propose extensions of the parameter sampling methods. We demonstrate the aspect of importance sampling and the proposed sampling algorithms via one-dimensional and high-dimensional examples; the results imply that the magnitude of weight parameters could be more crucial than the intercept parameters. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# Auto DragGAN: 自動回帰マンナで生成イメージを編集する
Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner ( http://arxiv.org/abs/2407.18656v1 ) ライセンス: Link先を確認 | Pengxiang Cai, Zhiwei Liu, Guibo Zhu, Yunfang Niu, Jinqiao Wang, | (参考訳) ピクセルレベルのきめ細かい画像編集は、まだオープンな課題だ。
従来の作業は制御の粒度と推論速度の間の理想的なトレードオフを達成できなかった。
ピクセルレベルのきめ細かい制御を達成できないか、推論速度を最適化する必要がある。
そこで本研究では,レグレッションに基づくネットワークを用いて,画像のドラッグング過程において,StyleGANの潜伏符号の変動パターンを学習する。
少ない時間で編集をドラッグする際の画素レベルの精度を実現する。
ユーザは、任意のGAN生成画像上で、ハンドルポイントとその対応するターゲットポイントを指定することができ、我々の方法では、各ハンドルポイントを対応するターゲットポイントに移動させる。
実験により,ハンドル点から目標点までの短い移動距離が高忠実度画像を生成することが判明した。
これを実現するために、運動過程全体を複数のサブプロセスに分解する。
具体的には、ハンドポイントからターゲットポイントへの遅延符号運動軌跡を自己回帰的に予測するトランスフォーマーエンコーダデコーダベースのネットワーク「潜時予測器」を開発した。
さらに、予測安定性を高めるために、自然な画像の分布内での遅延コードの動きを制限することを目的とした「潜時正規化器」というコンポーネントを導入する。
広汎な実験により,本手法は画素レベルの粒度でのSOTA推論速度と画像編集性能を実現する。
Pixel-level fine-grained image editing remains an open challenge. Previous works fail to achieve an ideal trade-off between control granularity and inference speed. They either fail to achieve pixel-level fine-grained control, or their inference speed requires optimization. To address this, this paper for the first time employs a regression-based network to learn the variation patterns of StyleGAN latent codes during the image dragging process. This method enables pixel-level precision in dragging editing with little time cost. Users can specify handle points and their corresponding target points on any GAN-generated images, and our method will move each handle point to its corresponding target point. Through experimental analysis, we discover that a short movement distance from handle points to target points yields a high-fidelity edited image, as the model only needs to predict the movement of a small portion of pixels. To achieve this, we decompose the entire movement process into multiple sub-processes. Specifically, we develop a transformer encoder-decoder based network named 'Latent Predictor' to predict the latent code motion trajectories from handle points to target points in an autoregressive manner. Moreover, to enhance the prediction stability, we introduce a component named 'Latent Regularizer', aimed at constraining the latent code motion within the distribution of natural images. Extensive experiments demonstrate that our method achieves state-of-the-art (SOTA) inference speed and image editing performance at the pixel-level granularity. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# SWARM-SLR - 機械操作可能なシステム文献レビューのためのワークフロー自動化の合理化
SWARM-SLR -- Streamlined Workflow Automation for Machine-actionable Systematic Literature Reviews ( http://arxiv.org/abs/2407.18657v1 ) ライセンス: Link先を確認 | Tim Wittenborg, Oliver Karras, Sören Auer, | (参考訳) 調査やレビュー記事の執筆には、効率性、再現性、再利用性を向上する可能性を持つ研究知識管理の進歩にもかかわらず、非常に面倒な手作業が必要である。
しかしながら、これらの進歩は、特定のステージのみをカバーすることが多く、タスク固有の強みを利用した包括的なワークフローが欠如している、多くのアプローチ、ツール、システムをもたらす。
本稿では,SLRの効率向上をクラウドソーシングし,最先端の知識発見・流通プロセスにおける科学的整合性を維持しつつ,SLRの効率化を図るための,機械処理可能なシステム文献レビューのための合理化ワークフロー自動化(SWARM-SLR)を提案する。
このワークフローは、成長する学術的知識コーパスを協調的かつ持続的に管理する研究者をドメイン非依存で支援することを目的としている。
文献からガイドラインを合成することにより,計画からレビューの報告まで,65の要件をまとめた。
既存のツールはこれらの要件に対して評価され、SWARM-SLRワークフローのプロトタイプとして合成された。
SWARM-SLRは2つのオンライン調査を通じて評価され、65の要件の妥当性を確認し、11のツールを異なるライフサイクルステージに配置した。
SWARM-SLRワークフローも同様に評価され、SLRのほぼ全域をサポートし、特に検索と検索、情報抽出、知識合成、分散に優れていた。
我々のSWARM-SLR要件とワークフローサポートツールは、研究者のSLRサポートを効率化し、クラウドソースの知識管理に個々の効率改善をリンクすることで、持続可能なコラボレーションを可能にする。
これらの取り組みが継続すれば、完全に構造化された(半自動化された)文献レビューワークフロー内で、管理可能で使用可能なツールの増加を期待します。
Authoring survey or review articles still requires significant tedious manual effort, despite many advancements in research knowledge management having the potential to improve efficiency, reproducibility, and reuse. However, these advancements bring forth an increasing number of approaches, tools, and systems, which often cover only specific stages and lack a comprehensive workflow utilizing their task-specific strengths. We propose the Streamlined Workflow Automation for Machine-actionable Systematic Literature Reviews (SWARM-SLR) to crowdsource the improvement of SLR efficiency while maintaining scientific integrity in a state-of-the-art knowledge discovery and distribution process. The workflow aims to domain-independently support researchers in collaboratively and sustainably managing the rising scholarly knowledge corpus. By synthesizing guidelines from the literature, we have composed a set of 65 requirements, spanning from planning to reporting a review. Existing tools were assessed against these requirements and synthesized into the SWARM-SLR workflow prototype, a ready-for-operation software support tool. The SWARM-SLR was evaluated via two online surveys, which largely confirmed the validity of the 65 requirements and situated 11 tools to the different life-cycle stages. The SWARM-SLR workflow was similarly evaluated and found to be supporting almost the entire span of an SLR, excelling specifically in search and retrieval, information extraction, knowledge synthesis, and distribution. Our SWARM-SLR requirements and workflow support tool streamlines the SLR support for researchers, allowing sustainable collaboration by linking individual efficiency improvements to crowdsourced knowledge management. If these efforts are continued, we expect the increasing number of tools to be manageable and usable inside fully structured, (semi-)automated literature review workflows. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# テキスト・画像拡散モデルによる対向ロバスト化
Adversarial Robustification via Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.18658v1 ) ライセンス: Link先を確認 | Daewon Choi, Jongheon Jeong, Huiwon Jang, Jinwoo Shin, | (参考訳) 敵のロバスト性は、従来、ニューラルネットワークをエンコードする上で難しい性質であり、多くのトレーニングデータを必要とすると考えられてきた。
しかし、最近のオフ・ザ・シェルフモデルを採用するパラダイムでは、それらのトレーニングデータへのアクセスは、しばしば実現不可能または実用的ではない。
本稿では,データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発する。
我々の直感は、最近のテキストと画像の拡散モデルを、ターゲットタスクの指定に最適化できる「適応可能な」デノイザとして見ることです。
これに基づいて次のように提案する。
(a) 敵の攻撃に対する証明可能な保証を提供する妄想と分類のパイプラインを開始すること、
(b)新しい適応方式を実現するテキスト・ツー・イメージモデルから生成されたいくつかの合成参照画像を活用する。
実験の結果,プリトレーニング済みCLIPに適用したデータフリースキームは,多種多種多様なゼロショット分類誘導体(精度を保ちながら)の対角的堅牢性を向上し,全トレーニングデータを利用する従来の手法を著しく上回っていることがわかった。
CLIPだけでなく、我々のフレームワークは、他の視覚的分類器を効率的に堅牢化するのに容易に適用可能であることも示しています。
Adversarial robustness has been conventionally believed as a challenging property to encode for neural networks, requiring plenty of training data. In the recent paradigm of adopting off-the-shelf models, however, access to their training data is often infeasible or not practical, while most of such models are not originally trained concerning adversarial robustness. In this paper, we develop a scalable and model-agnostic solution to achieve adversarial robustness without using any data. Our intuition is to view recent text-to-image diffusion models as "adaptable" denoisers that can be optimized to specify target tasks. Based on this, we propose: (a) to initiate a denoise-and-classify pipeline that offers provable guarantees against adversarial attacks, and (b) to leverage a few synthetic reference images generated from the text-to-image model that enables novel adaptation schemes. Our experiments show that our data-free scheme applied to the pre-trained CLIP could improve the (provable) adversarial robustness of its diverse zero-shot classification derivatives (while maintaining their accuracy), significantly surpassing prior approaches that utilize the full training data. Not only for CLIP, we also demonstrate that our framework is easily applicable for robustifying other visual classifiers efficiently. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# 特徴抽出のための局所バイナリパターン(LBP)最適化
Local Binary Pattern(LBP) Optimization for Feature Extraction ( http://arxiv.org/abs/2407.18665v1 ) ライセンス: Link先を確認 | Zeinab Sedaghatjoo, Hossein Hosseinzadeh, Bahram Sadeghi Bigham, | (参考訳) 画像データの急速な成長により、画像分類、画像分割、パターン認識といった様々な用途において重要な高度な画像処理技術やコンピュータビジョン技術が開発されている。
テクスチャは多くの画像処理タスクで広く使われている重要な機能である。
局所二分パターン(LBP)は画像の局所的なテクスチャの特徴を記述する強力な演算子である。
本稿では,演算子を3つの行列に分離し,その中の2つを常に固定し,入力データに依存しない新しい数学的表現を提案する。
これらの固定行列を深く解析し、分類性能の向上のために最適化する新しいアルゴリズムを提案する。
最適化プロセスは特異値分解(SVD)アルゴリズムに基づいている。
その結果,人間の顔画像のテクスチャを効果的に表現する最適なLCPが得られた。
本稿では,顔検出および表情認識タスクに最適化されたLPPの有効性と優位性を検証した。
The rapid growth of image data has led to the development of advanced image processing and computer vision techniques, which are crucial in various applications such as image classification, image segmentation, and pattern recognition. Texture is an important feature that has been widely used in many image processing tasks. Therefore, analyzing and understanding texture plays a pivotal role in image analysis and understanding.Local binary pattern (LBP) is a powerful operator that describes the local texture features of images. This paper provides a novel mathematical representation of the LBP by separating the operator into three matrices, two of which are always fixed and do not depend on the input data. These fixed matrices are analyzed in depth, and a new algorithm is proposed to optimize them for improved classification performance. The optimization process is based on the singular value decomposition (SVD) algorithm. As a result, the authors present optimal LBPs that effectively describe the texture of human face images. Several experiment results presented in this paper convincingly verify the efficiency and superiority of the optimized LBPs for face detection and facial expression recognition tasks. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# クロスモーダル深層学習に基づく医療レポート作成のためのラベル付き眼科超音波データセット
A Labeled Ophthalmic Ultrasound Dataset with Medical Report Generation Based on Cross-modal Deep Learning ( http://arxiv.org/abs/2407.18667v1 ) ライセンス: Link先を確認 | Jing Wang, Junyan Fan, Meng Zhou, Yanzhu Zhang, Mingyu Shi, | (参考訳) 超音波イメージングは、眼の形態と、眼疾患の診断と治療の助けを明らかにする。
しかし、診断報告の解釈には専門医が必要である。
本報告では,医療画像の正確な分析と自動探索のためのラベル付き眼科データセットと関連する報告について述べる。
2018年、中国の清陽市にある眼科病院の患者2,417名から超音波画像、血流情報、検査報告を含む3つのモーダルデータを収集し、患者の情報をプライバシー保護のために特定した。
我々の知る限りでは、3つのモーダル情報を同時に含む唯一の眼科的データセットである。
この画像は4,858枚の画像と対応する自由テキストのレポートからなり、眼内疾患の15の典型的な画像所見とそれに対応する解剖学的位置を記述している。
各画像は3つの特定の動脈における3種類の血流指標、すなわち、血流分布のスペクトル特性を記述するための9つのパラメータ値を示す。
報告は臨床治療中に眼科医によって書かれた。
提案したデータセットを用いて,クロスモーダル深層学習モデルに基づく医療報告を生成する。
実験の結果,本データセットはクロスモーダル医療データに関する教師付きモデルの訓練に適していることが示された。
Ultrasound imaging reveals eye morphology and aids in diagnosing and treating eye diseases. However, interpreting diagnostic reports requires specialized physicians. We present a labeled ophthalmic dataset for the precise analysis and the automated exploration of medical images along with their associated reports. It collects three modal data, including the ultrasound images, blood flow information and examination reports from 2,417 patients at an ophthalmology hospital in Shenyang, China, during the year 2018, in which the patient information is de-identified for privacy protection. To the best of our knowledge, it is the only ophthalmic dataset that contains the three modal information simultaneously. It incrementally consists of 4,858 images with the corresponding free-text reports, which describe 15 typical imaging findings of intraocular diseases and the corresponding anatomical locations. Each image shows three kinds of blood flow indices at three specific arteries, i.e., nine parameter values to describe the spectral characteristics of blood flow distribution. The reports were written by ophthalmologists during the clinical care. The proposed dataset is applied to generate medical report based on the cross-modal deep learning model. The experimental results demonstrate that our dataset is suitable for training supervised models concerning cross-modal medical data. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# 原子線を用いた連続空洞QED
Continuous cavity-QED with an atomic beam ( http://arxiv.org/abs/2407.18668v1 ) ライセンス: Link先を確認 | Francesca Famà, Sheng Zhou, Benedikt Heizenreder, Mikkel Tang, Shayne Bennetts, Simon B. Jäger, Stefan A. Schäffer, Florian Schreck, | (参考訳) キャビティに結合された原子は、共通のチャネルを介して媒介される原子の基本的な相互作用を研究するためのエキサイティングな遊び場を提供する。
キャビティQEDとコールド原子実験の応用の多くは、原子の負荷サイクルの過渡的な性質に起因する限界に悩まされている。
連続的な運用方式の開発は、これらのシステムを次のレベルの性能に推し進めるために必要である。
ここでは、光学キャビティを横切るコリメート原子の連続的なフラックスを生成するように設計された機械について述べる。
原子-光相互作用は、原子の性質が支配的な現象を研究するのに最適な高速分解キャビティによって強化される。
我々は, 正規モード分割による集合強結合系への移行を実証する。
原子の平均速度におけるオフセットから発生する2次正規モード分裂を伴う第2相を観察する。
集合強結合系における原子アンサンブルを逆転させ、連続的な光学利得を測定する。
この研究は、連続超ラジカルラシングのような連続的な集合現象のしきい値条件を研究するための段階を設定する。
Atoms coupled to cavities provide an exciting playground for the study of fundamental interactions of atoms mediated through a common channel. Many of the applications of cavity-QED and cold-atom experiments more broadly, suffer from limitations caused by the transient nature of an atomic loading cycle. The development of continuous operation schemes is necessary to push these systems to the next level of performance. Here we present a machine designed to produce a continuous flux of collimated atoms that traverse an optical cavity. The atom-light interaction is enhanced by a fast-decaying cavity optimal for studying phenomena where atomic properties dominate. We demonstrate the transition to a collective strong coupling regime heralded by a normal-mode splitting. We observe a second phase with a binary normal-mode splitting born from an offset in the mean velocity of the atoms. Inverting the atomic ensemble in the collective strong coupling regime, we measure continuous optical gain. This work sets the stage for studying threshold conditions for continuous collective phenomena, such as continuous superradiant lasing. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# 極端サブ波長分解能を持つ単一原子の位置測定とヨクトニュートン領域における力測定
Measuring a single atom's position with extreme sub-wavelength resolution and force measurements in the yoctonewton range ( http://arxiv.org/abs/2407.18670v1 ) ライセンス: Link先を確認 | P. H. Huber, P. Barthel, Th. Sriarunothai, G. S. Giri, S. Wölk, Ch. Wunderlich, | (参考訳) 単一のトラップされた原子イオンの中心位置は、高精度に測定され、追跡される。
波長2.37cmの近接共鳴電波周波数場と19T/mの静磁場勾配を用いて、絶対精度0.12nmの5$\times$10$^{-9}$の前例のない波長相対分解能でイオンの空間位置を決定する。
単一イオン上の静電力の測定は、2.2$\times$ 10$^{-23} ~\text{N}/\sqrt{\text{Hz}}$の感度を示す。
原子の位置をリアルタイムに測定することは、近接場無線周波数透過顕微鏡を走査する確立した技法を補完し、空間分解能と力分解能を損なうこの方法を使用するための新しい経路を開く。
The center-of-mass position of a single trapped atomic ion is measured and tracked in time with high precision. Employing a near-resonant radio frequency field of wavelength 2.37 cm and a static magnetic field gradient of 19 T/m, the spatial location of the ion is determined with an unprecedented wavelength-relative resolution of 5 $\times$ 10$^{-9}$, corresponding to an absolute precision of 0.12 nm. Measurements of an electrostatic force on a single ion demonstrate a sensitivity of 2.2 $\times$ 10$^{-23} ~\text{N}/\sqrt{\text{Hz}}$. The real-time measurement of an atom's position complements the well-established technique of scanning near-field radio frequency transmission microscopy and opens up a novel route to using this method with path breaking spatial and force resolution. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# 細胞核インスタンスのセグメンテーションと分類に関する調査:コンテキストと注意の活用
A Survey on Cell Nuclei Instance Segmentation and Classification: Leveraging Context and Attention ( http://arxiv.org/abs/2407.18673v1 ) ライセンス: Link先を確認 | João D. Nunes, Diana Montezuma, Domingos Oliveira, Tania Pereira, Jaime S. Cardoso, | (参考訳) Hematoxylin and Eosin (H&E)-stained Whole Slide Images (WSIs) は、細胞核のインスタンス分割と分類のための自動アルゴリズムによって病理学者や臨床研究者の作業が軽減され、同時に臨床的に解釈可能な特徴の自動抽出を容易にする。
しかし、原子核の形態的特徴と色的特徴のクラス内およびクラス間の高いばらつき、およびH&Eは人工物への感受性を保っているため、最先端のアルゴリズムは、必要な性能でインスタンスを正しく検出し分類することができない。
本研究では、ニューラルネットワーク(ANN)におけるコンテキストと注意誘導バイアスを仮説化し、細胞核のインスタンス分割と分類のためのアルゴリズムの一般化を増大させる可能性がある。
我々は,H&E-stained microscopy imaging を用いた細胞核インスタンスのセグメンテーションと分類のためのコンテキストおよびアテンション手法の徹底的な調査を行い,コンテキストとアテンションに対処する課題について包括的考察を行った。
さらに、現在のアプローチのいくつかの制限と将来の研究のためのアイデアについて説明する。
ケーススタディでは、一般的なインスタンス分割分類法(Mask-RCNN)と、コンテキスト・アテンション・ベースのメカニズムでカスタマイズされた細胞核のインスタンス分割分類モデル(HoVer-Net)を拡張し、マルチセンターのコロニー核識別・カウントデータセットの比較分析を行った。
病理学者は、WSIを分析・注釈する際、特定の関心領域(RoI)に注意を払っているものの、ドメイン知識をアルゴリズム設計に翻訳することは簡単な作業ではなく、これらのメカニズムを十分に活用するためには、これらの手法の科学的理解に対処すべきである。
Manually annotating nuclei from the gigapixel Hematoxylin and Eosin (H&E)-stained Whole Slide Images (WSIs) is a laborious and costly task, meaning automated algorithms for cell nuclei instance segmentation and classification could alleviate the workload of pathologists and clinical researchers and at the same time facilitate the automatic extraction of clinically interpretable features. But due to high intra- and inter-class variability of nuclei morphological and chromatic features, as well as H&E-stains susceptibility to artefacts, state-of-the-art algorithms cannot correctly detect and classify instances with the necessary performance. In this work, we hypothesise context and attention inductive biases in artificial neural networks (ANNs) could increase the generalization of algorithms for cell nuclei instance segmentation and classification. We conduct a thorough survey on context and attention methods for cell nuclei instance segmentation and classification from H&E-stained microscopy imaging, while providing a comprehensive discussion of the challenges being tackled with context and attention. Besides, we illustrate some limitations of current approaches and present ideas for future research. As a case study, we extend both a general instance segmentation and classification method (Mask-RCNN) and a tailored cell nuclei instance segmentation and classification model (HoVer-Net) with context- and attention-based mechanisms, and do a comparative analysis on a multi-centre colon nuclei identification and counting dataset. Although pathologists rely on context at multiple levels while paying attention to specific Regions of Interest (RoIs) when analysing and annotating WSIs, our findings suggest translating that domain knowledge into algorithm design is no trivial task, but to fully exploit these mechanisms, the scientific understanding of these methods should be addressed. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# 汚染された多チャンネル筋電図と筋電図信号の認識に用いる両アンサンブル分類器による上肢生体補綴の制御
A dual ensemble classifier used to recognise contaminated multi-channel EMG and MMG signals in the control of upper limb bioprosthesis ( http://arxiv.org/abs/2407.18675v1 ) ライセンス: Link先を確認 | Pawel Trajdos, Marek Kurzynski, | (参考訳) ユーザ意図を復号化するための筋電位パターン認識は、パワードバイオプロセシスを制御するための最も先進的なアプローチである。
残念なことに、多くの要因がこの問題を困難なものにし、現実語条件で許容できる品質を達成することは深刻な課題である。
本研究の目的は,バイオシグナーのマルチモーダル・マルチチャンネル記録と汚染に対する高い感受性を緩和する認識システムを開発することである。
提案手法では,2つの協調型マルチクラス化システムを用いる。
第1のシステムは、個々の筋電図(EMG)および筋電図(MMG)生信号記録チャネルに関連する一級分類器で構成され、その任務は汚染されたチャネルを認識することである。
第2のシステムの役割は、患者の意図から生じる運動のクラスを認識することである。
アンサンブルシステムは、異なるチャネルからの生体信号の表現(抽出特徴)を用いた基底分類器で構成されている。
このシステムは動的選択機構を使用し、一級アンサンブルシステムによって汚染されていると認識される生体信号チャネルと関連づけられた基底分類器を除去する。
切断を模擬した身体障害者の信号を用いて実験を行った。
その結果、二重アンサンブルフォアの応用は分類品質の改善に繋がらないというヌル仮説を否定することができた。
Myopotential pattern recognition to decode the intent of the user is the most advanced approach to controlling a powered bioprosthesis. Unfortunately, many factors make this a difficult problem and achieving acceptable recognition quality in real-word conditions is a serious challenge. The aim of the paper is to develop a recognition system that will mitigate factors related to multimodality and multichannel recording of biosignals and their high susceptibility to contamination. The proposed method involves the use of two co-operating multiclassifier systems. The first system is composed of one-class classifiers related to individual electromyographic (EMG) and mechanomyographic (MMG) biosignal recording channels, and its task is to recognise contaminated channels. The role of the second system is to recognise the class of movement resulting from the patient's intention. The ensemble system consists of base classifiers using the representation (extracted features) of biosignals from different channels. The system uses a dynamic selection mechanism, eliminating those base classifiers that are associated with biosignal channels that are recognised by the one-class ensemble system as being contaminated. Experimental studies were conducted using signals from an able-bodied person with simulation of amputation. The results obtained allow us to reject the null hypothesis that the application of the dual ensemble foes not lead to improved classification quality. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# いま, 誤り: 選好ドリフト下での非定常直接選好最適化
Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift ( http://arxiv.org/abs/2407.18676v1 ) ライセンス: Link先を確認 | Seongho Son, William Bankes, Sayak Ray Chowdhury, Brooks Paige, Ilija Bogunovic, | (参考訳) 人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の好みを一致させる。
しかしながら、これらの嗜好は外的要因(例えば環境の変化や社会的影響)によって、時間とともに変化することがある。
そのため、そのときの間違いは、今となってはあり得ない。
現在の選好最適化アルゴリズムは、モデリングにおける時間的選好のドリフトを考慮しない。
この制限に対処するために、時間依存の報酬関数を介して嗜好をモデル化する動的ブラッドリー・テリーモデルを使用し、非定常直接選好最適化(NS-DPO)を提案する。
損失関数に割引パラメータを導入することで、NS-DPOは指数重み付けを適用する。
理論上は、非定常選好による推定誤差の上限として、NS-DPOのオフライン環境での収束を解析する。
最後に,漂流嗜好のあるシナリオにおける微調整LDMに対するNS-DPO1の有効性を示す。
そこで, NS-DPO の微調整 LLM は非定常条件下では頑健であり, 定常の場合の性能を犠牲にすることなく, 時間的嗜好変化を無視するベースラインアルゴリズムよりもはるかに優れていることを示す。
Reinforcement learning from human feedback (RLHF) aligns Large Language Models (LLMs) with human preferences. However, these preferences can often change over time due to external factors (e.g. environment change and societal influence). Consequently, what was wrong then might be right now. Current preference optimization algorithms do not account for temporal preference drift in their modeling, which can lead to severe misalignment. To address this limitation, we use a Dynamic Bradley-Terry model that models preferences via time-dependent reward functions, and propose Non-Stationary Direct Preference Optimisation (NS-DPO). By introducing a discount parameter in the loss function, NS-DPO applies exponential weighting, which proportionally focuses learning on more time-relevant datapoints. We theoretically analyse the convergence of NS-DPO in the offline setting, providing upper bounds on the estimation error caused by non-stationary preferences. Finally, we demonstrate the effectiveness of NS-DPO1 for fine-tuning LLMs in scenarios with drifting preferences. By simulating preference drift using renowned reward models and modifying popular LLM datasets accordingly, we show that NS-DPO fine-tuned LLMs remain robust under non-stationarity, significantly outperforming baseline algorithms that ignore temporal preference changes, without sacrificing performance in stationary cases. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# VeriCHERI: RTLにおけるCHERIの暴露形式的セキュリティ検証
VeriCHERI: Exhaustive Formal Security Verification of CHERI at the RTL ( http://arxiv.org/abs/2407.18679v1 ) ライセンス: Link先を確認 | Anna Lena Duque Antón, Johannes Müller, Philipp Schmitz, Tobias Jauch, Alex Wezel, Lucas Deutschmann, Mohammad Rahmani Fadiheh, Dominik Stoffel, Wolfgang Kunz, | (参考訳) 攻撃者からメモリ内のデータを保護することは、現在もコンピューティングシステムにおいて懸念されている。
CHERIは、ハードウェアに直接きめ細かいメモリ保護を提供することによって、そのような保護を達成するための有望なアプローチである。
しかし、システムスタック全体の信頼を作るには、CHERIのハードウェアベースの保護メカニズムのギャップのない検証が必要である。
CHERIの既存の検証方法は、基盤となるハードウェア実装ではなく抽象ISAモデルをターゲットにしている。
具体的なRTL実装に対するCHERIのセキュリティ保証を完全に保証することは、以前のフローにおける課題であり、高い手作業を要求する。
本稿では,セキュリティ検証の新しいアプローチであるVeriCHERIを提案する。
ISA仕様を必要としないという点で、以前のものと概念的に異なる。
黄金のISAモデルでコンプライアンスをチェックする代わりに、機密性と完全性という、確立したグローバルなセキュリティ目標をチェックします。
これらの目的を完全にカバーし、VeriCHERIは脆弱性を徹底的に証明または反証するために、わずか4つの無制限プロパティを使用する。
CHERIの変種を実装したRISC-Vベースのプロセッサ上で,VeriCHERIの有効性とスケーラビリティを示す。
Protecting data in memory from attackers continues to be a concern in computing systems. CHERI is a promising approach to achieve such protection, by providing and enforcing fine-grained memory protection directly in the hardware. Creating trust for the entire system stack, however, requires a gap-free verification of CHERI's hardware-based protection mechanisms. Existing verification methods for CHERI target the abstract ISA model rather than the underlying hardware implementation. Fully ensuring the CHERI security guarantees for a concrete RTL implementation is a challenge in previous flows and demands high manual efforts. This paper presents VeriCHERI, a novel approach to security verification. It is conceptionally different from previous works in that it does not require any ISA specification. Instead of checking compliance with a golden ISA model, we check against well-established global security objectives of confidentiality and integrity. Fully covering these objectives, VeriCHERI uses as few as four unbounded properties to exhaustively prove or disprove any vulnerability. We demonstrate the effectiveness and scalability of VeriCHERI on a RISC-V based processor implementing a CHERI variant. | 翻訳日:2024-07-29 13:40:43 公開日:2024-07-26 |
# Rapid Object Annotation
Rapid Object Annotation ( http://arxiv.org/abs/2407.18682v1 ) ライセンス: Link先を確認 | Misha Denil, | (参考訳) 本稿では,新しいオブジェクトに対するバウンディングボックスを用いた動画のアノテートを高速に行うことの問題点について考察する。
任意の新規ターゲットに対して、このプロセスを高速にするためのUIと関連するワークフローについて説明する。
In this report we consider the problem of rapidly annotating a video with bounding boxes for a novel object. We describe a UI and associated workflow designed to make this process fast for an arbitrary novel target. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# BIAS検出フレームワーク:ヨーロッパ言語における単語埋め込みと言語モデルにおけるバイアス検出
The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages ( http://arxiv.org/abs/2407.18689v1 ) ライセンス: Link先を確認 | Alexandre Puttick, Leander Rankwiler, Catherine Ikae, Mascha Kurpicz-Briki, | (参考訳) BIAS: Mitigating Diversity Biases of AI in the Labor Marketは、欧州委員会が資金提供し、スイス教育・研究・イノベーション省(SERI)が支援する4年間のプロジェクトである。
プロジェクトの一環として、言語モデルにおける社会的バイアスと、ヨーロッパ言語における単語の埋め込みを識別する新たなバイアス検出手法が開発され、特に言語学的および地理的特異性に注目している。
本技術報告ではBIAS Detection Frameworkのアーキテクチャとコンポーネントについて述べる。
この技術レポートに記載されたコードは利用可能であり、BIASプロジェクトの今後の成果とともに、継続的に更新および拡張される予定である。
異なる言語のためのデータセットの詳細は、科学会場での対応する論文に記載されている。
The project BIAS: Mitigating Diversity Biases of AI in the Labor Market is a four-year project funded by the European commission and supported by the Swiss State Secretariat for Education, Research and Innovation (SERI). As part of the project, novel bias detection methods to identify societal bias in language models and word embeddings in European languages are developed, with particular attention to linguistic and geographic particularities. This technical report describes the overall architecture and components of the BIAS Detection Framework. The code described in this technical report is available and will be updated and expanded continuously with upcoming results from the BIAS project. The details about the datasets for the different languages are described in corresponding papers at scientific venues. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# データ中心自動開発のための協調的進化戦略
Collaborative Evolving Strategy for Automatic Data-Centric Development ( http://arxiv.org/abs/2407.18690v1 ) ライセンス: Link先を確認 | Xu Yang, Haotian Chen, Wenjun Feng, Haoxue Wang, Zeqi Ye, Xinjie Shen, Xiao Yang, Shizhao Sun, Weiqing Liu, Jiang Bian, | (参考訳) 人工知能(AI)は多くの分野に大きく影響している。
現在、データ中心のAI戦略に重点を置いており、モデル設計の進捗よりもデータ開発を優先している。
このプロセスを自動化することが重要です。
本稿では、自動データ中心開発(AD^2)タスクを導入し、その中核となる課題について概説する。
大規模言語モデル(LLM)の高機能な複雑な問題解決機能を活用することで,LLMに基づく自律エージェントを提案する。
具体的には、提案するCo-STEERエージェントは、提案する進化戦略を通じてドメイン知識を豊かにし、ドメイン固有の実践経験を蓄積・取得することで、スケジューリングと実装のスキルを両立させる。
スケジュールの改善により、実装の能力は加速する。
同時に、実装フィードバックの徹底化に伴い、スケジューリング精度が向上する。
これらの2つの機能は、実践的なフィードバックを通じて一緒に進化し、協調的な進化プロセスを可能にします。
大規模実験により, 当社のCo-STEERエージェントがAD^2研究の新たな基盤を破り, 進化可能なスケジュールと実装能力を有し, その有効性を実証した。
当社のコ・ステアはAD^2の進歩の道を開く。
Artificial Intelligence (AI) significantly influences many fields, largely thanks to the vast amounts of high-quality data for machine learning models. The emphasis is now on a data-centric AI strategy, prioritizing data development over model design progress. Automating this process is crucial. In this paper, we serve as the first work to introduce the automatic data-centric development (AD^2) task and outline its core challenges, which require domain-experts-like task scheduling and implementation capability, largely unexplored by previous work. By leveraging the strong complex problem-solving capabilities of large language models (LLMs), we propose an LLM-based autonomous agent, equipped with a strategy named Collaborative Knowledge-STudying-Enhanced Evolution by Retrieval (Co-STEER), to simultaneously address all the challenges. Specifically, our proposed Co-STEER agent enriches its domain knowledge through our proposed evolving strategy and develops both its scheduling and implementation skills by accumulating and retrieving domain-specific practical experience. With an improved schedule, the capability for implementation accelerates. Simultaneously, as implementation feedback becomes more thorough, the scheduling accuracy increases. These two capabilities evolve together through practical feedback, enabling a collaborative evolution process. Extensive experimental results demonstrate that our Co-STEER agent breaks new ground in AD^2 research, possesses strong evolvable schedule and implementation ability, and demonstrates the significant effectiveness of its components. Our Co-STEER paves the way for AD^2 advancements. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# 複雑なシステムにおける仮想センシングのためのグラフニューラルネットワーク:不均一な時間ダイナミクスに対処する
Graph Neural Networks for Virtual Sensing in Complex Systems: Addressing Heterogeneous Temporal Dynamics ( http://arxiv.org/abs/2407.18691v1 ) ライセンス: Link先を確認 | Mengjie Zhao, Cees Taal, Stephan Baggerohr, Olga Fink, | (参考訳) 複雑なシステムの信頼性と効率的な運用にはリアルタイム状態監視が不可欠である。
しかし、物理的なセンサーにのみ依存することは、コスト、配置制約、あるいは特定の臨界パラメータを直接測定できないために制限される可能性がある。
仮想センシングは、利用可能なセンサデータとシステム知識を活用して、アクセス不可能なパラメータを推定したり、システムの状態を推測することで、これらの制限に対処する。
産業システムの複雑さの増大は、システム状態の包括的理解を提供するために、多様なモダリティを持つセンサーの展開を必要とする。
これらのセンサーは、様々な周波数でデータをキャプチャして、急速かつゆっくりと変化するシステムのダイナミクスと、システムの局所的および大域的状態の進化をモニタリングする。
これにより異種時間ダイナミクスが生まれ、特に様々な運用環境条件下では、正確な仮想センシングに重大な課題が生じる。
そこで本研究では,HTGNN(Heterogeneous Temporal Graph Neural Network)フレームワークを提案する。
HTGNNは多様なセンサーからの信号を明示的にモデル化し、動作条件をモデルアーキテクチャに統合する。
HTGNNを新たにリリースした2つのデータセットを用いて評価する。負荷予測のための多様な負荷条件を持つベアリングデータセットと,ブリッジのライブ負荷を予測するための1年間のシミュレーションデータセットである。
以上の結果から,HTGNNは両タスク,特に高度に異なる操作条件下で,確立されたベースライン手法よりも有意に優れていた。
これらの結果は、複雑なシステムに対する堅牢で正確な仮想センシングアプローチとしてのHTGNNの可能性を強調し、監視の改善、予測保守、システム性能の向上への道を開いた。
Real-time condition monitoring is crucial for the reliable and efficient operation of complex systems. However, relying solely on physical sensors can be limited due to their cost, placement constraints, or inability to directly measure certain critical parameters. Virtual sensing addresses these limitations by leveraging readily available sensor data and system knowledge to estimate inaccessible parameters or infer system states. The increasing complexity of industrial systems necessitates deployments of sensors with diverse modalities to provide a comprehensive understanding of system states. These sensors capture data at varying frequencies to monitor both rapid and slowly varying system dynamics, as well as local and global state evolutions of the systems. This leads to heterogeneous temporal dynamics, which, particularly under varying operational end environmental conditions, pose a significant challenge for accurate virtual sensing. To address this, we propose a Heterogeneous Temporal Graph Neural Network (HTGNN) framework. HTGNN explicitly models signals from diverse sensors and integrates operating conditions into the model architecture. We evaluate HTGNN using two newly released datasets: a bearing dataset with diverse load conditions for bearing load prediction and a year-long simulated dataset for predicting bridge live loads. Our results demonstrate that HTGNN significantly outperforms established baseline methods in both tasks, particularly under highly varying operating conditions. These results highlight HTGNN's potential as a robust and accurate virtual sensing approach for complex systems, paving the way for improved monitoring, predictive maintenance, and enhanced system performance. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# 先端点の発生予測のための深層学習
Deep learning for predicting the occurrence of tipping points ( http://arxiv.org/abs/2407.18693v1 ) ライセンス: Link先を確認 | Chengzuo Zhuge, Jiawei Li, Wei Chen, | (参考訳) チップポイントは、システムが突然ある状態から別の状態へシフトする多くの現実世界システムで発生します。
時系列データからチップポイントの発生を予測する能力は、依然として顕著な課題であり、幅広い研究分野において大きな関心を集めている。
特に、分岐理論に基づく広く使われている手法は、予測精度に信頼性がなく、実世界のシステムからよく見られる不規則サンプリング時系列にも適用できない。
ここでは,非学習系におけるチップポイントの発生を予測するための学習アルゴリズムを開発し,正規形に関する情報を活用することで,この問題に対処する。
本アルゴリズムは,正規サンプルモデル時系列の従来の手法よりも優れているだけでなく,不規則サンプルモデル時系列と経験時系列の正確な予測も達成している。
複雑なシステムの転換点を予測する能力は、社会科学、工学、生物学に幅広い応用があり、リスク軽減、破滅的な失敗の防止、劣化したシステムの回復の道を開く。
Tipping points occur in many real-world systems, at which the system shifts suddenly from one state to another. The ability to predict the occurrence of tipping points from time series data remains an outstanding challenge and a major interest in a broad range of research fields. Particularly, the widely used methods based on bifurcation theory are neither reliable in prediction accuracy nor applicable for irregularly-sampled time series which are commonly observed from real-world systems. Here we address this challenge by developing a deep learning algorithm for predicting the occurrence of tipping points in untrained systems, by exploiting information about normal forms. Our algorithm not only outperforms traditional methods for regularly-sampled model time series but also achieves accurate predictions for irregularly-sampled model time series and empirical time series. Our ability to predict tipping points for complex systems paves the way for mitigation risks, prevention of catastrophic failures, and restoration of degraded systems, with broad applications in social science, engineering, and biology. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# 複数のコンピュータビジョン問題のためのマルチカメラデータセットPIV3CAMSと新しい視点合成への応用
PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis ( http://arxiv.org/abs/2407.18695v1 ) ライセンス: Link先を確認 | Sohyeong Kim, Martin Danelljan, Radu Timofte, Luc Van Gool, Jean-Philippe Thiran, | (参考訳) コンピュータビジョンタスクの現代的なアプローチは、大量の品質画像を必要とする機械学習に大きく依存している。
単一のタイプのイメージを持つ多数の画像データセットが存在する一方で、複数のカメラから収集されたデータセットが不足している。
本稿では,複数のコンピュータビジョンタスクを対象とした3つのCAMeraS(PIV3CAMS)のPaired Image and Videoデータを紹介する。
PIV3CAMSデータセットは8385枚の画像と、Canon D5 Mark IV、Huawei P20、ZEDステレオカメラから撮影した82枚のビデオで構成されている。
データセットには、チューリッヒ(スイス)とチェオナン(韓国)の様々な場所から、様々な屋内および屋外のシーンが含まれている。
PIV3CAMSデータセットの恩恵を受けることができるコンピュータビジョンアプリケーションは、画像/映像の強化、ビュー補間、画像マッチングなどである。
本稿では,データ収集プロセスと詳細なデータ解析について,慎重に解説する。
この論文の第2部では、ビュー合成タスクにおける深度情報の利用について研究している。
本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
広範にわたる実験により,微視的変化には深度の影響が不可欠であることが示唆された。
最後に、導入したPIV3CAMSデータセットに適用し、PIV3CAMSの例として、新規なターゲットビューを合成する。
The modern approaches for computer vision tasks significantly rely on machine learning, which requires a large number of quality images. While there is a plethora of image datasets with a single type of images, there is a lack of datasets collected from multiple cameras. In this thesis, we introduce Paired Image and Video data from three CAMeraS, namely PIV3CAMS, aimed at multiple computer vision tasks. The PIV3CAMS dataset consists of 8385 pairs of images and 82 pairs of videos taken from three different cameras: Canon D5 Mark IV, Huawei P20, and ZED stereo camera. The dataset includes various indoor and outdoor scenes from different locations in Zurich (Switzerland) and Cheonan (South Korea). Some of the computer vision applications that can benefit from the PIV3CAMS dataset are image/video enhancement, view interpolation, image matching, and much more. We provide a careful explanation of the data collection process and detailed analysis of the data. The second part of this thesis studies the usage of depth information in the view synthesizing task. In addition to the regeneration of a current state-of-the-art algorithm, we investigate several proposed alternative models that integrate depth information geometrically. Through extensive experiments, we show that the effect of depth is crucial in small view changes. Finally, we apply our model to the introduced PIV3CAMS dataset to synthesize novel target views as an example application of PIV3CAMS. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# Q-gen:パラメータ化量子回路発電機
Q-gen: A Parameterized Quantum Circuit Generator ( http://arxiv.org/abs/2407.18697v1 ) ライセンス: Link先を確認 | Yikai Mao, Shaswot Shresthamali, Masaaki Kondo, | (参考訳) 入力を入力として直接解を与える古典的なアルゴリズムとは異なり、量子アルゴリズムは計算的に難しい問題に対する間接的な解として機能する量子回路を生成する。
完全な量子コンピューティングワークフローでは、ほとんどのデータ処理は量子プロセッサで量子回路を実行する以外は古典的な領域に留まっている。
これにより、量子コンピューティングの今後の活用に向けて、古典的な自動化と最適化の膨大な機会が残される。
15個の現実的量子アルゴリズムを組み込んだ高レベルパラメータ化量子回路生成器Q-genを導入することで、この方向への第一歩を踏み出す。
それぞれのカスタマイズされた生成関数は、キュービット数を超えるアルゴリズム固有のパラメータを持ち、高い回路可変性を持つ大きな生成ボリュームを提供する。
Q-genの機能を示すために、アルゴリズムを5つの階層的なシステムに分類し、その測定ヒストグラムと状態ベクトルを伴って量子回路データセットを生成する。
このデータセットにより、研究者は大規模量子回路の構造、複雑さ、性能を統計的に分析したり、指数関数的に増加するシミュレーション時間を気にせずに新しい機械学習モデルを素早く訓練することができる。
Q-genはオープンソースの多目的プロジェクトであり、古典的なコンピュータサイエンスの背景を持つユーザーが量子コンピューティングの世界に飛び込むための入り口として機能している。
Unlike most classical algorithms that take an input and give the solution directly as an output, quantum algorithms produce a quantum circuit that works as an indirect solution to computationally hard problems. In the full quantum computing workflow, most data processing remains in the classical domain except for running the quantum circuit in the quantum processor. This leaves massive opportunities for classical automation and optimization toward future utilization of quantum computing. We kickstart the first step in this direction by introducing Q-gen, a high-level, parameterized quantum circuit generator incorporating 15 realistic quantum algorithms. Each customized generation function comes with algorithm-specific parameters beyond the number of qubits, providing a large generation volume with high circuit variability. To demonstrate the functionality of Q-gen, we organize the algorithms into 5 hierarchical systems and generate a quantum circuit dataset accompanied by their measurement histograms and state vectors. This dataset enables researchers to statistically analyze the structure, complexity, and performance of large-scale quantum circuits, or quickly train novel machine learning models without worrying about the exponentially growing simulation time. Q-gen is an open-source and multipurpose project that serves as the entrance for users with a classical computer science background to dive into the world of quantum computing. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# Adaptive Contrastive Search: オープンエンディングテキスト生成のための不確実なガイド付きデコード
Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation ( http://arxiv.org/abs/2407.18698v1 ) ライセンス: Link先を確認 | Esteban Garces Arias, Julian Rodemann, Meimingwei Li, Christian Heumann, Matthias Aßenmacher, | (参考訳) 大規模言語モデルの出力分布から高品質なテキストを生成するための復号化は、言語モデリングにおける複雑な課題である。
ビームサーチ、温度によるサンプリング、$k-$sampling、core $p-$sampling、典型的復号化、コントラスト的復号化、コントラスト的探索といった様々な手法が提案されている。
本研究では,適応的退化ペナルティを取り入れた新しい復号法であるアダプティブ・コントラッシブ・サーチを導入する。
この戦略は、言語モデリングプロセスの創造性と多様性を両立させると同時に、一貫性と高品質なテキスト出力を生成するように設計されている。
本研究は,異なるモデルアーキテクチャとデータセットの両面での性能向上を示し,テキスト生成タスクにおける本手法の有効性を裏付けるものである。
コードベース、データセット、モデルが公開されています。
Decoding from the output distributions of large language models to produce high-quality text is a complex challenge in language modeling. Various approaches, such as beam search, sampling with temperature, $k-$sampling, nucleus $p-$sampling, typical decoding, contrastive decoding, and contrastive search, have been proposed to address this problem, aiming to improve coherence, diversity, as well as resemblance to human-generated text. In this study, we introduce adaptive contrastive search, a novel decoding strategy extending contrastive search by incorporating an adaptive degeneration penalty, guided by the estimated uncertainty of the model at each generation step. This strategy is designed to enhance both the creativity and diversity of the language modeling process while at the same time producing coherent and high-quality generated text output. Our findings indicate performance enhancement in both aspects, across different model architectures and datasets, underscoring the effectiveness of our method in text generation tasks. Our code base, datasets, and models are publicly available. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# ZKsyncの公開データセット
A Public Dataset For the ZKsync Rollup ( http://arxiv.org/abs/2407.18699v1 ) ライセンス: Link先を確認 | Maria Inês Silva, Johnnatan Messias, Benjamin Livshits, | (参考訳) ブロックチェーンデータが公開されているにもかかわらず、実践的な課題と高いコストが研究者の効果的な使用を妨げることが少なくないため、ブロックチェーン分野におけるデータ駆動リサーチと探索が制限される。
これはLayer~2(L2)エコシステム、特にZKsyncに関しては特に当てはまります。
これらの問題に対処するため、ZKsyncのアーカイブノードから抽出した1年間のアクティビティからデータセットをキュレートし、外部のパーティで自由に利用できるようにしました。
本稿では、このデータセットの詳細と、どのように作成されたかを説明し、それを用いて実行可能ないくつかの分析例を示し、今後の研究方向性について論じる。
また、再現性を促進し、さらなる研究をサポートするためにGitHubで分析に使用されたコードを公開し、共有しています。
Despite blockchain data being publicly available, practical challenges and high costs often hinder its effective use by researchers, thus limiting data-driven research and exploration in the blockchain space. This is especially true when it comes to Layer~2 (L2) ecosystems, and ZKsync, in particular. To address these issues, we have curated a dataset from 1 year of activity extracted from a ZKsync Era archive node and made it freely available to external parties. In this paper, we provide details on this dataset and how it was created, showcase a few example analyses that can be performed with it, and discuss some future research directions. We also publish and share the code used in our analysis on GitHub to promote reproducibility and to support further research. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# ガウス過程の混合体としての有限ニューラルネットワーク:確率的誤差境界から優先選択へ
Finite Neural Networks as Mixtures of Gaussian Processes: From Provable Error Bounds to Prior Selection ( http://arxiv.org/abs/2407.18707v1 ) ライセンス: Link先を確認 | Steven Adams, Patanè, Morteza Lahijanian, Luca Laurenti, | (参考訳) 独立かつ同一に分散されたパラメータを持つ無限広または深層ニューラルネットワーク(NN)は、ガウス過程と等価であることが示されている。
ガウス過程の好ましい性質のため、この同値性はニューラルネットワークの分析に一般的に用いられ、長年にわたって様々なブレークスルーをもたらしてきた。
しかし、ニューラルネットワークとガウス過程は極限でのみ等価であり、有限の場合、近似誤差に有界なガウスモデルで訓練されたニューラルネットワークを近似する方法は今のところ存在しない。
本研究では,有限幅と深さのニューラルネットワークを近似するアルゴリズムフレームワークを提案する。
特に、確率的モデル間の近接性を定量化するために、ワッサーシュタイン距離を考慮し、最適輸送とガウス過程からのツールに頼ることにより、ニューラルネットワークの各層の出力分布をガウス過程の混合として反復的に近似する。
重要なことに、NN と $\epsilon > 0$ の場合、我々のアプローチはガウス過程の混合を、有限の入力点の集合で NN に返すことができる。
さらに、ベイズ推論の文脈における事前選択に対して、与えられたガウス過程の関数的振る舞いを模倣するために、NNのパラメータをチューニングするために我々のアプローチをどのように使うかを示すために、結果の誤差境界の微分可能性に依存する。
ニューラルネットワークアーキテクチャにおける回帰と分類の両問題に対する結果の有効性を実証的に検討する。
私たちの実験では、ニューラルネットワークの予測を理解し、その不確実性を正式に定量化するための重要なステップとして、私たちの結果がどのように表現できるかを強調しています。
Infinitely wide or deep neural networks (NNs) with independent and identically distributed (i.i.d.) parameters have been shown to be equivalent to Gaussian processes. Because of the favorable properties of Gaussian processes, this equivalence is commonly employed to analyze neural networks and has led to various breakthroughs over the years. However, neural networks and Gaussian processes are equivalent only in the limit; in the finite case there are currently no methods available to approximate a trained neural network with a Gaussian model with bounds on the approximation error. In this work, we present an algorithmic framework to approximate a neural network of finite width and depth, and with not necessarily i.i.d. parameters, with a mixture of Gaussian processes with error bounds on the approximation error. In particular, we consider the Wasserstein distance to quantify the closeness between probabilistic models and, by relying on tools from optimal transport and Gaussian processes, we iteratively approximate the output distribution of each layer of the neural network as a mixture of Gaussian processes. Crucially, for any NN and $\epsilon >0$ our approach is able to return a mixture of Gaussian processes that is $\epsilon$-close to the NN at a finite set of input points. Furthermore, we rely on the differentiability of the resulting error bound to show how our approach can be employed to tune the parameters of a NN to mimic the functional behavior of a given Gaussian process, e.g., for prior selection in the context of Bayesian inference. We empirically investigate the effectiveness of our results on both regression and classification problems with various neural network architectures. Our experiments highlight how our results can represent an important step towards understanding neural network predictions and formally quantifying their uncertainty. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# 導波管を用いたダイアモンド中における浅部埋込みNV中心を用いたベクトル磁気計測
Vector Magnetometry Using Shallow Implanted NV Centers in Diamond with Waveguide-Assisted Dipole Excitation and Readout ( http://arxiv.org/abs/2407.18711v1 ) ライセンス: Link先を確認 | Sajedeh Shahbazi, Giulio Coccia, Johannes Lang, Vibhav Bharadwaj, Fedor Jelezko, Roberta Ramponi, Anthony J. Bennett, John P. Hadden, Shane M. Eaton, Alexander Kubanek, | (参考訳) ダイヤモンド中の窒素空洞(NV)中心を用いたオンチップ磁場センサは、ダイヤモンド基板への3次元導波路のスケーラブルな集積を必要とする。
そこで我々は,NV信号の励起と読み出しのためのレーザ書き導波路のアレイと一体化した,浅い埋め込みNV中心のアンサンブルを持つセンサアレイ装置を開発した。
本手法は,各導波路のガウスモード面積に比例した画素サイズで,操作が容易なオンチップ磁気センサを実現する。
連続波を光学的に検出した各導波路上の磁気共鳴により、平均dc感度値は195 \pm 3 {nT}/\sqrt{Hz}$となり、ロックイン検出またはパルスマイクロ波シーケンスで改善できる。
磁気共鳴の4つのNV結晶配向を分離するために磁場を適用し、導波路近傍の直線線アンテナを介して直流電流を利用して装置のセンサ機能を証明する。
我々は3つの異なるNV結晶方位を用いてNV結晶フレームの完全ベクトル磁場を再構成する。
導波路モードの偏極軸を知ることで、磁場ベクトルを実験室のフレームに投影する。
On-chip magnetic field sensing with Nitrogen-Vacancy (NV) centers in diamond requires scalable integration of 3D waveguides into diamond substrates. Here, we develop a sensing array device with an ensemble of shallow implanted NV centers integrated with arrays of laser-written waveguides for excitation and readout of NV signals. Our approach enables an easy-to-operate on-chip magnetometer with a pixel size proportional to the Gaussian mode area of each waveguide. The performed continuous wave optically detected magnetic resonance on each waveguide gives an average dc-sensitivity value of $195 \pm 3 {nT}/\sqrt{Hz}$, which can be improved with lock-in-detection or pulsed-microwave sequences. We apply a magnetic field to separate the four NV crystallographic orientations of the magnetic resonance and then utilize a DC current through a straight wire antenna close to the waveguide to prove the sensor capabilities of our device. We reconstruct the complete vector magnetic field in the NV crystal frame using three different NV crystallographic orientations. By knowing the polarization axis of the waveguide mode, we project the magnetic field vector into the lab frame. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# 教師なし知識探索のためのクラスタノルム
Cluster-norm for Unsupervised Probing of Knowledge ( http://arxiv.org/abs/2407.18712v1 ) ライセンス: Link先を確認 | Walter Laurito, Sharan Maiya, Grégoire Dhimoïla, Owen, Yeung, Kaarel Hänni, | (参考訳) 言語モデルの展開は、信頼性のある情報を生成する上での課題をもたらします。
人間のラベルをバイアスなく(潜在的に)抽出するために、Contrast-Consistent Search (CCS)のような教師なし探索技術が開発されている(Burns et al , 2022)。
しかし、与えられたデータセットの健全だが無関係な特徴はこれらのプローブを誤解させる可能性がある(Farquhar et al , 2023)。
そこで本研究では、クラスタリングとコントラストペアのアクティベーションの正規化により、教師なしのプローブ技術を適用する前に、そのような特徴の影響を最小限に抑えるクラスタ正規化手法を提案する。
このアプローチは、一般知識と模擬知識の差別化の問題(Christiano et al , 2021)に対処するものではないが、意図された知識を気晴らしの中で識別するための教師なしプローブの能力を大幅に改善する。
The deployment of language models brings challenges in generating reliable information, especially when these models are fine-tuned using human preferences. To extract encoded knowledge without (potentially) biased human labels, unsupervised probing techniques like Contrast-Consistent Search (CCS) have been developed (Burns et al., 2022). However, salient but unrelated features in a given dataset can mislead these probes (Farquhar et al., 2023). Addressing this, we propose a cluster normalization method to minimize the impact of such features by clustering and normalizing activations of contrast pairs before applying unsupervised probing techniques. While this approach does not address the issue of differentiating between knowledge in general and simulated knowledge - a major issue in the literature of latent knowledge elicitation (Christiano et al., 2021) - it significantly improves the ability of unsupervised probes to identify the intended knowledge amidst distractions. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# BCTR: シーングラフ生成のための双方向コンディショニングトランス
BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation ( http://arxiv.org/abs/2407.18715v1 ) ライセンス: Link先を確認 | Peng Hao, Xiaobing Wang, Yingying Jiang, Hanchao Jia, Xiaoshuai Hao, | (参考訳) シーングラフ生成(SGG)は、その構成特性のため、依然として困難な課題である。
従来のアプローチでは、エンドツーエンドで学習することで予測効率が向上する。
しかし、これらの手法は、エンティティと述語間の一方向条件付けを前提として、限られた性能を示し、情報相互作用が不十分になる。
この制限に対処するため、我々はSGGのための新しい双方向条件因子化を提案し、実体と述語の間の効率的な相互作用を導入した。
具体的には,BCTR (Bidirectional Conditioning Transformer) をエンド・ツー・エンドのシーングラフ生成モデルとして開発した。
BCTRは2つの重要なモジュールから構成される。
まず、双方向コンディショニングジェネレータ(BCG)は、エンティティと述語の間の多段階的な対話的特徴拡張を促進し、2つの予測間の相互利益を可能にする。
第二に、Random Feature Alignment (RFA) は、事前訓練されたモデルからマルチモーダルな知識を蒸留することで特徴空間を正規化し、統計的事前に頼らずに尾行されたカテゴリにおけるBCTRの能力を高める。
我々は、Visual GenomeとOpen Image V6で一連の実験を行い、BCTRが両方のベンチマークで最先端のパフォーマンスを達成することを実証した。
コードは、論文の受理時に入手できます。
Scene Graph Generation (SGG) remains a challenging task due to its compositional property. Previous approaches improve prediction efficiency by learning in an end-to-end manner. However, these methods exhibit limited performance as they assume unidirectional conditioning between entities and predicates, leading to insufficient information interaction. To address this limitation, we propose a novel bidirectional conditioning factorization for SGG, introducing efficient interaction between entities and predicates. Specifically, we develop an end-to-end scene graph generation model, Bidirectional Conditioning Transformer (BCTR), to implement our factorization. BCTR consists of two key modules. First, the Bidirectional Conditioning Generator (BCG) facilitates multi-stage interactive feature augmentation between entities and predicates, enabling mutual benefits between the two predictions. Second, Random Feature Alignment (RFA) regularizes the feature space by distilling multi-modal knowledge from pre-trained models, enhancing BCTR's ability on tailed categories without relying on statistical priors. We conduct a series of experiments on Visual Genome and Open Image V6, demonstrating that BCTR achieves state-of-the-art performance on both benchmarks. The code will be available upon acceptance of the paper. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# ChatSchema: スキーマに基づいた大規模マルチモーダルモデルによる構造化情報抽出パイプライン
ChatSchema: A pipeline of extracting structured information with Large Multimodal Models based on schema ( http://arxiv.org/abs/2407.18716v1 ) ライセンス: Link先を確認 | Fei Wang, Yuewen Zheng, Qin Li, Jingyi Wu, Pengfei Li, Luxia Zhang, | (参考訳) 目的: 本研究は, 大規模マルチモーダルモデル (LMM) と光学文字認識 (OCR) を組み合わせて, 医用紙の非構造化データから情報を抽出し, 構造化する効果的な方法であるChatSchemaを紹介する。
事前定義されたスキーマを統合することで、LMMがスキーマ仕様に従って情報を直接抽出し、標準化できるようにし、さらなるデータ入力を容易にする。
方法:本手法は,報告シナリオの分類と情報構造化のための分類と抽出を含む2段階のプロセスを含む。
また,ChatSchemaの有効性を検証するためのデータセットを構築し,精度,リコール,F1スコア,精度の指標を用いてキー抽出を評価した。
キー抽出に基づいて,さらに値抽出を評価した。
我々は2つのLMMのアブレーション実験を行い、異なる入力モードと手法による構造化情報抽出の改善を実証した。
結果: 北京大学第一病院の医療報告100件を解析し, 2,945対の鍵値のペアを用いた地上真実データセットを構築した。
GPT-4o と Gemini 1.5 Pro を用いて ChatSchema の評価を行い,GPT-4o の全体的な性能が向上した。
キー抽出の結果、キー精度は98.6%、キーリコールは98.5%、キーF1スコアは98.6%であった。
正しい鍵抽出に基づく値抽出の結果、全体的な精度は97.2%、精度は95.8%、リコールは95.8%、F1スコアは95.8%であった。
アブレーションによる研究では、ChatSchemaはベースラインに比べて、全体的な精度と鍵値抽出の全体的なF1スコアが大幅に向上し、それぞれ26.9%の精度と27.4%のF1スコアが増加した。
Objective: This study introduces ChatSchema, an effective method for extracting and structuring information from unstructured data in medical paper reports using a combination of Large Multimodal Models (LMMs) and Optical Character Recognition (OCR) based on the schema. By integrating predefined schema, we intend to enable LMMs to directly extract and standardize information according to the schema specifications, facilitating further data entry. Method: Our approach involves a two-stage process, including classification and extraction for categorizing report scenarios and structuring information. We established and annotated a dataset to verify the effectiveness of ChatSchema, and evaluated key extraction using precision, recall, F1-score, and accuracy metrics. Based on key extraction, we further assessed value extraction. We conducted ablation studies on two LMMs to illustrate the improvement of structured information extraction with different input modals and methods. Result: We analyzed 100 medical reports from Peking University First Hospital and established a ground truth dataset with 2,945 key-value pairs. We evaluated ChatSchema using GPT-4o and Gemini 1.5 Pro and found a higher overall performance of GPT-4o. The results are as follows: For the result of key extraction, key-precision was 98.6%, key-recall was 98.5%, key-F1-score was 98.6%. For the result of value extraction based on correct key extraction, the overall accuracy was 97.2%, precision was 95.8%, recall was 95.8%, and F1-score was 95.8%. An ablation study demonstrated that ChatSchema achieved significantly higher overall accuracy and overall F1-score of key-value extraction, compared to the Baseline, with increases of 26.9% overall accuracy and 27.4% overall F1-score, respectively. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# FLUE: 暗号化されていないモデルウェイトによるフェデレーションラーニング
FLUE: Federated Learning with Un-Encrypted model weights ( http://arxiv.org/abs/2407.18750v1 ) ライセンス: Link先を確認 | Elie Atallah, | (参考訳) フェデレートラーニング(Federated Learning)により、さまざまなデバイスが、ローカルに保存されたトレーニングデータを保持しながら、共有モデルを共同でトレーニングすることが可能になり、集中型クラウドストレージの必要性が回避される。
既存のプライバシー対策にもかかわらず、懸念は勾配のリバースエンジニアリングによって生じる。
これを解決するために、最近の研究では、トレーニング中に暗号化されたモデルパラメータを使うことを強調している。
本稿では、符号化された局所勾配を暗号化せずに活用し、モデルパラメータの符号付きプロキシを交換し、余剰ノイズを注入してプライバシーを向上する新しいフェデレーション学習アルゴリズムを提案する。
符号化方式と生データ特性に適応した収束率と学習率を示す2つのアルゴリズム変種が提示される。
固定およびランダムな符号化行列を持つ2つの暗号化フリー実装が提供され、フェデレーション最適化と機械学習の両方の観点から有望なシミュレーション結果が示された。
Federated Learning enables diverse devices to collaboratively train a shared model while keeping training data locally stored, avoiding the need for centralized cloud storage. Despite existing privacy measures, concerns arise from potential reverse engineering of gradients, even with added noise, revealing private data. To address this, recent research emphasizes using encrypted model parameters during training. This paper introduces a novel federated learning algorithm, leveraging coded local gradients without encryption, exchanging coded proxies for model parameters, and injecting surplus noise for enhanced privacy. Two algorithm variants are presented, showcasing convergence and learning rates adaptable to coding schemes and raw data characteristics. Two encryption-free implementations with fixed and random coding matrices are provided, demonstrating promising simulation results from both federated optimization and machine learning perspectives. | 翻訳日:2024-07-29 13:30:50 公開日:2024-07-26 |
# 生成AIにおけるインストラクタビリティ向上のためのニューロシンボリックAI
Neurosymbolic AI for Enhancing Instructability in Generative AI ( http://arxiv.org/abs/2407.18722v1 ) ライセンス: Link先を確認 | Amit Sheth, Vishal Pallagani, Kaushik Roy, | (参考訳) 生成AIは、特にLarge Language Models (LLMs)を介して、テキスト、画像、音楽間でコンテンツ生成を変換し、命令チューニングによって主に促進されるプロンプトを通じて、指示に従う能力を示す。
インストラクションチューニング(英: Instruction tuning)は、特定のタスクとそれに対応する命令でフォーマットされたデータセットに基づいてLLMを訓練する教師付き微調整手法である。
この方法は、与えられた指示を理解および実行するモデルの能力を体系的に強化する。
これらの進歩にもかかわらず、LLMは複雑な多段階の命令を一貫して解釈し、それらを新しいタスクに一般化するという課題に直面している。
本稿では,LLMのインストラクタビリティを高めるために,ニューロシンボリックAIがよりよい経路を提供する理由を考察する。
我々は,高レベルの命令を構造化されたタスクに分解するための記号的タスクプランナ,これらのタスクを実行可能なアクションにグラウンド化するためのニューラルセマンティックパーサ,そしてこれらのアクションを実装するためのニューロシンボリックエグゼキュータを探索し,状態の明示的な表現を動的に維持する。
また,ニューロシンボリックアプローチによってタスク実行の信頼性とコンテキスト認識が向上し,LLMが動的に解釈し,より精度と柔軟性のよい幅広い命令コンテキストに対応できることを示す。
Generative AI, especially via Large Language Models (LLMs), has transformed content creation across text, images, and music, showcasing capabilities in following instructions through prompting, largely facilitated by instruction tuning. Instruction tuning is a supervised fine-tuning method where LLMs are trained on datasets formatted with specific tasks and corresponding instructions. This method systematically enhances the model's ability to comprehend and execute the provided directives. Despite these advancements, LLMs still face challenges in consistently interpreting complex, multi-step instructions and generalizing them to novel tasks, which are essential for broader applicability in real-world scenarios. This article explores why neurosymbolic AI offers a better path to enhance the instructability of LLMs. We explore the use a symbolic task planner to decompose high-level instructions into structured tasks, a neural semantic parser to ground these tasks into executable actions, and a neuro-symbolic executor to implement these actions while dynamically maintaining an explicit representation of state. We also seek to show that neurosymbolic approach enhances the reliability and context-awareness of task execution, enabling LLMs to dynamically interpret and respond to a wider range of instructional contexts with greater precision and flexibility. | 翻訳日:2024-07-29 13:21:07 公開日:2024-07-26 |
# LLASP: 解集合プログラミングのための微調整された大規模言語モデル
LLASP: Fine-tuning Large Language Models for Answer Set Programming ( http://arxiv.org/abs/2407.18723v1 ) ライセンス: Link先を確認 | Erica Coppolillo, Francesco Calimeri, Giuseppe Manco, Simona Perri, Francesco Ricca, | (参考訳) 最近、LLM(Large Language Models)は、コード生成を含む様々な自然言語処理タスクにおいて、その可能性を示した。
しかしながら、いくつかの命令型プログラミング言語やタスクのコードを生成するためにLLMを適用する際には大きな進歩があったが、Answer Set Programming (ASP.NET)のような宣言型形式への適用には注目すべきギャップが残っている。
本稿では,ASP コード生成のための LLM の機能について検討する。
まず,いくつかの最先端LCMの系統的評価を行う。
パラメータ数、トレーニングデータ、計算リソースの点で力があるにもかかわらず、実験結果は正しいASPプログラムを生成するのに不十分な性能を示す。
そこで我々は,基本的なASPプログラムパターンをエンコードするように特別に訓練された,微調整された軽量モデルであるLLASPを提案する。
この目的のために、ASP.NETでエンコードできる様々な基本的な問題仕様をカバーするアドホックなデータセットを作成します。
LLASP が生成する ASP プログラムの品質が顕著であることを示す実験を行った。
これは、非微調整の候補と比べるだけでなく、熱心にLLM候補の大多数、特に意味論の観点から比較した場合にも当てはまる。
実験に使われたコードとデータはhttps://anonymous.4open.science/r/LLASP-D86C/で公開されている。
Recently, Large Language Models (LLMs) have showcased their potential in various natural language processing tasks, including code generation. However, while significant progress has been made in adapting LLMs to generate code for several imperative programming languages and tasks, there remains a notable gap in their application to declarative formalisms, such as Answer Set Programming (ASP). In this paper, we move a step towards exploring the capabilities of LLMs for ASP code generation. First, we perform a systematic evaluation of several state-of-the-art LLMs. Despite their power in terms of number of parameters, training data and computational resources, empirical results demonstrate inadequate performances in generating correct ASP programs. Therefore, we propose LLASP, a fine-tuned lightweight model specifically trained to encode fundamental ASP program patterns. To this aim, we create an ad-hoc dataset covering a wide variety of fundamental problem specifications that can be encoded in ASP. Our experiments demonstrate that the quality of ASP programs generated by LLASP is remarkable. This holds true not only when compared to the non-fine-tuned counterpart but also when compared to the majority of eager LLM candidates, particularly from a semantic perspective. All the code and data used to perform the experiments are publicly available at https://anonymous.4open.science/r/LLASP-D86C/. | 翻訳日:2024-07-29 13:21:06 公開日:2024-07-26 |
# SIMD抽象化ライブラリのためのジェネレータフレームワークの設計と実装
Designing and Implementing a Generator Framework for a SIMD Abstraction Library ( http://arxiv.org/abs/2407.18728v1 ) ライセンス: Link先を確認 | Johannes Pietrzyk, Alexander Krause, Dirk Habich, Wolfgang Lehner, | (参考訳) SIMD(Single Instruction Multiple Data)並列パラダイム(Single Instruction Multiple Data)は、データベースや機械学習など、さまざまなシステムドメインにおけるシングルスレッドのパフォーマンスを向上させるための、確立されたハードウェア駆動技術である。
ハードウェアベンダと特定のプロセッサ生成/バージョンに依存して、SIMD機能にはレジスタサイズとサポート対象SIMD命令に関する異なるフレーバーがある。
このような不均一性と標準化された呼び出し規約の欠如のため、高性能でポータブルなシステムを構築することは難しい課題である。
この課題に対処するため、学界と業界は、異なるSIMDハードウェア機能への統一的なアクセスを提供するSIMD抽象化ライブラリの作成に、驚くべき努力を払ってきた。
しかし、これら一大のライブラリアプローチは本質的に複雑であり、保守性と拡張性を損なう。
さらに、同様のSIMDハードウェア設計を前提としており、ARM SVEの出現によって無効化される可能性がある。
さらに、既存のSIMD抽象化ライブラリは、基盤となるハードウェアの仕様を隠蔽する素晴らしい仕事をしていますが、表現力の欠如は、システム開発者にとって重要なアルゴリズム設計決定を妨げます。
本稿では,SIMD抽象化ライブラリを生成するための新しいエンドツーエンドフレームワークTSLGenを提案する。
我々は、TSLGenフレームワークを実装し、生成されたTemplate SIMDライブラリ(TSL)を使用して、異なるドメインから様々なシステムコンポーネントをプログラムした。
お見せするとおり、プログラミングの取り組みは既存のライブラリに匹敵するものであり、同じパフォーマンスを実現しています。
しかし、我々のフレームワークはメンテナンスや拡張が容易であり、同時に設計によるインターフェイスの破壊的な変更をサポートし、提供された機能を評価する上で貴重な洞察を公開する。
The Single Instruction Multiple Data (SIMD) parallel paradigm is a well-established and heavily-used hardware-driven technique to increase the single-thread performance in different system domains such as database or machine learning. Depending on the hardware vendor and the specific processor generation/version, SIMD capabilities come in different flavors concerning the register size and the supported SIMD instructions. Due to this heterogeneity and the lack of standardized calling conventions, building high-performance and portable systems is a challenging task. To address this challenge, academia and industry have invested a remarkable effort into creating SIMD abstraction libraries that provide unified access to different SIMD hardware capabilities. However, those one-size-fits-all library approaches are inherently complex, which hampers maintainability and extensibility. Furthermore, they assume similar SIMD hardware designs, which may be invalidated through ARM SVE's emergence. Additionally, while existing SIMD abstraction libraries do a great job of hiding away the specifics of the underlying hardware, their lack of expressiveness impedes crucial algorithm design decisions for system developers. To overcome these limitations, we present TSLGen, a novel end-to-end framework approach for generating an SIMD abstraction library in this paper. We have implemented our TSLGen framework and used our generated Template SIMD Library (TSL) to program various system components from different domains. As we will show, the programming effort is comparable to existing libraries, and we achieve the same performance results. However, our framework is easy to maintain and to extend, which simultaneously supports disruptive changes to the interface by design and exposes valuable insights for assessing provided functionality. | 翻訳日:2024-07-29 13:21:06 公開日:2024-07-26 |
# 音とテキストのアライメントコーパスの作成:シェイクスピアとミルトンのマルチモーダルコーパス
Creating an Aligned Corpus of Sound and Text: The Multimodal Corpus of Shakespeare and Milton ( http://arxiv.org/abs/2407.18730v1 ) ライセンス: Link先を確認 | Manex Agirrezabal, | (参考訳) この作品では、ウィリアム・シェイクスピアとジョン・ミルトンによる詩集を公開ドメインからの読書で豊かにしている。
すべての行をそれぞれの音声セグメント、行、単語、音節、電話レベルに合わせることができ、それらのスキャンも含んでいます。
我々はこれらの詩の基本的な視覚化プラットフォームを作り、将来の可能性を見極めることで結論付ける。
In this work we present a corpus of poems by William Shakespeare and John Milton that have been enriched with readings from the public domain. We have aligned all the lines with their respective audio segments, at the line, word, syllable and phone level, and we have included their scansion. We make a basic visualization platform for these poems and we conclude by conjecturing possible future directions. | 翻訳日:2024-07-29 13:21:06 公開日:2024-07-26 |
# 材料設計と発見のための量子アクティブラーニングの探求
Exploring Quantum Active Learning for Materials Design and Discovery ( http://arxiv.org/abs/2407.18731v1 ) ライセンス: Link先を確認 | Maicon Pierre Lourenço, Hadi Zadeh-Haghighi, Jiří Hostaš, Mosayeb Naseri, Daya Gaur, Christoph Simon, Dennis R. Salahub, | (参考訳) 人工知能(AI)と量子コンピューティングのミーティングはすでに現実的であり、量子機械学習(QML)はより良い回帰モデルの設計を約束している。
本研究では,古典的アクティブラーニング(AL)を用いた材料発見に関するこれまでの研究を拡張し,MLChem4DやQMLMaterialsのコードに実装されているALフレームワーク(QAL)における量子アルゴリズムの利用について検討する。
提案したQALは、量子サポートベクトル回帰器(QSVR)または様々な量子カーネルと異なる特徴マップを備えた量子ガウスプロセス回帰器(QGPR)を使用する。
データはペロブスカイト特性(圧電係数、バンドギャップ、エネルギー貯蔵)と古典的なAL値と比較するために選択されたドープナノ粒子(3Al@Si11)の構造最適化を含む。
以上の結果から,QAL法は検索精度を向上するが,すべてではなく,データの粗さと相関していることが明らかとなった。
QALは、物質科学やその他の化学分野において、化学空間内で最適な解を見つける可能性を秘めている。
The meeting of artificial intelligence (AI) and quantum computing is already a reality; quantum machine learning (QML) promises the design of better regression models. In this work, we extend our previous studies of materials discovery using classical active learning (AL), which showed remarkable economy of data, to explore the use of quantum algorithms within the AL framework (QAL) as implemented in the MLChem4D and QMLMaterials codes. The proposed QAL uses quantum support vector regressor (QSVR) or a quantum Gaussian process regressor (QGPR) with various quantum kernels and different feature maps. Data sets include perovskite properties (piezoelectric coefficient, band gap, energy storage) and the structure optimization of a doped nanoparticle (3Al@Si11) chosen to compare with classical AL results. Our results revealed that the QAL method improved the searches in most cases, but not all, seemingly correlated with the roughness of the data. QAL has the potential of finding optimum solutions, within chemical space, in materials science and elsewhere in chemistry. | 翻訳日:2024-07-29 13:21:06 公開日:2024-07-26 |
# 物理インフォームドニューラルネットワークによる球面マイクロホンアレイの空間的アップサンプリング
A Physics-Informed Neural Network-Based Approach for the Spatial Upsampling of Spherical Microphone Arrays ( http://arxiv.org/abs/2407.18732v1 ) ライセンス: Link先を確認 | Federico Miotello, Ferdinando Terminiello, Mirco Pezzoli, Alberto Bernardini, Fabio Antonacci, Augusto Sarti, | (参考訳) 球面マイクロホンアレイは、音場の空間特性を捉えるのに便利なツールである。
しかし、より優れた空間分解能を達成するには、多数のカプセルを持つアレイが必要であり、結果として高価な装置へと繋がる。
この問題に対処するために,球面マイクロホンアレイを限られた数のカプセルで空間的にアップサンプリングする手法を提案する。
提案手法は,Rowdyアクティベーション機能を備えた物理インフォームニューラルネットワークを利用して,低次デバイスから始まる高次マイクロホンアレイ信号を提供する。
その結果,本手法は応用分野において,球面マイクロホンアレイのアップサンプリングのための信号処理に基づく最先端手法よりも優れていることがわかった。
Spherical microphone arrays are convenient tools for capturing the spatial characteristics of a sound field. However, achieving superior spatial resolution requires arrays with numerous capsules, consequently leading to expensive devices. To address this issue, we present a method for spatially upsampling spherical microphone arrays with a limited number of capsules. Our approach exploits a physics-informed neural network with Rowdy activation functions, leveraging physical constraints to provide high-order microphone array signals, starting from low-order devices. Results show that, within its domain of application, our approach outperforms a state of the art method based on signal processing for spherical microphone arrays upsampling. | 翻訳日:2024-07-29 13:21:06 公開日:2024-07-26 |
# AutoRDF2GML:グラフ機械学習におけるRDF統合の実現
AutoRDF2GML: Facilitating RDF Integration in Graph Machine Learning ( http://arxiv.org/abs/2407.18735v1 ) ライセンス: Link先を確認 | Michael Färber, David Lamprecht, Yuni Susanti, | (参考訳) 本稿では,RDFデータをグラフ機械学習タスクに適したデータ表現に変換するためのフレームワークであるAutoRDF2GMLを紹介する。
AutoRDF2GMLは、初めて、RDFデータ型プロパティに基づく機能(RDFデータ型プロパティに基づく機能)と、RDFオブジェクトプロパティに基づく機能(RDFオブジェクトプロパティに基づく機能)の両方を作成することができる。
自動機能抽出によって特徴付けられるAutoRDF2GMLは、RDFやSPARQLに慣れていないユーザでさえ、リンク予測、ノード分類、グラフ分類などのグラフ機械学習タスクに適したデータ表現を生成することができる。
さらに,我々のフレームワークを用いた大規模RDF知識グラフから作成したグラフ機械学習のための4つの新しいベンチマークデータセットを提案する。
これらのデータセットは、グラフニューラルネットワークのようなグラフ機械学習アプローチを評価するための貴重なリソースとなる。
全体として、我々のフレームワークは、グラフ機械学習とセマンティックWebコミュニティのギャップを効果的に埋め、RDFベースの機械学習アプリケーションへの道を開いた。
In this paper, we introduce AutoRDF2GML, a framework designed to convert RDF data into data representations tailored for graph machine learning tasks. AutoRDF2GML enables, for the first time, the creation of both content-based features -- i.e., features based on RDF datatype properties -- and topology-based features -- i.e., features based on RDF object properties. Characterized by automated feature extraction, AutoRDF2GML makes it possible even for users less familiar with RDF and SPARQL to generate data representations ready for graph machine learning tasks, such as link prediction, node classification, and graph classification. Furthermore, we present four new benchmark datasets for graph machine learning, created from large RDF knowledge graphs using our framework. These datasets serve as valuable resources for evaluating graph machine learning approaches, such as graph neural networks. Overall, our framework effectively bridges the gap between the Graph Machine Learning and Semantic Web communities, paving the way for RDF-based machine learning applications. | 翻訳日:2024-07-29 13:21:06 公開日:2024-07-26 |
# 一般化された攻撃的言語識別に向けて
Towards Generalized Offensive Language Identification ( http://arxiv.org/abs/2407.18738v1 ) ライセンス: Link先を確認 | Alphaeus Dmonte, Tejas Arya, Tharindu Ranasinghe, Marcos Zampieri, | (参考訳) ヘイトスピーチやサイバーいじめを含むインターネット上の攻撃的コンテンツの普及は、世界中で広まっている問題である。
その結果、機械学習(ML)と自然言語処理(NLP)コミュニティから大きな注目を集めている。
その結果、潜在的に有害なコンテンツを自動的に識別し、その影響を軽減するために、多くのシステムが開発されている。
1) 公開可能なモデルとアプリケーションエンドポイントを使用し、大きな言語モデル(LLM)をプロンプトする(2) データセットにアノテーションを付け、MLモデルをトレーニングする。
しかし、どちらのアプローチも、それらがいかに一般化可能であるかを理解していない。
さらに、これらのシステムの適用性は、ドメイン外および実践的な環境でしばしば疑問視される。
本稿では,新たな一般化ベンチマークを用いて,攻撃的言語検出モデルとデータセットの一般化可能性を実証的に評価する。
一般化可能性に関する3つの研究課題に答える。
我々の発見は、堅牢な実世界の攻撃的言語検出システムの構築に有用である。
The prevalence of offensive content on the internet, encompassing hate speech and cyberbullying, is a pervasive issue worldwide. Consequently, it has garnered significant attention from the machine learning (ML) and natural language processing (NLP) communities. As a result, numerous systems have been developed to automatically identify potentially harmful content and mitigate its impact. These systems can follow two approaches; (1) Use publicly available models and application endpoints, including prompting large language models (LLMs) (2) Annotate datasets and train ML models on them. However, both approaches lack an understanding of how generalizable they are. Furthermore, the applicability of these systems is often questioned in off-domain and practical environments. This paper empirically evaluates the generalizability of offensive language detection models and datasets across a novel generalized benchmark. We answer three research questions on generalizability. Our findings will be useful in creating robust real-world offensive language detection systems. | 翻訳日:2024-07-29 13:21:06 公開日:2024-07-26 |
# 大規模言語モデルの効率的かつ効率的な継続事前学習に向けて
Towards Effective and Efficient Continual Pre-training of Large Language Models ( http://arxiv.org/abs/2407.18743v1 ) ライセンス: Link先を確認 | Jie Chen, Zhipeng Chen, Jiapeng Wang, Kun Zhou, Yutao Zhu, Jinhao Jiang, Yingqian Min, Wayne Xin Zhao, Zhicheng Dou, Jiaxin Mao, Yankai Lin, Ruihua Song, Jun Xu, Xu Chen, Rui Yan, Zhewei Wei, Di Hu, Wenbing Huang, Ji-Rong Wen, | (参考訳) CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,CPTアプローチをよりトレースしやすくするために,中国語能力とバックボーンモデルの科学的推論能力を大幅に向上させるLlama-3 (8B) の継続的事前学習に関する技術的報告を示す。
元の能力を維持しながら新たな能力を高めるために,既存のデータセットを活用し,高品質なデータセットを合成することにより,特定のデータ混合とカリキュラム戦略を設計する。
具体的には、関連するWebページに基づいて、多分野の科学的質問と回答(QA)ペアを合成し、その後、これらの合成データを組み込んで、Llama-3の科学的推論能力を向上させる。
我々はCPT後のモデルをLlama-3-SynE(synthetic data Enhanced Llama-3)と呼ぶ。
また、比較的小さなモデルであるTinyLlamaを用いてチューニング実験を行い、得られた結果を用いてバックボーンモデルのトレーニングを行う。
多くの評価ベンチマークにおいて、我々のアプローチは、一般的な能力(C-Evalでは+8.81、CMMLUでは+6.31、MATHでは+12.00、SciEvalでは+4.13)と科学的な推論能力(SciEvalでは+12.00、SciEvalでは+4.13)を含む、バックボーンモデルの性能を大幅に改善できることを示す。
我々のモデル、データ、コードはhttps://github.com/RUC-GSAI/Llama-3-SynEで利用可能です。
Continual pre-training (CPT) has been an important approach for adapting language models to specific domains or tasks. To make the CPT approach more traceable, this paper presents a technical report for continually pre-training Llama-3 (8B), which significantly enhances the Chinese language ability and scientific reasoning ability of the backbone model. To enhance the new abilities while retaining the original abilities, we design specific data mixture and curriculum strategies by utilizing existing datasets and synthesizing high-quality datasets. Specifically, we synthesize multidisciplinary scientific question and answer (QA) pairs based on related web pages, and subsequently incorporate these synthetic data to improve the scientific reasoning ability of Llama-3. We refer to the model after CPT as Llama-3-SynE (Synthetic data Enhanced Llama-3). We also present the tuning experiments with a relatively small model -- TinyLlama, and employ the derived findings to train the backbone model. Extensive experiments on a number of evaluation benchmarks show that our approach can largely improve the performance of the backbone models, including both the general abilities (+8.81 on C-Eval and +6.31 on CMMLU) and the scientific reasoning abilities (+12.00 on MATH and +4.13 on SciEval), without hurting the original capacities. Our model, data, and codes are available at https://github.com/RUC-GSAI/Llama-3-SynE. | 翻訳日:2024-07-29 13:21:05 公開日:2024-07-26 |
# FairAIED: 教育AI応用における公正性、バイアス、倫理の探索
FairAIED: Navigating Fairness, Bias, and Ethics in Educational AI Applications ( http://arxiv.org/abs/2407.18745v1 ) ライセンス: Link先を確認 | Sribala Vidyadhari Chinta, Zichong Wang, Zhipeng Yin, Nhat Hoang, Matthew Gonzalez, Tai Le Quy, Wenbin Zhang, | (参考訳) 人工知能(AI)の教育への統合は、学習体験をカスタマイズし、創造的な教育的アプローチを提供する、変革的な可能性を持っている。
しかし、AIアルゴリズムの固有のバイアスは、特に教育のような人間中心のアプリケーションにおいて、特定の人口層に対する偏見を意図せず永続させることによって、この改善を妨げている。
この調査は、AI駆動型教育アプリケーションにおける公正性、偏見、倫理に関する多種多様な文献を包括的に評価する、教育文脈におけるアルゴリズムフェアネスの発達トピックを深く掘り下げている。
データ関連、アルゴリズム、ユーザーインタラクションなど、AI教育における公正性の達成を根本的に損なう共通のバイアスの形式を特定します。
この調査は、様々なデータ収集からアルゴリズム的公正な介入まで、これらのバイアスを緩和する既存の手法を概説することによって、倫理的考察と、より公平な教育環境を形成する上での法的枠組みの重要な役割を強調している。
さらに、公正度測定、方法、データセットの複雑さを読者に案内し、バイアス低減への道に光を放つ。
これらの増加にもかかわらず、この調査は、公正性と正確性の間のバランスを達成することや、多様なデータセットの必要性など、長年の課題を浮き彫りにしている。
これらの課題を克服し、教育におけるAIの約束の倫理的かつ公正な利用を保証するためには、協調的で学際的なアプローチが必要である。
The integration of Artificial Intelligence (AI) into education has transformative potential, providing tailored learning experiences and creative instructional approaches. However, the inherent biases in AI algorithms hinder this improvement by unintentionally perpetuating prejudice against specific demographics, especially in human-centered applications like education. This survey delves deeply into the developing topic of algorithmic fairness in educational contexts, providing a comprehensive evaluation of the diverse literature on fairness, bias, and ethics in AI-driven educational applications. It identifies the common forms of biases, such as data-related, algorithmic, and user-interaction, that fundamentally undermine the accomplishment of fairness in AI teaching aids. By outlining existing techniques for mitigating these biases, ranging from varied data gathering to algorithmic fairness interventions, the survey emphasizes the critical role of ethical considerations and legal frameworks in shaping a more equitable educational environment. Furthermore, it guides readers through the complexities of fairness measurements, methods, and datasets, shedding light on the way to bias reduction. Despite these gains, this survey highlights long-standing issues, such as achieving a balance between fairness and accuracy, as well as the need for diverse datasets. Overcoming these challenges and ensuring the ethical and fair use of AI's promise in education call for a collaborative, interdisciplinary approach. | 翻訳日:2024-07-29 13:21:05 公開日:2024-07-26 |
# 欠陥モードに強く結合した超電導量子ビットの損失の軽減
Mitigating Losses of Superconducting Qubits Strongly Coupled to Defect Modes ( http://arxiv.org/abs/2407.18746v1 ) ライセンス: Link先を確認 | Dante Colao Zanuz, Quentin Ficheux, Laurent Michaud, Alexei Orekhov, Kilian Hanke, Alexander Flasby, Mohsen Bahrami Panah, Graham J. Norris, Michael Kerschbaum, Ants Remm, François Swiadek, Christoph Hellings, Stefania Lazăr, Colin Scarato, Nathan Lacroix, Sebastian Krinner, Christopher Eichler, Andreas Wallraff, Jean-Claude Besse, | (参考訳) 最先端超伝導量子ビットのエネルギー緩和への主要な貢献は、しばしば2レベル系として振る舞う材料欠陥の集合体との結合に起因する。
これらの欠陥は、共鳴周波数、コヒーレンス時間、および量子ビットへのカップリング速度など、様々な観察可能な欠陥特性を持つ。
ここでは、量子ビットに強く結合する欠陥群(g/2\pi\ge$ 0.5 MHz)の損失を軽減するための戦略を検討する。
このような強く結合した欠陥は、特に量子ビットのコヒーレンスや、フラックス活性化二量子ゲートのような周波数外周に依存する操作の忠実さに寄与する。
これらの影響を評価するため、92個の周波数可変量子ビット上でスワップ分光を行い、これらの強い結合モードのスペクトル密度を定量化する。
一方, プロセッサ上の欠陥の総数は一定である傾向にあるが, サンプルを室温に加熱することで, 欠陥の周波数構成が再構成されることが示されている。
次に、ジョセフソン接合次元の減少と様々な表面クリーニング法のために、スペクトル密度を体系的に測定することにより、強く結合した欠陥モードの少ない量子ビットを作製する方法を検討する。
この結果は、強い結合欠陥モードの性質に関する洞察を与え、クビット特性を改善するためにジョセフソン接合次元を最小化する利点を示す。
The dominant contribution to the energy relaxation of state-of-the-art superconducting qubits is often attributed to their coupling to an ensemble of material defects which behave as two-level systems. These defects have varying microscopic characteristics which result in a large range of observable defect properties such as resonant frequencies, coherence times and coupling rates to qubits $g$. Here, we investigate strategies to mitigate losses to the family of defects that strongly couple to qubits ($g/2\pi\ge$ 0.5 MHz). Such strongly coupled defects are particularly detrimental to the coherence of qubits and to the fidelities of operations relying on frequency excursions, such as flux-activated two-qubit gates. To assess their impact, we perform swap spectroscopy on 92 frequency-tunable qubits and quantify the spectral density of these strongly coupled modes. We show that the frequency configuration of the defects is rearranged by warming up the sample to room temperature, whereas the total number of defects on a processor tends to remain constant. We then explore methods for fabricating qubits with a reduced number of strongly coupled defect modes by systematically measuring their spectral density for decreasing Josephson junction dimensions and for various surface cleaning methods. Our results provide insights into the properties of strongly coupled defect modes and show the benefits of minimizing Josephson junction dimensions to improve qubit properties. | 翻訳日:2024-07-29 13:21:05 公開日:2024-07-26 |
# SysMLとBPMNのマルチロボットシステムアーキテクチャ設計
Multi-Robot System Architecture design in SysML and BPMN ( http://arxiv.org/abs/2407.18749v1 ) ライセンス: Link先を確認 | Ahmed R. Sadik, Christian Goerick, | (参考訳) マルチロボットシステム(MRS)は多くの異なるソフトウェアとハードウェアコンポーネントを含む複雑なシステムである。
この記事では、MSS設計の複雑さについて論じる。
提案手法は, システム工学の形式的手法に基づくモジュラーモデリングとシミュレーション技術を提供するので, MRS設計の複雑さは分解され, 低減される。
MRSのモデリングは、システムモデリング言語(SysML)とビジネスプロセスモデルと表記言語(BPMN)の2つの形式的アーキテクチャ記述言語(ADL)を通じて達成され、システム青写真の設計が進められています。
これらの抽象設計ADLを使用することで、プロジェクトの実装は技術に依存しないものになる。
これにより、設計概念をプログラミング言語から別の言語に転送することができる。
シミュレーションフェーズでは、マルチエージェント環境を使用してMSSブループリントをシミュレートする。
このシミュレーションはJava Agent Development (JADE) ミドルウェアで実装されている。
この結果から,提案したMSSモデルの解析と検証を,性能評価行列の形で行うことができる。
Multi-Robot System (MRS) is a complex system that contains many different software and hardware components. This main problem addressed in this article is the MRS design complexity. The proposed solution provides a modular modeling and simulation technique that is based on formal system engineering method, therefore the MRS design complexity is decomposed and reduced. Modeling the MRS has been achieved via two formal Architecture Description Languages (ADLs), which are Systems Modeling Language (SysML) and Business Process Model and Notation (BPMN), to design the system blueprints. By using those abstract design ADLs, the implementation of the project becomes technology agnostic. This allows to transfer the design concept from on programming language to another. During the simulation phase, a multi-agent environment is used to simulate the MRS blueprints. The simulation has been implemented in Java Agent Development (JADE) middleware. Therefore, its results can be used to analysis and verify the proposed MRS model in form of performance evaluation matrix. | 翻訳日:2024-07-29 13:21:05 公開日:2024-07-26 |
# プロンプトとしての知識グラフ構造:知識に基づく因果発見のための小言語モデルの改善
Knowledge Graph Structure as Prompt: Improving Small Language Models Capabilities for Knowledge-based Causal Discovery ( http://arxiv.org/abs/2407.18752v1 ) ライセンス: Link先を確認 | Yuni Susanti, Michael Färber, | (参考訳) 因果発見は、観測データに基づいて変数間の因果構造を推定することを目的としている。
大規模言語モデル(LLM)は、実際のデータ値ではなく変数に関連するメタデータを推論することで、因果発見問題に取り組むための新たな視点を提供する。
本稿では,10億以上のパラメータを持つLLMとして定義されているSmall Language Models(SLM)の機能と,知識に基づく因果探索のための素早い学習について検討する。
具体的には,共通ノードやメタパスなどの知識グラフから構造情報を統合する新しい手法であるKG Structure as Promptを,SLMの能力を高めるための即時学習に導入する。
バイオメディカルおよびオープンドメインの3種類のデータセットを数ショット設定で実験した結果、我々のアプローチの有効性が示され、ほとんどのベースラインを超え、さらにはフルデータセットで訓練された従来の微調整アプローチさえも上回っている。
SLMは知識グラフとプロンプトベースの学習と組み合わせて、より多くのパラメータを持つLSMを超える可能性を示す。
コードとデータセットはGitHubで入手可能です。
Causal discovery aims to estimate causal structures among variables based on observational data. Large Language Models (LLMs) offer a fresh perspective to tackle the causal discovery problem by reasoning on the metadata associated with variables rather than their actual data values, an approach referred to as knowledge-based causal discovery. In this paper, we investigate the capabilities of Small Language Models (SLMs, defined as LLMs with fewer than 1 billion parameters) with prompt-based learning for knowledge-based causal discovery. Specifically, we present KG Structure as Prompt, a novel approach for integrating structural information from a knowledge graph, such as common neighbor nodes and metapaths, into prompt-based learning to enhance the capabilities of SLMs. Experimental results on three types of biomedical and open-domain datasets under few-shot settings demonstrate the effectiveness of our approach, surpassing most baselines and even conventional fine-tuning approaches trained on full datasets. Our findings further highlight the strong capabilities of SLMs: in combination with knowledge graphs and prompt-based learning, SLMs demonstrate the potential to surpass LLMs with larger number of parameters. Our code and datasets are available on GitHub. | 翻訳日:2024-07-29 13:21:05 公開日:2024-07-26 |
# 屋根からのスコアマッチング--線形・非線形・潜在変数の因果発見
Score matching through the roof: linear, nonlinear, and latent variables causal discovery ( http://arxiv.org/abs/2407.18755v1 ) ライセンス: Link先を確認 | Francesco Montagna, Philipp M. Faller, Patrick Bloebaum, Elke Kirschbaum, Francesco Locatello, | (参考訳) 観測データからの因果発見は大きな可能性を秘めているが、既存の手法は根底にある因果構造に関する強い仮定に依存しており、しばしばすべての関連する変数の完全な可観測性を必要とする。
スコア関数 $\nabla \log p(X)$ の観測変数を因果発見に利用することでこれらの課題に取り組み、以下の貢献を提案する。
まず,因果メカニズムの必要最小限の付加雑音モデルに対して,スコアによる既存の識別可能性の結果を一般化する。
第2に,隠れ変数の存在下においても,スコアから因果関係を推定する条件を確立する。この結果は,隠れ変数による因果グラフの同値クラスを推定するための条件独立試験の代替として,スコアの可能性を示すものであり,潜伏変数モデルにおける直接的な原因を特定するために必要な条件を提供する。
これらの知見に基づき,線形・非線形・潜在変数モデルにまたがる因果発見のためのフレキシブルなアルゴリズムを提案する。
Causal discovery from observational data holds great promise, but existing methods rely on strong assumptions about the underlying causal structure, often requiring full observability of all relevant variables. We tackle these challenges by leveraging the score function $\nabla \log p(X)$ of observed variables for causal discovery and propose the following contributions. First, we generalize the existing results of identifiability with the score to additive noise models with minimal requirements on the causal mechanisms. Second, we establish conditions for inferring causal relations from the score even in the presence of hidden variables; this result is two-faced: we demonstrate the score's potential as an alternative to conditional independence tests to infer the equivalence class of causal graphs with hidden variables, and we provide the necessary conditions for identifying direct causes in latent variable models. Building on these insights, we propose a flexible algorithm for causal discovery across linear, nonlinear, and latent variable models, which we empirically validate. | 翻訳日:2024-07-29 13:21:05 公開日:2024-07-26 |
# メタモルフィックテストによる人体軌道予測の評価
Evaluating Human Trajectory Prediction with Metamorphic Testing ( http://arxiv.org/abs/2407.18756v1 ) ライセンス: Link先を確認 | Helge Spieker, Nassim Belmecheri, Arnaud Gotlieb, Nadjib Lazaar, | (参考訳) 人間の軌道の予測は、例えば自動運転や移動ロボットなど、現実世界で機能する自律システムの計画において重要である。
人間の軌道予測はノイズの多いプロセスであり、将来の軌道と正確に一致しない。
したがって、これは確率的問題としてアプローチされ、真と予測された軌道の誤差を最小限に抑えることが目的である。
本研究では,ヒトの軌道予測におけるメタモルフィックテストの適用について検討する。
メタモルフィックテストは、不明または欠落したテストオラクルを扱うように設計されている。
人間の軌道予測にはよく設計されており、正しい行動や誤った行動の明確な基準は存在しない。
メタモルフィック関係は、ソーステストケースよりも変換に依存し、不変性を悪用する。
入力データのミラーリングや再スケーリングなど、入力のバリエーションの下で、期待される人間の振る舞いの対称性が多数存在するような、人間の軌道予測のための設定を適切に設計する。
本稿では, 確率的人間の軌跡予測にメタモルフィックテストをどのように適用できるかを議論し, フォローアップテストケースがラベル保存メタモルフィック関係に反するかどうかを統計的に評価するために, ワッサーシュタイン振動基準を導入する。
The prediction of human trajectories is important for planning in autonomous systems that act in the real world, e.g. automated driving or mobile robots. Human trajectory prediction is a noisy process, and no prediction does precisely match any future trajectory. It is therefore approached as a stochastic problem, where the goal is to minimise the error between the true and the predicted trajectory. In this work, we explore the application of metamorphic testing for human trajectory prediction. Metamorphic testing is designed to handle unclear or missing test oracles. It is well-designed for human trajectory prediction, where there is no clear criterion of correct or incorrect human behaviour. Metamorphic relations rely on transformations over source test cases and exploit invariants. A setting well-designed for human trajectory prediction where there are many symmetries of expected human behaviour under variations of the input, e.g. mirroring and rescaling of the input data. We discuss how metamorphic testing can be applied to stochastic human trajectory prediction and introduce the Wasserstein Violation Criterion to statistically assess whether a follow-up test case violates a label-preserving metamorphic relation. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 重汚染信号の多変量分解のための教師なし貯留層計算
Unsupervised Reservoir Computing for Multivariate Denoising of Severely Contaminated Signals ( http://arxiv.org/abs/2407.18759v1 ) ライセンス: Link先を確認 | Jaesung Choi, Pilwon Kim, | (参考訳) 多変量信号の相互依存性と高次元性は、従来の単変量法が変数間の複雑な相互作用を捉えるのにしばしば苦労するため、デノナイズのための重要な課題を示す。
成功したアプローチは、所望の信号の多変量依存性だけでなく、干渉ノイズの多変量依存性も考慮しなければならない。
従来の研究では、単変量信号から「予測可能な情報」の最大部分の抽出に機械学習を用いた手法を導入している。
我々は、この手法を多変量信号に拡張し、ノイズの相互依存性を信号の相互依存的再構成に適切に組み込む。
この方法は、カオス信号や、空間的に相関した集中雑音によって劣化する高振動正弦波信号を含む様々な多変量信号に対してうまく機能する。
様々なシナリオにおいて、既存の多変量デノゲーションメソッドよりも一貫して優れています。
The interdependence and high dimensionality of multivariate signals present significant challenges for denoising, as conventional univariate methods often struggle to capture the complex interactions between variables. A successful approach must consider not only the multivariate dependencies of the desired signal but also the multivariate dependencies of the interfering noise. In our previous research, we introduced a method using machine learning to extract the maximum portion of ``predictable information" from univariate signal. We extend this approach to multivariate signals, with the key idea being to properly incorporate the interdependencies of the noise back into the interdependent reconstruction of the signal. The method works successfully for various multivariate signals, including chaotic signals and highly oscillating sinusoidal signals which are corrupted by spatially correlated intensive noise. It consistently outperforms other existing multivariate denoising methods across a wide range of scenarios. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# Java-Class-Hijack: Maven依存性の解決とJavaクラスローディングに基づくJavaのソフトウェアサプライチェーンアタック
Java-Class-Hijack: Software Supply Chain Attack for Java based on Maven Dependency Resolution and Java Classloading ( http://arxiv.org/abs/2407.18760v1 ) ライセンス: Link先を確認 | Federico Bono, Frank Reyes, Aman Sharma, Benoit Baudry, Martin Monperrus, | (参考訳) 私たちはJava-Class-Hijackを紹介します。Java-Class-Hijackは、アタッカーが依存性ツリーにある正当なクラスをシャドウするクラスを作れば悪意のあるコードを注入できる新しいソフトウェアサプライチェーンアタックです。
この攻撃について説明するとともに、その実現可能性を示す概念実証を提供し、ドイツのCorona-Warn-Appサーバアプリケーションでそれを再現する。
概念実証は、依存関係ツリーの奥深くにある推移的な依存関係が、直接的な依存関係からクラスをハイジャックし、その振る舞いを完全に変更し、Javaアプリケーションに重大なセキュリティリスクを生じさせる方法を示している。
Corona-Warn-Appのレプリケーションは、小さなJSONバリデーションライブラリが完全にデータベースを乗っ取る結果になることを示す。
We introduce Java-Class-Hijack, a novel software supply chain attack that enables an attacker to inject malicious code by crafting a class that shadows a legitimate class that is in the dependency tree. We describe the attack, provide a proof-of-concept demonstrating its feasibility, and replicate it in the German Corona-Warn-App server application. The proof-of-concept illustrates how a transitive dependency deep within the dependency tree can hijack a class from a direct dependency and entirely alter its behavior, posing a significant security risk to Java applications. The replication on the Corona-Warn-App demonstrates how compromising a small JSON validation library could result in a complete database takeover. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# TAGIFY:OGDポータルにおけるデータ検索性向上のためのLCMを利用したタグインタフェース
TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals ( http://arxiv.org/abs/2407.18764v1 ) ライセンス: Link先を確認 | Kevin Kliimask, Anastasija Nikiforova, | (参考訳) オープン・ガバメント・データ(OGD)の推進に向けた取り組みは、2000年代半ば以降、様々な政府層で大きな注目を集めている。
より多くのデータセットがOGDポータルに公開されるにつれて、特定のデータを見つけることが難しくなり、情報の過負荷につながる。
データセットと適切なタグを関連付けることを含む、データセットの完全かつ正確なドキュメントは、データセットの検索性とアクセシビリティを改善するための鍵である。
エストニアのOpen Data Portalで実施された分析によると、11%のデータセットに関連タグがないのに対して、26%のデータセットには1つのタグだけが割り当てられており、ポータル内のデータ検索可能性とアクセシビリティの課題を浮き彫りにしている。
本研究の目的は、OGDポータルにおけるデータ検索性を改善するために、データセットをタグ付けする自動化ソリューションを提案することである。
本稿では,GPT-3.5-turbo や GPT-4 などの大規模言語モデル (LLM) を利用したタグ付けインタフェースのプロトタイプとして,英語とエストニア語におけるデータセットのタグ生成,データパブリッシャによるメタデータ作成の強化,データユーザによる OGD ポータルにおけるデータ検索性の向上などを提案する。
開発したソリューションはユーザによって評価され,今後のプロトタイプ改善のアジェンダを定義するためにフィードバックが収集された。
Efforts directed towards promoting Open Government Data (OGD) have gained significant traction across various governmental tiers since the mid-2000s. As more datasets are published on OGD portals, finding specific data becomes harder, leading to information overload. Complete and accurate documentation of datasets, including association of proper tags with datasets is key to improving dataset findability and accessibility. Analysis conducted on the Estonian Open Data Portal, revealed that 11% datasets have no associated tags, while 26% had only one tag assigned to them, which underscores challenges in data findability and accessibility within the portal, which, according to the recent Open Data Maturity Report, is considered trend-setter. The aim of this study is to propose an automated solution to tagging datasets to improve data findability on OGD portals. This paper presents Tagify - a prototype of tagging interface that employs large language models (LLM) such as GPT-3.5-turbo and GPT-4 to automate dataset tagging, generating tags for datasets in English and Estonian, thereby augmenting metadata preparation by data publishers and improving data findability on OGD portals by data users. The developed solution was evaluated by users and their feedback was collected to define an agenda for future prototype improvements. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 任意の4つの実数は、類推を持つ4つの実数である
Any four real numbers are on all fours with analogy ( http://arxiv.org/abs/2407.18770v1 ) ライセンス: Link先を確認 | Yves Lepage, Miguel Couceiro, | (参考訳) この研究は、一般化された手段に依存する数に対するアナロジーの形式化を示す。
人工知能の最近の進歩と機械学習の応用によって動機付けられており、アナロジーの概念は結果の推測、データの作成、あるいは基本的に数(ベクトル、行列、テンソル)の集合であるオブジェクト表現や埋め込みの評価ツールとしても用いられる。
この拡張された類推用法は、数学的基礎と数間の類推の概念を明確に理解することを要求する。
本稿では、パワーパラメータで定義された一般化された手段に依存するアナロジーの統一的なビューを提案する。
特に、4つの正の実数の増加は、一意に適切なパワーの類似であることを示す。
さらに、そのような類推を等価な算術的類推に還元することができ、また任意の類推方程式が複素数に制限されることなく一般化する増数解を持つことを示す。
これらの基礎的な結果は、表現が数値的な領域における類似性をよりよく理解する。
This work presents a formalization of analogy on numbers that relies on generalized means. It is motivated by recent advances in artificial intelligence and applications of machine learning, where the notion of analogy is used to infer results, create data and even as an assessment tool of object representations, or embeddings, that are basically collections of numbers (vectors, matrices, tensors). This extended analogy use asks for mathematical foundations and clear understanding of the notion of analogy between numbers. We propose a unifying view of analogies that relies on generalized means defined in terms of a power parameter. In particular, we show that any four increasing positive real numbers is an analogy in a unique suitable power. In addition, we show that any such analogy can be reduced to an equivalent arithmetic analogy and that any analogical equation has a solution for increasing numbers, which generalizes without restriction to complex numbers. These foundational results provide a better understanding of analogies in areas where representations are numerical. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# グラフニューラルネットワークを用いたサプライチェーンの学習機能
Learning production functions for supply chains with graph neural networks ( http://arxiv.org/abs/2407.18772v1 ) ライセンス: Link先を確認 | Serina Chang, Zhiyin Lin, Benjamin Yan, Swapnil Bembde, Qi Xiu, Chi Heem Wong, Yu Qin, Frank Kloster, Alex Luo, Raj Palleti, Jure Leskovec, | (参考訳) 世界経済はサプライチェーンネットワーク上の商品の流れに依存しており、ノードは企業、エッジは企業間の取引となっている。
外部の取引を観察することはできるが、それらは目に見えない生産機能によって管理され、企業がどのように内部的に受信した入力製品を、彼らが販売するアウトプット製品に変換するかを決定する。
この環境では、これらの生産機能を推測し、サプライチェーンをよりよく理解し、改善し、将来の取引をより正確に予測することは極めて貴重である。
しかし、既存のグラフニューラルネットワーク(GNN)は、これらのノードの入力と出力の間の隠れた関係をキャプチャできない。
本稿では、時間的GNNと、注意重みと特別な損失関数を用いて生産関数を学習する新しい在庫モジュールを組み合わせることで、この設定のための新しいモデルのクラスを導入する。
我々は,実サプライチェーンデータと,新たなオープンソースシミュレータであるサプライシムから生成されたデータに基づいて,我々のモデルを広範囲に評価する。
我々のモデルは、ベースラインよりも6~50%改善し、実データおよび合成データに対する将来のトランザクションを予測し、ベースラインよりも11~62%向上した。
The global economy relies on the flow of goods over supply chain networks, with nodes as firms and edges as transactions between firms. While we may observe these external transactions, they are governed by unseen production functions, which determine how firms internally transform the input products they receive into output products that they sell. In this setting, it can be extremely valuable to infer these production functions, to better understand and improve supply chains, and to forecast future transactions more accurately. However, existing graph neural networks (GNNs) cannot capture these hidden relationships between nodes' inputs and outputs. Here, we introduce a new class of models for this setting, by combining temporal GNNs with a novel inventory module, which learns production functions via attention weights and a special loss function. We evaluate our models extensively on real supply chains data, along with data generated from our new open-source simulator, SupplySim. Our models successfully infer production functions, with a 6-50% improvement over baselines, and forecast future transactions on real and synthetic data, outperforming baselines by 11-62%. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 物質波干渉計における分子光物理の探索
Probing molecular photophysics in a matter-wave interferometer ( http://arxiv.org/abs/2407.18775v1 ) ライセンス: Link先を確認 | Lukas Martinetz, Benjamin A. Stickler, Ksenija Simonović, Richard Ferstl, Christian Brand, Markus Arndt, Klaus Hornberger, | (参考訳) 本研究では,光物理分子パラメータの正確な測定手法として,単一立位レーザー波からの物質波回折が有効であることを示す。
これには、状態依存光偏光性や光子吸収断面積、蛍光緩和率、内部変換、系間交差、イオン化や切断確率が含まれる。
干渉パターンの特徴として異なる光物理過程がどのように現れるのかを考察し,有限粒子数を用いた実測値から推定した分子パラメータの精度を決定する。
この解析は、Wigner表現における解析的計算に基づいており、これはレーザー誘起コヒーレントおよび非コヒーレントダイナミクス、物質波ビームにおける有限長手および横コヒーレンス、重力とコリオリの加速度、および不完全な立位レーザー波である。
We show that matter-wave diffraction off a single standing laser wave can be used as an accurate measurement scheme for photophysical molecular parameters. These include state-dependent optical polarizabilities and photon-absorption cross sections, the relaxation rates for fluorescence, internal conversion, and intersystem crossing, as well as ionization or cleavage probabilities. We discuss how the different photophysical processes manifest as features of the interference pattern, and determine the accuracy of molecular parameters estimated from a realistic measurement with finite particle numbers. The analysis is based on an analytic calculation in Wigner representation, which accounts for the laser-induced coherent and incoherent dynamics, for the finite longitudinal and transverse coherence in the matter-wave beam, the gravitational and Coriolis acceleration, and an imperfect standing laser wave. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 超伝導トランスモン量子ビットのほぼミリ秒間エネルギー緩和と劣化時間を実現する方法
Methods to achieve near-millisecond energy relaxation and dephasing times for a superconducting transmon qubit ( http://arxiv.org/abs/2407.18778v1 ) ライセンス: Link先を確認 | Mikko Tuokkola, Yoshiki Sunada, Heidi Kivijärvi, Leif Grönberg, Jukka-Pekka Kaikkonen, Visa Vesterinen, Joonas Govenius, Mikko Möttönen, | (参考訳) 超伝導量子ビットは、量子コンピュータを実装する上で最も有望な物理システムの一つである。
しかし、実用的な計算上の優位性を持つ量子アルゴリズムの実行には、現在、量子ビットのエネルギー緩和と劣化時間によって制限されている量子ビット演算の忠実性をさらに改善する必要がある。
本稿では,既存の文献に比較して,エネルギー緩和とエコー強調時間による高コヒーレンストランスモン量子ビットの測定結果について報告する。
我々は、周波数周波数2.890 GHz、エネルギー緩和時間502 us、最大速度765 +/-82.6 us、エコー劣化時間541 us、最大速度1057 +/-138 usを測定する。
学術・産業における高コヒーレンストランスモンキュービットの再生と普及を促進するため, 設計, 製造プロセス, 測定装置の詳細を報告する。
Superconducting qubits are one of the most promising physical systems for implementing a quantum computer. However, executing quantum algorithms of practical computational advantage requires further improvements in the fidelities of qubit operations, which are currently limited by the energy relaxation and dephasing times of the qubits. Here, we report our measurement results of a high-coherence transmon qubit with energy relaxation and echo dephasing times surpassing those in the existing literature. We measure a qubit frequency of 2.890 GHz, an energy relaxation time with a median of 502 us and a maximum of (765 +/- 82.6) us, and an echo dephasing time with a median of 541 us and a maximum of (1057 +/- 138) us. We report details of our design, fabrication process, and measurement setup to facilitate the reproduction and wide adoption of high-coherence transmon qubits in the academia and industry. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# サイバー物理システムのデジタル双対創造のための基礎モデル
Foundation Models for the Digital Twin Creation of Cyber-Physical Systems ( http://arxiv.org/abs/2407.18779v1 ) ライセンス: Link先を確認 | Shaukat Ali, Paolo Arcaini, Aitor Arrieta, | (参考訳) ファンデーションモデルは、汎用パターンを学ぶために、大量のデータに基づいて訓練されている。
したがって、これらのモデルは様々な目的で使用および微調整が可能である。
当然、サイバー物理システム(CPS)におけるデジタルツインの文脈におけるそのようなモデルの使用を研究することは、関連する調査分野である。
この目的のために、我々はデジタル双生児の開発における様々な側面の視点を提供し、そこでは、デジタル双生児作成の効率を高め、それらが提供する能力の有効性を改善し、デジタル双生児自身として機能する特殊な微調整基礎モデルとして利用することができる。
また、より一般的な文脈で基礎モデルを使用する際の課題についても論じる。
我々は、自律運転システムの事例を代表的CPSとして用いて例を挙げる。
最後に、デジタル双生児コミュニティにとって価値があると信じている議論と研究の方向性を提供する。
Foundation models are trained on a large amount of data to learn generic patterns. Consequently, these models can be used and fine-tuned for various purposes. Naturally, studying such models' use in the context of digital twins for cyber-physical systems (CPSs) is a relevant area of investigation. To this end, we provide perspectives on various aspects within the context of developing digital twins for CPSs, where foundation models can be used to increase the efficiency of creating digital twins, improve the effectiveness of the capabilities they provide, and used as specialized fine-tuned foundation models acting as digital twins themselves. We also discuss challenges in using foundation models in a more generic context. We use the case of an autonomous driving system as a representative CPS to give examples. Finally, we provide discussions and open research directions that we believe are valuable for the digital twin community. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 哲学者のレンズを通してXAIを理解する:歴史的展望
Understanding XAI Through the Philosopher's Lens: A Historical Perspective ( http://arxiv.org/abs/2407.18782v1 ) ライセンス: Link先を確認 | Martina Mattioli, Antonio Emanuele Cinà, Marcello Pelillo, | (参考訳) 説明可能なAI(XAI)は最近ホットな話題になり、いくつかの異なるアプローチが開発されているが、説得力のある統一基盤が欠如していると広く信じられている。
一方、過去何世紀にもわたって、科学法の文脈における「なぜ」という根本的な問題に対処するために、説明という概念は広範な哲学的分析の対象となった。
しかし、この議論がXAIと結びつくことは滅多にない。
本稿では、このギャップを埋めようと試み、認識レンズを通してAIにおける説明概念を探求することを目的とする。
科学とAIの哲学の歴史的発展を比較することで、興味深い絵が浮かび上がる。
具体的には、論理的推論モデルから統計的説明モデルまで、両方の領域で段階的な進行が独立に発生していることを示し、いずれの場合も、決定論的から非決定論的・確率論的因果性へのパラダイムシフトを経験する。
興味深いことに、同様の概念が、例えば、説明と理解の関係と実用的要因の重要性など、両方の領域に独立して現れていることにも気付きました。
我々の研究は、AIにおける説明概念の哲学的基盤を理解するための第一歩であり、私たちの発見がXAIの解明的な性質に新たな光を放つことを願っている。
Despite explainable AI (XAI) has recently become a hot topic and several different approaches have been developed, there is still a widespread belief that it lacks a convincing unifying foundation. On the other hand, over the past centuries, the very concept of explanation has been the subject of extensive philosophical analysis in an attempt to address the fundamental question of "why" in the context of scientific law. However, this discussion has rarely been connected with XAI. This paper tries to fill in this gap and aims to explore the concept of explanation in AI through an epistemological lens. By comparing the historical development of both the philosophy of science and AI, an intriguing picture emerges. Specifically, we show that a gradual progression has independently occurred in both domains from logical-deductive to statistical models of explanation, thereby experiencing in both cases a paradigm shift from deterministic to nondeterministic and probabilistic causality. Interestingly, we also notice that similar concepts have independently emerged in both realms such as, for example, the relation between explanation and understanding and the importance of pragmatic factors. Our study aims to be the first step towards understanding the philosophical underpinnings of the notion of explanation in AI, and we hope that our findings will shed some fresh light on the elusive nature of XAI. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# LLMを用いたMTにおけるジェンダーバイアスの評価と緩和
The power of Prompts: Evaluating and Mitigating Gender Bias in MT with LLMs ( http://arxiv.org/abs/2407.18786v1 ) ライセンス: Link先を確認 | Aleix Sant, Carlos Escolano, Audrey Mash, Francesca De Luca Fornaciari, Maite Melero, | (参考訳) 本稿では,Large Language Models (LLM) のレンズを用いた機械翻訳における性別バイアスについて検討する。
4つの広く使用されているテストセットを使用して、さまざまなベースLLMをベンチマークし、それらの翻訳品質と性別バイアスを、カタルーニャ語(En $\rightarrow$Ca)とスペイン語(En $\rightarrow$Es)の翻訳方向の最先端のニューラルネットワーク翻訳(NMT)モデルと比較する。
以上の結果から,NMTモデルと比較すると,LLMは高い偏差を示し,全モデルにまたがる性的偏差が認められた。
このバイアスに対処するため,命令調整型LLMに適用した工学的手法の推進について検討する。
我々は、WinoMT評価データセットにおいて、より直接的なプロンプトと比較して、性別バイアスを最大12%減少させるプロンプト構造を同定する。
これらの結果は,従来のNMTシステムとLDMの男女差の精度ギャップを著しく低減する。
This paper studies gender bias in machine translation through the lens of Large Language Models (LLMs). Four widely-used test sets are employed to benchmark various base LLMs, comparing their translation quality and gender bias against state-of-the-art Neural Machine Translation (NMT) models for English to Catalan (En $\rightarrow$ Ca) and English to Spanish (En $\rightarrow$ Es) translation directions. Our findings reveal pervasive gender bias across all models, with base LLMs exhibiting a higher degree of bias compared to NMT models. To combat this bias, we explore prompting engineering techniques applied to an instruction-tuned LLM. We identify a prompt structure that significantly reduces gender bias by up to 12% on the WinoMT evaluation dataset compared to more straightforward prompts. These results significantly reduce the gender bias accuracy gap between LLMs and traditional NMT systems. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 音楽歌詞におけるモラル値の自動検出
Automatic Detection of Moral Values in Music Lyrics ( http://arxiv.org/abs/2407.18787v1 ) ライセンス: Link先を確認 | Vjosa Preniqi, Iacopo Ghinassi, Julia Ive, Kyriaki Kalimeri, Charalampos Saitis, | (参考訳) 道徳的価値は、情報を評価し、意思決定し、重要な社会問題に関する判断を形成する上で、基本的な役割を担います。
歌詞から道徳性を迅速に抽出する可能性によって、音楽聴取行動のより深い理解がもたらされる。
MFT(Moral Foundations Theory)に基づいて,大言語モデル(GPT-4)が生成する2,721の合成歌詞に変換言語モデル(BERT)を微調整し,2人の専門家が注釈付けした200のリアル音楽歌詞の道徳的価値を検出する。
提案したモデルでは、平均F1重み付きスコアが0.8で、実験全体で最高の精度が得られた。
このパフォーマンスは平均して、ドメイン外およびゼロショットモデルよりも5%高い。
両分類の精度を検討する際には,提案したモデルは基準よりも平均12%高い精度で動作し,本手法は注釈のない効果的な歌詞モラル学習に寄与し,音楽のモラル表現に関するLLMの知識蒸留や,これらの技術が創造産業や音楽文化に与える影響について有用な知見を提供する。
Moral values play a fundamental role in how we evaluate information, make decisions, and form judgements around important social issues. The possibility to extract morality rapidly from lyrics enables a deeper understanding of our music-listening behaviours. Building on the Moral Foundations Theory (MFT), we tasked a set of transformer-based language models (BERT) fine-tuned on 2,721 synthetic lyrics generated by a large language model (GPT-4) to detect moral values in 200 real music lyrics annotated by two experts.We evaluate their predictive capabilities against a series of baselines including out-of-domain (BERT fine-tuned on MFT-annotated social media texts) and zero-shot (GPT-4) classification. The proposed models yielded the best accuracy across experiments, with an average F1 weighted score of 0.8. This performance is, on average, 5% higher than out-of-domain and zero-shot models. When examining precision in binary classification, the proposed models perform on average 12% higher than the baselines.Our approach contributes to annotation-free and effective lyrics morality learning, and provides useful insights into the knowledge distillation of LLMs regarding moral expression in music, and the potential impact of these technologies on the creative industries and musical culture. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 高帯域量子技術のための電流パルスを用いたスイッチング・増幅・チャープダイオードレーザー
Switching, Amplifying, and Chirping Diode Lasers with Current Pulses for High Bandwidth Quantum Technologies ( http://arxiv.org/abs/2407.18788v1 ) ライセンス: Link先を確認 | Gianni Buser, | (参考訳) 電流変調に基づくスイッチング、増幅、チャーピングダイオードレーザの一連の簡易で低コストな装置を提示する。
ダイオードレーザー電流の直接変調は、これらのパラメータに対する効果が独立ではないため、光に対する正確な振幅と位相制御を確立するのに十分ではない。
これらのデバイスは増幅器の飽和を利用してこの制限を克服し、量子技術応用の重要要素として一般的に使用される外部変調器を劇的に上回っている。
ルビジウムD線で動作している半導体光増幅器は、強度スイッチとして再キャストされ、オン:OFF比$>10^6$を50nsで達成する。
電流は795nm波長 (Rb D1) のテーパ増幅器に切り替えられ、光パルスはナノ秒時間が少なく、ピークパワーは3Wとほぼ同じである。
高速rfパルスはレーザーダイオードに直接印加され、出力周波数を最大300MHz、最大チャープ速度は150MHz/nsにシフトする。
最後に、後者の成分を結合し、任意の周波数チャープを持つワットレベルの光パルスを所定の範囲で生成するシステムと、同期要求に応じて65 ns以内の残留強度変動を生じる。
このような系は原子、分子、光学物理学に広く応用されており、特に原子蒸気を用いた量子メモリ実験のように、高出力と低ノイズを同時に必要とする高速実験に関心がある。
A series of simple and low-cost devices for switching, amplifying, and chirping diode lasers based on current modulation are presented. Direct modulation of diode laser currents is rarely sufficient to establish precise amplitude and phase control over light, as its effects on these parameters are not independent. These devices overcome this limitation by exploiting amplifier saturation and dramatically outperform commonly used external modulators in key figures of merit for quantum technological applications. Semiconductor optical amplifiers operated on either rubidium D line are recast as intensity switches and shown to achieve ON:OFF ratios $>10^6$ in as little as 50 ns. Current is switched to a 795 nm wavelength (Rb D1) tapered amplifier to produce optical pulses of few nanosecond duration and peak powers of 3 W at a similar extinction ratio. Fast rf pulses are applied directly to a laser diode to shift its emission frequency by up to 300 MHz in either direction and at a maximum chirp rate of 150 MHz/ns. Finally, the latter components are combined, yielding a system that produces watt-level optical pulses with arbitrary frequency chirps in the given range and <2% residual intensity variation, all within 65 ns upon asynchronous demand. Such systems have broad application in atomic, molecular, and optical physics, and are of particular interest to fast experiments simultaneously requiring high power and low noise, for example quantum memory experiments with atomic vapors. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# テキストに差分プライバシーを適用する場合、グラニュラリティは不可欠:ニューラルマシン翻訳の研究
Granularity is crucial when applying differential privacy to text: An investigation for neural machine translation ( http://arxiv.org/abs/2407.18789v1 ) ライセンス: Link先を確認 | Doan Nam Long Vu, Timour Igamberdiev, Ivan Habernal, | (参考訳) DP-SGDアルゴリズムによる差分プライバシ(DP)の適用により、トレーニング中の個々のデータポイントを保護することが、NLPでますます人気が高まっている。
しかし、DPが適用される粒度の選択はしばしば無視される。
例えば、ニューラルマシン翻訳(NMT)は典型的には文レベルの粒度で動作する。
DPの観点から、この設定は、各文が一人の個人に属し、トレーニングデータセットのどの2つの文も独立していると仮定する。
しかし、この仮定は多くの現実世界のNMTデータセット、例えば対話を含むデータセットでは違反している。
DPの適切な適用には、文から文書全体へ移行する必要があります。
本稿では,NMTを文レベルと文書レベルの両方で検討し,両シナリオのプライバシ/ユーティリティトレードオフを分析し,個人識別情報漏洩の観点から適切なプライバシ粒度を使用しないリスクを評価する(PII)。
文献レベルのNMTは,DPで作業する場合に適切な粒度を用いることの重要性を強調し,メンバシップ推論攻撃に対する耐性が高いことが示唆された。
Applying differential privacy (DP) by means of the DP-SGD algorithm to protect individual data points during training is becoming increasingly popular in NLP. However, the choice of granularity at which DP is applied is often neglected. For example, neural machine translation (NMT) typically operates on the sentence-level granularity. From the perspective of DP, this setup assumes that each sentence belongs to a single person and any two sentences in the training dataset are independent. This assumption is however violated in many real-world NMT datasets, e.g. those including dialogues. For proper application of DP we thus must shift from sentences to entire documents. In this paper, we investigate NMT at both the sentence and document levels, analyzing the privacy/utility trade-off for both scenarios, and evaluating the risks of not using the appropriate privacy granularity in terms of leaking personally identifiable information (PII). Our findings indicate that the document-level NMT system is more resistant to membership inference attacks, emphasizing the significance of using the appropriate granularity when working with DP. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# 医用画像におけるショートカット学習防止のためのベンチマーク依存性対策
Benchmarking Dependence Measures to Prevent Shortcut Learning in Medical Imaging ( http://arxiv.org/abs/2407.18792v1 ) ライセンス: Link先を確認 | Sarah Müller, Louisa Fay, Lisa M. Koch, Sergios Gatidis, Thomas Küstner, Philipp Berens, | (参考訳) 医療画像コホートは、取得装置、病院の現場、患者背景など多くの要因によって構築されることが多い。
その結果、深層学習モデルは因果関係のある特徴ではなく急激な相関を学習する傾向があり、その一般化性は新鮮で見当たらないデータに制限される。
この問題はタスク関連変数と非タスク関連変数の中間表現間の依存度を最小化することで解決できる。
これらの尺度には、相互情報、距離相関、および逆分類器の性能が含まれる。
本稿では,ショートカット学習の防止のために,そのような依存度をベンチマークする。
Morpho-MNISTを用いた簡易な設定法とCheXpert胸部X線写真を用いた医用画像撮影法について検討した。
以上の結果から,医用画像におけるコンバウンディング要因の緩和に関する知見が得られた。
Medical imaging cohorts are often confounded by factors such as acquisition devices, hospital sites, patient backgrounds, and many more. As a result, deep learning models tend to learn spurious correlations instead of causally related features, limiting their generalizability to new and unseen data. This problem can be addressed by minimizing dependence measures between intermediate representations of task-related and non-task-related variables. These measures include mutual information, distance correlation, and the performance of adversarial classifiers. Here, we benchmark such dependence measures for the task of preventing shortcut learning. We study a simplified setting using Morpho-MNIST and a medical imaging task with CheXpert chest radiographs. Our results provide insights into how to mitigate confounding factors in medical imaging. | 翻訳日:2024-07-29 13:09:10 公開日:2024-07-26 |
# ニューラルネット後部サンプリングのためのログコンケーブ結合
Log-Concave Coupling for Sampling Neural Net Posteriors ( http://arxiv.org/abs/2407.18802v1 ) ライセンス: Link先を確認 | Curtis McDonald, Andrew R Barron, | (参考訳) 本研究では,単一層ニューラルネットワークのサンプリングアルゴリズムを提案する。
このアルゴリズムは、私たちがGreedy Bayesと呼ぶ方法を用いて、ベイズ後部の再帰的列の上に構築されている。
ニューロンの重みベクトルに対するベイズ後方のサンプリングに$w$ of dimension $d$は、その多モード性のために困難である。
この問題に対処するアルゴリズムは、後続密度の$w$と補助確率変数$\xi$との結合に基づいている。
補助確率変数が与えられたニューロンの重みの逆条件$w|\xi$は、対数凹である。
後続分布の構成において、我々は前者の選択にいくつかの自由を与える。
特に、ガウス以前の$w$が好ましく小さな分散を持つ場合、補助変数 $\xi$ の余辺密度は、すべての次元の$d$に対して厳密な対数となることが証明される。
単位 $\ell_1$ の前の一様の場合、$\xi$ の密度が十分に大きい$d$ に対して厳密な対数であるという証拠が与えられる。
補助確率変数 $\xi$ の辺密度のスコアは$w|\xi$ 以上の期待値で決定されるので、マルコフ・チェイン・モンテカルロの様々な高速混合法で計算することができる。
さらに、$\xi$のスコアの計算により、このスコアからドリフト関数が構築された確率拡散(Langevin dynamics)により$\xi$をサンプリングする方法が可能である。
このような力学を用いて、Bakry と Emery の先駆的な情報理論手法は、その密度が厳密に対数凹であるときに、$\xi$ の正確なサンプリングが急速に得られることを示した。
その後、$w|\xi$からもう1つの引き分けは、所望の後方から辺分布を持つニューロン重みを$w$で生成する。
In this work, we present a sampling algorithm for single hidden layer neural networks. This algorithm is built upon a recursive series of Bayesian posteriors using a method we call Greedy Bayes. Sampling of the Bayesian posterior for neuron weight vectors $w$ of dimension $d$ is challenging because of its multimodality. Our algorithm to tackle this problem is based on a coupling of the posterior density for $w$ with an auxiliary random variable $\xi$. The resulting reverse conditional $w|\xi$ of neuron weights given auxiliary random variable is shown to be log concave. In the construction of the posterior distributions we provide some freedom in the choice of the prior. In particular, for Gaussian priors on $w$ with suitably small variance, the resulting marginal density of the auxiliary variable $\xi$ is proven to be strictly log concave for all dimensions $d$. For a uniform prior on the unit $\ell_1$ ball, evidence is given that the density of $\xi$ is again strictly log concave for sufficiently large $d$. The score of the marginal density of the auxiliary random variable $\xi$ is determined by an expectation over $w|\xi$ and thus can be computed by various rapidly mixing Markov Chain Monte Carlo methods. Moreover, the computation of the score of $\xi$ permits methods of sampling $\xi$ by a stochastic diffusion (Langevin dynamics) with drift function built from this score. With such dynamics, information-theoretic methods pioneered by Bakry and Emery show that accurate sampling of $\xi$ is obtained rapidly when its density is indeed strictly log-concave. After which, one more draw from $w|\xi$, produces neuron weights $w$ whose marginal distribution is from the desired posterior. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# ベイズ並列分岐グラフニューラルネットワークにおけるロバスト学習:狭幅限界
Robust Learning in Bayesian Parallel Branching Graph Neural Networks: The Narrow Width Limit ( http://arxiv.org/abs/2407.18807v1 ) ライセンス: Link先を確認 | Zechen Zhang, Haim Sompolinsky, | (参考訳) ランダムニューラルネットワークの無限幅制限は、タスク非依存のカーネルを特徴とするGaussian Process (NNGP) (Lee et al [2018]) としてニューラルネットワークに現れることが知られている。
より広いネットワーク幅が一般化に寄与することが広く受け入れられている(Park et al [2019])。
しかし、この研究は、残余ネットワークに類似したアーキテクチャであるベイズ並列分岐グラフニューラルネットワーク(BPB-GNN)の幅制限を調査することによって、この概念に挑戦する。
我々は,BPB-GNNの幅がトレーニング例の数に比べて著しく小さい場合,各分岐はカーネル再正規化における分岐の対称性の破れにより,より堅牢な学習を示すことを示した。
驚いたことに、狭い幅制限におけるBPB-GNNの性能は、バイアス制限シナリオの幅制限で達成されるものよりも、一般的に優れているか、同等である。
さらに、狭い幅制限における各ブランチの読み出しノルムは、アーキテクチャのハイパーパラメータとは独立しているが、概してデータの性質を反映している。
本結果は,並列分岐ネットワークにおいて,新たに定義された狭帯域方式を特徴付けるものである。
The infinite width limit of random neural networks is known to result in Neural Networks as Gaussian Process (NNGP) (Lee et al. [2018]), characterized by task-independent kernels. It is widely accepted that larger network widths contribute to improved generalization (Park et al. [2019]). However, this work challenges this notion by investigating the narrow width limit of the Bayesian Parallel Branching Graph Neural Network (BPB-GNN), an architecture that resembles residual networks. We demonstrate that when the width of a BPB-GNN is significantly smaller compared to the number of training examples, each branch exhibits more robust learning due to a symmetry breaking of branches in kernel renormalization. Surprisingly, the performance of a BPB-GNN in the narrow width limit is generally superior or comparable to that achieved in the wide width limit in bias-limited scenarios. Furthermore, the readout norms of each branch in the narrow width limit are mostly independent of the architectural hyperparameters but generally reflective of the nature of the data. Our results characterize a newly defined narrow-width regime for parallel branching networks in general. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# ニューラルネットワークによるカオス学習システムと長期予測
Learning Chaotic Systems and Long-Term Predictions with Neural Jump ODEs ( http://arxiv.org/abs/2407.18808v1 ) ライセンス: Link先を確認 | Florian Krach, Josef Teichmann, | (参考訳) Path-dependent Neural Jump ODE (PD-NJ-ODE) は、非マルコフ確率過程のオンライン予測モデルである。
条件付き予測によって与えられる$L^2$-optimal predictorへの収束が理論的に確立されるモデルである。
これにより、モデルのトレーニングは、プロセスの法則に関する知識を必要とせず、基礎となる確率過程の実現のデータセットのみに基づいて行われる。
基礎となるプロセスが決定論的である場合、条件付き期待はプロセス自体と一致する。
したがって、このフレームワークは、初期条件の異なる力学系の実現のみからODEやPDEシステムの力学を学ぶのに等価である。
二重振り子のカオスシステムに応用することで,本手法の可能性を示す。
標準PD-NJ-ODE法を訓練すると,評価時間の約半分後に,予測が真の経路から分岐し始めることが分かる。
本研究では,2つの新しいアイデアによってモデルを強化し,互いに独立してモデル設定の性能を向上させる。
結果として生じる力学はカオスシステムの真の力学と非常によく一致する。
同じ拡張は、PD-NJ-ODEが標準モデルが失敗する一般的な確率的データセットの長期予測を確実に学習できるようにするために使用することができる。
これはいくつかの実験で検証されている。
The Path-dependent Neural Jump ODE (PD-NJ-ODE) is a model for online prediction of generic (possibly non-Markovian) stochastic processes with irregular (in time) and potentially incomplete (with respect to coordinates) observations. It is a model for which convergence to the $L^2$-optimal predictor, which is given by the conditional expectation, is established theoretically. Thereby, the training of the model is solely based on a dataset of realizations of the underlying stochastic process, without the need of knowledge of the law of the process. In the case where the underlying process is deterministic, the conditional expectation coincides with the process itself. Therefore, this framework can equivalently be used to learn the dynamics of ODE or PDE systems solely from realizations of the dynamical system with different initial conditions. We showcase the potential of our method by applying it to the chaotic system of a double pendulum. When training the standard PD-NJ-ODE method, we see that the prediction starts to diverge from the true path after about half of the evaluation time. In this work we enhance the model with two novel ideas, which independently of each other improve the performance of our modelling setup. The resulting dynamics match the true dynamics of the chaotic system very closely. The same enhancements can be used to provably enable the PD-NJ-ODE to learn long-term predictions for general stochastic datasets, where the standard model fails. This is verified in several experiments. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# 複雑な形質に対するゲノムワイド関連信号検出のための人工ニューラルネットワークの解釈
Interpreting artificial neural networks to detect genome-wide association signals for complex traits ( http://arxiv.org/abs/2407.18811v1 ) ライセンス: Link先を確認 | Burak Yelmen, Maris Alver, Estonian Biobank Research Team, Flora Jay, Lili Milani, | (参考訳) 複雑な疾患の遺伝的アーキテクチャを調べることは、遺伝的および環境要因の高度にポリジェニックでインタラクティブな景観のために困難である。
ゲノムワイド・アソシエーション研究(GWAS)は、複数の複雑な表現型に対する数千の変種を同定しているが、従来の統計的アプローチは線形性やエピスタシスモデルの欠如といった単純な仮定によって制限される。
本研究では、シミュレーションと実際のジェノタイプ/フェノタイプデータセットの両方を用いて、複雑な特性を予測するために、ニューラルネットワークを訓練した。
対象の表現型に関連性のある遺伝子座(PAL)を同定するために,異なる事後解釈法を用いて特徴量スコアを抽出した。
各種パラメータを用いて行ったシミュレーションでは、厳密な選択基準を用いて適切な精度でロシを検出できることを示したが、従来のGWASと同様、リンク不均衡による正確な変種を微調整するには下流解析が必要である。
エストニアのバイオバンクにある統合失調症コホートにアプローチを適用することで、この高ポリジェニックかつ遺伝性障害に関連する複数のPALを検出できた。
また,脳形態に関連のある用語を主に同定した遺伝子領域において,PALを用いたエンリッチメント解析を行った。
モデル最適化と信頼性測定のさらなる改善により、人工知能は複雑な疾患に関連するゲノム座の同定を強化し、GWASのより包括的なアプローチを提供し、その後の機能研究のための初期スクリーニングツールとして機能する。
キーワード:ディープラーニング、解釈可能性、ゲノムワイド関連研究、複雑疾患
Investigating the genetic architecture of complex diseases is challenging due to the highly polygenic and interactive landscape of genetic and environmental factors. Although genome-wide association studies (GWAS) have identified thousands of variants for multiple complex phenotypes, conventional statistical approaches can be limited by simplified assumptions such as linearity and lack of epistasis models. In this work, we trained artificial neural networks for predicting complex traits using both simulated and real genotype/phenotype datasets. We extracted feature importance scores via different post hoc interpretability methods to identify potentially associated loci (PAL) for the target phenotype. Simulations we performed with various parameters demonstrated that associated loci can be detected with good precision using strict selection criteria, but downstream analyses are required for fine-mapping the exact variants due to linkage disequilibrium, similarly to conventional GWAS. By applying our approach to the schizophrenia cohort in the Estonian Biobank, we were able to detect multiple PAL related to this highly polygenic and heritable disorder. We also performed enrichment analyses with PAL in genic regions, which predominantly identified terms associated with brain morphology. With further improvements in model optimization and confidence measures, artificial neural networks can enhance the identification of genomic loci associated with complex diseases, providing a more comprehensive approach for GWAS and serving as initial screening tools for subsequent functional studies. Keywords: Deep learning, interpretability, genome-wide association studies, complex diseases | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# 国家要求を考慮したPOMDPのオンラインプランニング
Online Planning in POMDPs with State-Requests ( http://arxiv.org/abs/2407.18812v1 ) ライセンス: Link先を確認 | Raphael Avalos, Eugenio Bargiacchi, Ann Nowé, Diederik M. Roijers, Frans A. Oliehoek, | (参考訳) 重要な現実世界の問題では、完全な状態情報は時として利用できるが、正確なエネルギー集約型センサーの活性化や人間への相談など、高コストでしか利用できない。
このシナリオでは、状態要求を伴うPMDPに適したオンライン計画アルゴリズムであるAMMS-SR(Anytime Error Minimization Search with State Requests)を提案する。
探索空間を木の代わりにグラフとして表現することで、AEMS-SRは状態要求に由来する探索空間の指数的な成長を避けることができる。
理論的分析は、AEMS-SRの$\varepsilon$-optimalityを示し、ソリューションの品質を保証する一方、実証的な評価は、SOTAのオンライン計画アルゴリズムであるAEMSとPOMCPと比較してその効果を示す。
AEMS-SRは、部分的な可観測性とコストのかかる状態要求を特徴とするドメインの効率的な計画を可能にする。
In key real-world problems, full state information is sometimes available but only at a high cost, like activating precise yet energy-intensive sensors or consulting humans, thereby compelling the agent to operate under partial observability. For this scenario, we propose AEMS-SR (Anytime Error Minimization Search with State Requests), a principled online planning algorithm tailored for POMDPs with state requests. By representing the search space as a graph instead of a tree, AEMS-SR avoids the exponential growth of the search space originating from state requests. Theoretical analysis demonstrates AEMS-SR's $\varepsilon$-optimality, ensuring solution quality, while empirical evaluations illustrate its effectiveness compared with AEMS and POMCP, two SOTA online planning algorithms. AEMS-SR enables efficient planning in domains characterized by partial observability and costly state requests offering practical benefits across various applications. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# ディープコンパニオン学習: 歴史的一貫性による一般化の促進
Deep Companion Learning: Enhancing Generalization Through Historical Consistency ( http://arxiv.org/abs/2407.18821v1 ) ライセンス: Link先を確認 | Ruizhao Zhu, Venkatesh Saligrama, | (参考訳) 本稿では,DNNの新しい学習手法であるDeep Companion Learning (DCL)を提案する。
これを実現するために,従来のモデルを用いて新しい入力の予測を行うディープコンパニオンモデル(DCM)を訓練する。
このコンパニオンモデルは、データ内の有意義な潜在的セマンティック構造を解読し、最も困難なシナリオに対処するために、プライマリモデルを奨励するターゲットの監視を提供する。
我々は,さまざまなアーキテクチャモデル(ShuffleNetV2,ResNet,Vision Transformerなど)を用いて,さまざまなベンチマークデータセット(CIFAR-100,Tiny-ImageNet,ImageNet-1K)を用いてアブレーション研究を含む,理論解析と広範囲な実験を行った。
We propose Deep Companion Learning (DCL), a novel training method for Deep Neural Networks (DNNs) that enhances generalization by penalizing inconsistent model predictions compared to its historical performance. To achieve this, we train a deep-companion model (DCM), by using previous versions of the model to provide forecasts on new inputs. This companion model deciphers a meaningful latent semantic structure within the data, thereby providing targeted supervision that encourages the primary model to address the scenarios it finds most challenging. We validate our approach through both theoretical analysis and extensive experimentation, including ablation studies, on a variety of benchmark datasets (CIFAR-100, Tiny-ImageNet, ImageNet-1K) using diverse architectural models (ShuffleNetV2, ResNet, Vision Transformer, etc.), demonstrating state-of-the-art performance. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# 同期励起光パラメトリック発振器における多重モードパルス励起光の発生に及ぼす群速度分散の影響
Effect of group-velocity dispersion on the generation of multimode pulsed squeezed light in a synchronously pumped optical parametric oscillator ( http://arxiv.org/abs/2407.18826v1 ) ライセンス: Link先を確認 | Valentin Averchenko, Danil Malyshev, Kirill Tikhonov, | (参考訳) 非線形結晶におけるパラメトリックダウンコンバージョン(パラメトリックダウンコンバージョン、パラメトリックダウンコンバージョン、英: Parametric down-conversion)は、量子力学、量子情報、通信における応用を見出すため、複数のモードで二次的に絞られた光を生成するために広く用いられる技法である。
本稿では, 同期励起光パラメトリック発振器(SPOPO)における時間多重パルス励起光の発生について, 非補償空洞内群速度分散の存在を考慮して検討する。
システムの開発した時間領域モデルに基づいて, 共振器共振器からパルスパラメトリックプロセスのブロードバンド過度をモード依存的に分解し, それらの過度を線形に結合することを示す。
モード間の結合係数における摂動理論を2次にすると、任意のモード数とポンプレベルが与えられる超モード振幅に対する解が得られる。
分散は、そのスクイーズレベルとスクイーズ楕円の回転に影響を与えることでスーパーモデムの量子状態に影響を与える。
また、スーパーモデム間の絡み合いにも影響し、バランスの取れたホモダイン検出方式で測定されたショットノイズレベルが抑制される。
さらに,本研究では, 群速度分散を用いたSPOPOの可能性を強調し, 線形偏光結合パラメトリック発振器における多重モード効果の実験的検討を行った。
Parametric down-conversion in a nonlinear crystal is a widely employed technique for generating quadrature squeezed light with multiple modes, which finds applications in quantum metrology, quantum information and communication. Here we study the generation of temporally multimode pulsed squeezed light in a synchronously pumped optical parametric oscillator (SPOPO) operating below the oscillation threshold, while considering the presence of non-compensated intracavity group-velocity dispersion. Based on the developed timedomain model of the system, we show that the dispersion results in mode-dependent detuning of the broadband supermodes of the pulsed parametric process from the cavity resonance, as well as linear coupling between these supermodes. With the perturbation theory up to the second order in the coupling coefficients between modes, we obtained a solution for the supermode amplitudes given an arbitrary number of modes and pump level. The dispersion affects the quantum state of the supermodes by influencing their squeezing level and the rotation of the squeezing ellipse. It also affects the entanglement among the supermodes, leading to reduced suppression of shot noise level as measured in the balanced homodyne detection scheme. Furthermore, our study highlights the potential of SPOPO with group-velocity dispersion as a testbench for experimental investigations of multimode effects in linearly evanescent coupled parametric oscillators. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# 大規模言語モデルを用いたデータ駆動型添加物製造研究からの科学的情報抽出のための人文知能共同研究
Human-artificial intelligence teaming for scientific information extraction from data-driven additive manufacturing research using large language models ( http://arxiv.org/abs/2407.18827v1 ) ライセンス: Link先を確認 | Mutahar Safdar, Jiarui Xie, Andrei Mircea, Yaoyao Fiona Zhao, | (参考訳) 近年,データ駆動型アダプティブ・マニュファクチャリング(AM)の研究は大きな成功を収めている。
この結果、多くの科学文献が誕生した。
これらの研究の知識は、採掘されていないAMとAI(AI)のコンテキストから成り、統合された方法で形式化されている。
これらの作品から科学的情報を取り出すにはかなりの労力と時間を要する。
AMドメインの専門家は、これらの研究を要約するために、2ダース以上のレビュー論文を寄稿している。
しかし、AMおよびAIコンテキストに特有の情報は、抽出に手作業が必要である。
近年, BERT (Bidirectional Encoder Representations for Transformers) や GPT (Generative Pre-trained Transformers) などの基盤モデルがテキストデータ上で成功したことにより, 科学的情報抽出の迅速化が可能になった。
本稿では,AMとAIの専門家が共同で,データ駆動型AM文献から科学情報を継続的に抽出するフレームワークを提案する。
提案したフレームワークに基づいてデモツールを実装し,データセット,モデリング,センシング,AMシステムカテゴリに関する情報を抽出するケーススタディを実施した。
データ駆動型AM文献から関連情報の抽出を高速化するLLM(Large Language Models)の能力を示す。
将来、このフレームワークは工学の分野における幅広い設計と製造の文献から情報を取り出すのに利用できる。
Data-driven research in Additive Manufacturing (AM) has gained significant success in recent years. This has led to a plethora of scientific literature to emerge. The knowledge in these works consists of AM and Artificial Intelligence (AI) contexts that have not been mined and formalized in an integrated way. It requires substantial effort and time to extract scientific information from these works. AM domain experts have contributed over two dozen review papers to summarize these works. However, information specific to AM and AI contexts still requires manual effort to extract. The recent success of foundation models such as BERT (Bidirectional Encoder Representations for Transformers) or GPT (Generative Pre-trained Transformers) on textual data has opened the possibility of expediting scientific information extraction. We propose a framework that enables collaboration between AM and AI experts to continuously extract scientific information from data-driven AM literature. A demonstration tool is implemented based on the proposed framework and a case study is conducted to extract information relevant to the datasets, modeling, sensing, and AM system categories. We show the ability of LLMs (Large Language Models) to expedite the extraction of relevant information from data-driven AM literature. In the future, the framework can be used to extract information from the broader design and manufacturing literature in the engineering discipline. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# 2レベル系の確率共鳴を用いて量子デコヒーレンス時間を増加させる
Using stochastic resonance of two-level systems to increase qubit decoherence times ( http://arxiv.org/abs/2407.18829v1 ) ライセンス: Link先を確認 | Yujun Choi, S. N. Coppersmith, Robert Joynt, | (参考訳) 2レベルシステム(TLS)は、多くの量子コンピューティングプラットフォームにおけるスピン量子ビットのデファス化の主要な原因である。
多くの努力にもかかわらず、このノイズの効果を実質的に緩和することは困難であり、多くの場合、その物理的起源を完全に理解することは困難である。
両問題を進展させる手法を提案する。
振動場がTLSに印加されると、確率共鳴が発生し、ノイズスペクトルはより高い周波数に移動される。
このTLSノイズスペクトルの変化は、それらが影響する量子ビットの劣化時間を増加させる。
さらに、この効果の詳細はノイズ源の物理的特性に依存する。
したがって、量子ビット分光を用いてそれらの物性、特にTLS自体が量子コヒーレンスを持つ範囲を調べることができる。
この方法でTLS自体の劣化速度とエネルギーレベルの分離を決定できることが判明した。
Two-level systems (TLS) are the major source of dephasing of spin qubits in numerous quantum computing platforms. In spite of much effort, it has been difficult to substantially mitigate the effects of this noise or, in many cases, to fully understand its physical origin. We propose a method to make progress on both of these issues. When an oscillating field is applied to a TLS, stochastic resonance can occur and the noise spectrum is moved to higher frequencies. This shift in the TLS noise spectrum will increase the dephasing times of the qubits that they influence. Furthermore, the details of this effect depend on the physical properties of the noise sources. Thus one can use qubit spectroscopy to investigate their physical properties, specifically the extent to which the TLS themselves possess quantum coherence. We find that it should be possible to determine the dephasing rate and the energy level separation of the TLS themselves in this way. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# サイバーパーシステンス脅威の高精度かつスケーラブルな検出と調査
Accurate and Scalable Detection and Investigation of Cyber Persistence Threats ( http://arxiv.org/abs/2407.18832v1 ) ライセンス: Link先を確認 | Qi Liu, Muhammad Shoaib, Mati Ur Rehman, Kaibin Bao, Veit Hagenmeyer, Wajih Ul Hassan, | (参考訳) Advanced Persistent Threat (APT) 攻撃では、攻撃者が成功するためには、標的システム内のステルスな永続性を達成することが不可欠である。
この永続性により、敵は長いアクセスを維持することができ、しばしば検出メカニズムを回避することができる。
本稿では,APTライフサイクルにおけるその重要な役割を認識し,証明分析によるサイバー永続性検出を目的とした新しいシステムであるCyber Persistence Detector(CPD)を紹介する。
CPDは、永続的な操作が一般的に「パーシステンス・セットアップ」と「パーシステンス・実行」の2つのフェーズで現れるという洞察に基づいて設立された。
これらの相を因果的に関連づけることで、永続的な脅威を検出する能力を高めることができる。
まず、CPDは、差し迫った永続的な脅威を知らせるセットアップを認識し、それからリモート接続にリンクされたプロセスをトレースして、永続化実行アクティビティを識別する。
本システムの主な特徴は擬似依存エッジ(擬似エッジ)の導入であり,データプロファイランス分析と専門家誘導エッジを効果的に結合することで,高速なトレースとログサイズ削減を実現している。
これらのエッジは、永続的脅威を正確かつ効率的に検出することを可能にする。
さらに,持続的脅威に関連する偽陽性をさらに低減する新しい警告トリアージアルゴリズムを提案する。
その結果,本システムは最先端手法と比較して,平均偽陽性率を93%削減できることがわかった。
In Advanced Persistent Threat (APT) attacks, achieving stealthy persistence within target systems is often crucial for an attacker's success. This persistence allows adversaries to maintain prolonged access, often evading detection mechanisms. Recognizing its pivotal role in the APT lifecycle, this paper introduces Cyber Persistence Detector (CPD), a novel system dedicated to detecting cyber persistence through provenance analytics. CPD is founded on the insight that persistent operations typically manifest in two phases: the "persistence setup" and the subsequent "persistence execution". By causally relating these phases, we enhance our ability to detect persistent threats. First, CPD discerns setups signaling an impending persistent threat and then traces processes linked to remote connections to identify persistence execution activities. A key feature of our system is the introduction of pseudo-dependency edges (pseudo-edges), which effectively connect these disjoint phases using data provenance analysis, and expert-guided edges, which enable faster tracing and reduced log size. These edges empower us to detect persistence threats accurately and efficiently. Moreover, we propose a novel alert triage algorithm that further reduces false positives associated with persistence threats. Evaluations conducted on well-known datasets demonstrate that our system reduces the average false positive rate by 93% compared to state-of-the-art methods. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# スパイクニューラルネットワークにおける時間階層の役割
The Role of Temporal Hierarchy in Spiking Neural Networks ( http://arxiv.org/abs/2407.18838v1 ) ライセンス: Link先を確認 | Filippo Moro, Pau Vilimelis Aceituno, Laura Kriener, Melika Payvand, | (参考訳) スパイキングニューラルネットワーク(SNN)は、空間的パラメータと時間的パラメータの両方を活用することにより、豊かな時空間信号処理の可能性を秘めている。
シナプスやニューロンの時間定数や遅延などの時間的ダイナミクスは、最近、ネットワークに必要なパラメータの総数を減らし、時間的タスクを解く際にSNNの精度を高めるのに役立つ計算上の利点があることが示されている。
このような時間的パラメータを最適化することは、例えば勾配降下によって、異なる問題に対する時間的アーキテクチャを生み出す。
機械学習で示されているように、最適化のコストを削減するために、アーキテクチャバイアスを適用することができる。
このような時間的パラメータの誘導バイアスは神経科学の研究で発見され、皮質の異なる層における時間的構造と入力表現の階層性を強調している。
そこで我々は,SNNの隠蔽層に時間的表現の階層構造を付加することを提案し,そのような帰納的バイアスがそれらの性能を改善することを強調した。
時間的タスクに適用したフィードフォワードSNNの時間定数における時間的階層の正の効果を示す(Multi-Time-Scale XOR と Keyword Spotting)。
さらに,時間定数の階層構造であるそのようなアーキテクチャバイアスは,勾配降下による時間定数の最適化時に自然に出現し,等質な値として初期化されることを示す。
我々は、時間的畳み込みSNNにおいて、この提案をさらに追求し、時間的カーネルのサイズと拡張における階層的バイアスを導入し、一般的な時間的スパイクベースのデータセットで競合する結果をもたらす。
Spiking Neural Networks (SNNs) have the potential for rich spatio-temporal signal processing thanks to exploiting both spatial and temporal parameters. The temporal dynamics such as time constants of the synapses and neurons and delays have been recently shown to have computational benefits that help reduce the overall number of parameters required in the network and increase the accuracy of the SNNs in solving temporal tasks. Optimizing such temporal parameters, for example, through gradient descent, gives rise to a temporal architecture for different problems. As has been shown in machine learning, to reduce the cost of optimization, architectural biases can be applied, in this case in the temporal domain. Such inductive biases in temporal parameters have been found in neuroscience studies, highlighting a hierarchy of temporal structure and input representation in different layers of the cortex. Motivated by this, we propose to impose a hierarchy of temporal representation in the hidden layers of SNNs, highlighting that such an inductive bias improves their performance. We demonstrate the positive effects of temporal hierarchy in the time constants of feed-forward SNNs applied to temporal tasks (Multi-Time-Scale XOR and Keyword Spotting, with a benefit of up to 4.1% in classification accuracy). Moreover, we show that such architectural biases, i.e. hierarchy of time constants, naturally emerge when optimizing the time constants through gradient descent, initialized as homogeneous values. We further pursue this proposal in temporal convolutional SNNs, by introducing the hierarchical bias in the size and dilation of temporal kernels, giving rise to competitive results in popular temporal spike-based datasets. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# 変位相マニフォールド学習によるスケーラブルなグループコレオグラフィ
Scalable Group Choreography via Variational Phase Manifold Learning ( http://arxiv.org/abs/2407.18839v1 ) ライセンス: Link先を確認 | Nhat Le, Khoa Do, Xuan Bui, Tuong Do, Erman Tjiputra, Quang D. Tran, Anh Nguyen, | (参考訳) 音楽からグループダンスの動きを生成することは、いくつかの産業的応用において難しい課題である。
この問題に対処するためにいくつかの方法が提案されているが、そのほとんどは、データセット内の所定のダンサー数に制約されたダンス運動の忠実度を最適化することを優先している。
この制限は現実世界のアプリケーションへの適応性を妨げている。
本研究は,自然性と同期性を維持しつつ,グループコレオグラフィーにおけるスケーラビリティの問題に対処する。
特に、生成多様体の学習に基づくグループダンス生成のための位相ベース変分生成モデルを提案する。
提案手法は,高忠実度群舞踊動作を実現し,最小限のメモリと一定量のメモリしか消費せず,無制限なダンサー生成を可能にする。
2つの公開データセットに対する集中的な実験は、提案手法が最近の最先端のアプローチを大きなマージンで上回り、トレーニングデータを超える多くのダンサーにスケーラブルであることを示している。
Generating group dance motion from the music is a challenging task with several industrial applications. Although several methods have been proposed to tackle this problem, most of them prioritize optimizing the fidelity in dancing movement, constrained by predetermined dancer counts in datasets. This limitation impedes adaptability to real-world applications. Our study addresses the scalability problem in group choreography while preserving naturalness and synchronization. In particular, we propose a phase-based variational generative model for group dance generation on learning a generative manifold. Our method achieves high-fidelity group dance motion and enables the generation with an unlimited number of dancers while consuming only a minimal and constant amount of memory. The intensive experiments on two public datasets show that our proposed method outperforms recent state-of-the-art approaches by a large margin and is scalable to a great number of dancers beyond the training data. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# 強化学習のためのクロス環境ハイパーパラメータ設定ベンチマーク
The Cross-environment Hyperparameter Setting Benchmark for Reinforcement Learning ( http://arxiv.org/abs/2407.18840v1 ) ライセンス: Link先を確認 | Andrew Patterson, Samuel Neumann, Raksha Kumaraswamy, Martha White, Adam White, | (参考訳) 本稿では、単一ハイパーパラメータ設定を用いて環境間のRLアルゴリズムを比較し、ハイパーパラメータに敏感なアルゴリズム開発を促進する、新しい経験的手法であるクロス環境ハイパーパラメータ設定ベンチマークを提案する。
このベンチマークは統計的ノイズに対して頑健であり、サンプルが少ない場合でも繰り返しアプリケーション間で定性的に類似した結果が得られることを示す。
このロバスト性により、ベンチマークを計算的に安価に適用でき、統計的に低いコストで洞察を得られる。
6つの小さな制御環境 (SC-CHS) と, DM制御スイート全体 (DMC-CHS) の2つの例を示す。
最後に,最新のRLアルゴリズムに対するCHSの適用性を示すために,連続制御文学におけるオープンな問題に関する新しい実証的研究を行った。
DMC-CHSにおけるDDPGアルゴリズムを用いた探索において,Ornstein-Uhlenbeckノイズと非相関ガウスノイズとの間に有意な差はないことを示す。
This paper introduces a new empirical methodology, the Cross-environment Hyperparameter Setting Benchmark, that compares RL algorithms across environments using a single hyperparameter setting, encouraging algorithmic development which is insensitive to hyperparameters. We demonstrate that this benchmark is robust to statistical noise and obtains qualitatively similar results across repeated applications, even when using few samples. This robustness makes the benchmark computationally cheap to apply, allowing statistically sound insights at low cost. We demonstrate two example instantiations of the CHS, on a set of six small control environments (SC-CHS) and on the entire DM Control suite of 28 environments (DMC-CHS). Finally, to illustrate the applicability of the CHS to modern RL algorithms on challenging environments, we conduct a novel empirical study of an open question in the continuous control literature. We show, with high confidence, that there is no meaningful difference in performance between Ornstein-Uhlenbeck noise and uncorrelated Gaussian noise for exploration with the DDPG algorithm on the DMC-CHS. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# QT-TDM:変圧器ダイナミクスモデルと自己回帰Q-ラーニングによる計画
QT-TDM: Planning with Transformer Dynamics Model and Autoregressive Q-Learning ( http://arxiv.org/abs/2407.18841v1 ) ライセンス: Link先を確認 | Mostafa Kotb, Cornelius Weber, Muhammad Burhan Hafez, Stefan Wermter, | (参考訳) 自然言語処理とコンピュータビジョンにおけるTransformerアーキテクチャの成功に触発され,Reinforcement Learning(RL)におけるTransformerの使用,特にTransformer Dynamics Models(TDM)を用いた環境のダイナミクスのモデリングについて検討した。
モデル予測制御(MPC)を用いたリアルタイム計画シナリオにおける連続制御のためのTDMの性能評価を行った。
トランスフォーマーは長距離予測において優れているが、そのトークン化機構と自己回帰的な性質は、特に環境の次元が増加するにつれて、長い地平線上でのコストのかかる計画に繋がる。
この問題を緩和するために、TDMを用いて短期計画を行い、個別Q-Transformer (QT) モデルを用いて自己回帰離散Q-関数を学習し、短期計画以上の長期的なリターンを推定する。
提案手法であるQT-TDMは,動的モデルとしてのトランスフォーマーの頑健な予測機能とモデルフリーQ-トランスフォーマーの有効性を統合し,リアルタイム計画に伴う計算負担を軽減する。
様々な状態ベース連続制御タスクの実験により、QT-TDMは、高速で計算効率のよい推論を達成しつつ、既存のTransformerベースのRLモデルと比較して、性能とサンプル効率に優れていることが示された。
Inspired by the success of the Transformer architecture in natural language processing and computer vision, we investigate the use of Transformers in Reinforcement Learning (RL), specifically in modeling the environment's dynamics using Transformer Dynamics Models (TDMs). We evaluate the capabilities of TDMs for continuous control in real-time planning scenarios with Model Predictive Control (MPC). While Transformers excel in long-horizon prediction, their tokenization mechanism and autoregressive nature lead to costly planning over long horizons, especially as the environment's dimensionality increases. To alleviate this issue, we use a TDM for short-term planning, and learn an autoregressive discrete Q-function using a separate Q-Transformer (QT) model to estimate a long-term return beyond the short-horizon planning. Our proposed method, QT-TDM, integrates the robust predictive capabilities of Transformers as dynamics models with the efficacy of a model-free Q-Transformer to mitigate the computational burden associated with real-time planning. Experiments in diverse state-based continuous control tasks show that QT-TDM is superior in performance and sample efficiency compared to existing Transformer-based RL models while achieving fast and computationally efficient inference. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# アンサンブル深部グラフ畳み込みネットワークによる材料特性予測の強化
Enhancing material property prediction with ensemble deep graph convolutional networks ( http://arxiv.org/abs/2407.18847v1 ) ライセンス: Link先を確認 | Chowdhury Mohammad Abid Rahman, Ghadendra Bhandari, Nasser M Nasrabadi, Aldo H. Romero, Prashnna K. Gyawali, | (参考訳) 機械学習(ML)モデルは、構成データと構造データから特性の正確な予測を可能にすることによって、材料発見と設計を加速するための強力なツールとして登場した。
これらの能力はエネルギー、エレクトロニクス、バイオメディシンといった先進技術の発展に不可欠であり、新しい物質探査に必要な時間と資源を減らし、急速なイノベーションサイクルを促進する可能性がある。
近年の取り組みは、プロパティ予測にディープラーニングベースのグラフニューラルネットワークを含む高度なMLアルゴリズムの採用に重点を置いている。
さらに、アンサンブルモデルはMLとDLの一般化性と堅牢性を高めることが証明されている。
しかし, 深層グラフネットワークにおけるこのようなアンサンブル戦略の材料特性予測への利用については, 未検討のままである。
本研究は,物質特性予測タスクを対象とする深層学習に基づくグラフニューラルネットワークにおけるアンサンブル戦略の詳細な評価を行う。
The Crystal Graph Convolutional Neural Network (CGCNN) and its multitask version, MT-CGCNNにより, 33,990の安定無機材料において, 原子単位の生成エネルギー(\Delta E^{f}$), バンドギャップ(E_{g}$), 密度(\rho$)など, 従来の測定値よりも精度が向上することが実証された。
これらの知見は、現場での予測精度を高めるためのアンサンブル法の適用を広く支援する。
Machine learning (ML) models have emerged as powerful tools for accelerating materials discovery and design by enabling accurate predictions of properties from compositional and structural data. These capabilities are vital for developing advanced technologies across fields such as energy, electronics, and biomedicine, potentially reducing the time and resources needed for new material exploration and promoting rapid innovation cycles. Recent efforts have focused on employing advanced ML algorithms, including deep learning - based graph neural network, for property prediction. Additionally, ensemble models have proven to enhance the generalizability and robustness of ML and DL. However, the use of such ensemble strategies in deep graph networks for material property prediction remains underexplored. Our research provides an in-depth evaluation of ensemble strategies in deep learning - based graph neural network, specifically targeting material property prediction tasks. By testing the Crystal Graph Convolutional Neural Network (CGCNN) and its multitask version, MT-CGCNN, we demonstrated that ensemble techniques, especially prediction averaging, substantially improve precision beyond traditional metrics for key properties like formation energy per atom ($\Delta E^{f}$), band gap ($E_{g}$) and density ($\rho$) in 33,990 stable inorganic materials. These findings support the broader application of ensemble methods to enhance predictive accuracy in the field. | 翻訳日:2024-07-29 12:59:26 公開日:2024-07-26 |
# WeakeningとCompletingを使った$\mathcal{EL_\perp}$オントロジーの修復 - 拡張バージョン
Repairing Networks of $\mathcal{EL_\perp}$ Ontologies using Weakening and Completing -- Extended version ( http://arxiv.org/abs/2407.18848v1 ) ライセンス: Link先を確認 | Ying Li, Patrick Lambrix, | (参考訳) オントロジの品質とそのアライメントは、高品質なセマンティクスベースのアプリケーションを開発する上で不可欠である。
従来のデバッギング技術は、不要な公理やマッピングを除去することでオントロジーネットワークを修復するが、オントロジーネットワークのドメインで正しい結果を取り除くことができる。
本稿では,この問題に対処するオントロジーネットワークの修復フレームワークを提案する。
デバッグ、弱体化、完了といった基本的な操作を定義する。
さらに、オントロジーネットワークにおけるオントロジーとアライメントの自律性に関する選択と同様に、基本演算子の使用方法と使用タイミングを反映した組合せ演算子を定義する。
修復したネットワークの品質に及ぼす組み合わせ演算子の影響と実装ツールについて述べる。
私たちのフレームワークと既存のアルゴリズムを併用して、デバッグ、弱体化、そして完了することで、私たちは基本的に、以前の作業やシステムを拡張するための青写真を提供します。
The quality of ontologies and their alignments is crucial for developing high-quality semantics-based applications. Traditional debugging techniques repair ontology networks by removing unwanted axioms and mappings, but may thereby remove consequences that are correct in the domain of the ontology network. In this paper we propose a framework for repairing ontology networks that deals with this issue. It defines basic operations such as debugging, weakening and completing. Further, it defines combination operators that reflect choices in how and when to use the basic operators, as well as choices regarding the autonomy level of the ontologies and alignments in the ontology network. We show the influence of the combination operators on the quality of the repaired network and present an implemented tool. By using our framework together with existing algorithms for debugging, weakening and completing, we essentially provide a blueprint for extending previous work and systems. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# 非負テンソル分解に基づく効率的な動的コミュニティ検出器MNTD
MNTD: An Efficient Dynamic Community Detector Based on Nonnegative Tensor Decomposition ( http://arxiv.org/abs/2407.18849v1 ) ライセンス: Link先を確認 | Hao Fang, Qu Wang, Qicong Hu, Hao Wu, | (参考訳) 動的コミュニティ検出は、複雑なネットワーク内での社会構造の時間的進化、情報拡散、インタラクティブな行動の解明に不可欠である。
非負の行列分解は、静的ネットワーク内のコミュニティを識別する効率的なフレームワークを提供するが、コミュニティのアフィリエイトの時間的変動を表現するには不十分である。
そこで本研究では,動的コミュニティ検出のためのモジュラリティ最大化を組み込んだ非負テンソルRESCAL分解(MNTD)モデルを提案する。
この方法は2つの主要な機能を提供します。
a)非負のテンソルRESCAL分解は、異なる時間帯における潜伏するコミュニティ構造を抽出し、コミュニティの持続性と変容を強調する。
ロ モジュール性最大化アルゴリズムに初期コミュニティ構造を組み込むことにより、より正確なコミュニティセグメンテーションを容易にする。
実世界のデータセットの比較分析により、MNTDはコミュニティ検出の精度において最先端の動的コミュニティ検出方法よりも優れていることが示された。
Dynamic community detection is crucial for elucidating the temporal evolution of social structures, information dissemination, and interactive behaviors within complex networks. Nonnegative matrix factorization provides an efficient framework for identifying communities in static networks but fall short in depicting temporal variations in community affiliations. To solve this problem, this paper proposes a Modularity maximization-incorporated Nonnegative Tensor RESCAL Decomposition (MNTD) model for dynamic community detection. This method serves two primary functions: a) Nonnegative tensor RESCAL decomposition extracts latent community structures in different time slots, highlighting the persistence and transformation of communities; and b) Incorporating an initial community structure into the modularity maximization algorithm, facilitating more precise community segmentations. Comparative analysis of real-world datasets shows that the MNTD is superior to state-of-the-art dynamic community detection methods in the accuracy of community detection. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# 拡張モードアライメントのための拡散モデルによる視覚的特徴空間と意味的特徴空間の統一
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment ( http://arxiv.org/abs/2407.18854v1 ) ライセンス: Link先を確認 | Yuze Zheng, Zixuan Li, Xiangxian Li, Jinxing Liu, Yuqing Wang, Xiangxu Meng, Lei Meng, | (参考訳) 画像分類モデルは、被写体と照明の相違点の異なる視覚的視点によって駆動される画像情報の変化により、実世界のアプリケーションで不安定な性能を示すことが多い。
これらの課題を軽減するため、既存の研究では、視覚データにマッチする追加のモーダル情報を加えてモデルの学習プロセスを規則化し、複雑な画像領域から高品質な視覚特徴を抽出することができる。
具体的には、マルチモーダル学習の領域において、視覚的・意味的特徴のためのドメイン一貫性のある潜在特徴空間を学習することにより、異なるモーダル情報を調和させることにより、クロスモーダルアライメントを効果的な戦略として認識する。
しかし、このアプローチは、特徴分布と構造の違いなど、マルチモーダル情報の不均一性によって制限を受ける可能性がある。
この問題に対処するため,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入する。
重要なことに、MARNetは、異なるドメイン間で情報をスムーズに安定的にブレンドするクロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
これはプラグイン・アンド・プレイのフレームワークであり、様々な画像分類フレームワークに迅速に統合され、モデルのパフォーマンスが向上する。
Image classification models often demonstrate unstable performance in real-world applications due to variations in image information, driven by differing visual perspectives of subject objects and lighting discrepancies. To mitigate these challenges, existing studies commonly incorporate additional modal information matching the visual data to regularize the model's learning process, enabling the extraction of high-quality visual features from complex image regions. Specifically, in the realm of multimodal learning, cross-modal alignment is recognized as an effective strategy, harmonizing different modal information by learning a domain-consistent latent feature space for visual and semantic features. However, this approach may face limitations due to the heterogeneity between multimodal information, such as differences in feature distribution and structure. To address this issue, we introduce a Multimodal Alignment and Reconstruction Network (MARNet), designed to enhance the model's resistance to visual noise. Importantly, MARNet includes a cross-modal diffusion reconstruction module for smoothly and stably blending information across different domains. Experiments conducted on two benchmark datasets, Vireo-Food172 and Ingredient-101, demonstrate that MARNet effectively improves the quality of image information extracted by the model. It is a plug-and-play framework that can be rapidly integrated into various image classification frameworks, boosting model performance. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# HADES:全ネットワーク・プロバンス・アナリティクスによるアクティブ・ディレクトリ・アタックの検出
HADES: Detecting Active Directory Attacks via Whole Network Provenance Analytics ( http://arxiv.org/abs/2407.18858v1 ) ライセンス: Link先を確認 | Qi Liu, Kaibin Bao, Wajih Ul Hassan, Veit Hagenmeyer, | (参考訳) 現代のエンタープライズネットワークにおけるアイデンティティとアクセス管理において重要な役割を担っているため、Active Directory(AD)はAdvanced Persistence Threat(APT)アクターの標的となっている。
従来の侵入検知システム(IDS)は、マルウェアによって引き起こされる悪意のある行動を特定するのに優れているが、しばしばAPTアクターによって起動される盗難攻撃を検出するのに失敗する。
証明に基づくIDS(PIDS)の最近の進歩は、因果攻撃グラフに悪意のあるシステムアクティビティを露出させることによる約束を示す。
しかし、既存のアプローチはマシン内トレースに限定されており、ネットワーク内の攻撃者の移動範囲を明らかにすることはできない。
HADESは,クロスマシントレースにおけるいくつかの課題を克服するために,ログセッションベースの実行パーティショニングと呼ばれる新しい概念を活用することで,正確な因果関係に基づくクロスマシントレースを実現する最初のPIDSである。
我々は、HADESを効率的なオンデマンドトレースシステムとして設計し、現在進行中のAD攻撃を示す認証異常を最初に特定したときのみ全ネットワークトレースを行う。
攻撃警告をトリアージするために、AD攻撃で確認した2つの重要な洞察を統合する新しいアルゴリズムを提案する。
評価の結果,HADESは人気のあるオープンソース検出システムと,有名なAD攻撃検知器の両方に優れていた。
Due to its crucial role in identity and access management in modern enterprise networks, Active Directory (AD) is a top target of Advanced Persistence Threat (APT) actors. Conventional intrusion detection systems (IDS) excel at identifying malicious behaviors caused by malware, but often fail to detect stealthy attacks launched by APT actors. Recent advance in provenance-based IDS (PIDS) shows promises by exposing malicious system activities in causal attack graphs. However, existing approaches are restricted to intra-machine tracing, and unable to reveal the scope of attackers' traversal inside a network. We propose HADES, the first PIDS capable of performing accurate causality-based cross-machine tracing by leveraging a novel concept called logon session based execution partitioning to overcome several challenges in cross-machine tracing. We design HADES as an efficient on-demand tracing system, which performs whole-network tracing only when it first identifies an authentication anomaly signifying an ongoing AD attack, for which we introduce a novel lightweight authentication anomaly detection model rooted in our extensive analysis of AD attacks. To triage attack alerts, we present a new algorithm integrating two key insights we identified in AD attacks. Our evaluations show that HADES outperforms both popular open source detection systems and a prominent commercial AD attack detector. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# 非分解測定を超える量子軌道のセクターの指数的高速選択
Exponentially fast selection of sectors for quantum trajectories beyond non demolition measurements ( http://arxiv.org/abs/2407.18864v1 ) ライセンス: Link先を確認 | Tristan Benoist, Linda Greggio, Clément Pellegrini, | (参考訳) 長い時間で、量子軌道は、間接的に測定される系のヒルベルト空間の不変部分空間を選択する。
この選択は、ほぼ確実な意味で平均的に指数関数的に高速であることが示されている。
この結果は、非破壊測定の既知の結果を任意の反復間接測定に一般化する。
我々の証明は、独自の不変状態を持つ等価な楽器への原楽器の変形の導入に基づいている。
We show that, in long time, quantum trajectories select an invariant subspace of the Hilbert space of the system being indirectly measured. This selection is shown to be exponentially fast in an almost sure sense and in average. This result generalizes a known result for non demolition measurements to arbitrary repeated indirect measurements. Our proofs are based on the introduction of a deformation of the original instrument to an equivalent one with a unique invariant state. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# グラフ正規化を用いた表現学習によるダウンリンクCCM推定
Downlink CCM Estimation via Representation Learning with Graph Regularization ( http://arxiv.org/abs/2407.18865v1 ) ライセンス: Link先を確認 | Melih Can Zerin, Elif Vural, Ali Özgür Yılmaz, | (参考訳) 本稿では,一様線形アレイ (ULA) アンテナ構造を有する基地局 (BS) を用いたFDD(Multiple-Input multiple-output) 通信システムにおけるダウンリンクチャネル共分散行列 (CCM) 推定アルゴリズムを提案する。
上りリンク(UL) CCM と DL CCM の固有類似性は, 角相反性に起因する。
本稿では,UL CCM を DL CCM にマッピング関数でマッピングする環境について考察する。
まず,高推定性能を実現するために,写像関数のリプシッツ正則性の重要性を示す写像関数を構築し,非線形埋め込みを学習する理論的誤差解析を行う。
そこで,この理論に基づいて,推定問題の解として表現学習アルゴリズムを提案する。そこでは,ガウス系RBFカーネル補間器を選択して,UL CCMをDLにマップする。
提案アルゴリズムは、トレーニングデータセットにおけるDL CCMとUL CCMサンプル間の回帰モデルに適合し、UL CCM空間におけるデータの局所的な幾何学的構造を保ちながら、我々の理論的な知見に基づき、マッピング関数のリプシッツ連続性を明示的に制御する目的関数の最適化に基づく。
提案アルゴリズムは,シミュレーションで示すように,3つの誤差指標でベンチマーク手法を超越する。
In this paper, we propose an algorithm for downlink (DL) channel covariance matrix (CCM) estimation for frequency division duplexing (FDD) massive multiple-input multiple-output (MIMO) communication systems with base station (BS) possessing a uniform linear array (ULA) antenna structure. We make use of the inherent similarity between the uplink (UL) CCM and the DL CCM due to angular reciprocity. We consider a setting where the UL CCM is mapped to DL CCM by a mapping function. We first present a theoretical error analysis of learning a nonlinear embedding by constructing a mapping function, which points to the importance of the Lipschitz regularity of the mapping function for achieving high estimation performance. Then, based on the theoretical ground, we propose a representation learning algorithm as a solution for the estimation problem, where Gaussian RBF kernel interpolators are chosen to map UL CCMs to their DL counterparts. The proposed algorithm is based on the optimization of an objective function that fits a regression model between the DL CCM and UL CCM samples in the training dataset and preserves the local geometric structure of the data in the UL CCM space, while explicitly regulating the Lipschitz continuity of the mapping function in light of our theoretical findings. The proposed algorithm surpasses benchmark methods in terms of three error metrics as shown by simulations. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# 複合視覚能力家庭における子どものアートワークの育成
Engaging with Children's Artwork in Mixed Visual-Ability Families ( http://arxiv.org/abs/2407.18874v1 ) ライセンス: Link先を確認 | Arnavi Chheda-Kothary, Jacob O. Wobbrock, Jon E. Froehlich, | (参考訳) 本稿では,視覚障害者の家族と視覚障害者のアートワークの関わり方,理解と解釈を支援するための戦略,AIなどの技術の役割について検討する。
第1報では14名のBLV患者を対象とし,第2報では5名のBLV患者を対象とした。
子どものアートワークと多感覚デザインプローブのAI記述に関する半構造化インタビューを通じて,BLVの家族は,子どものストーリーテリングや解釈を他の非視覚的表現よりも好んで,アートのエンゲージメントを結合機会として重視することを発見した。
さらに、いくつかの不正確さにもかかわらず、BLVの家族は、AIが生成した記述は子供たちとの対話を促進し、自己指導によるアート発見を助けることができると感じた。
混合視覚能力家族におけるアートワークエンゲージメントを支援するため,様々な手法によるアートワークアクセスを可能にすること,子どものAI出力の補正を支援すること,コンテキストと内容と解釈の区別,子どものアートワークの記述など,デザイン上の考慮事項を整理した。
We present two studies exploring how blind or low-vision (BLV) family members engage with their sighted children's artwork, strategies to support understanding and interpretation, and the potential role of technology, such as AI, therein. Our first study involved 14 BLV individuals, and the second included five groups of BLV individuals with their children. Through semi-structured interviews with AI descriptions of children's artwork and multi-sensory design probes, we found that BLV family members value artwork engagement as a bonding opportunity, preferring the child's storytelling and interpretation over other nonvisual representations. Additionally, despite some inaccuracies, BLV family members felt that AI-generated descriptions could facilitate dialogue with their children and aid self-guided art discovery. We close with specific design considerations for supporting artwork engagement in mixed visual-ability families, including enabling artwork access through various methods, supporting children's corrections of AI output, and distinctions in context vs. content and interpretation vs. description of children's artwork. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# スパース学習性能向上のためのジェネレーティブ・アドバイサル・ネットワーク
Generative Adversarial Networks for Imputing Sparse Learning Performance ( http://arxiv.org/abs/2407.18875v1 ) ライセンス: Link先を確認 | Liang Zhang, Mohammed Yeasin, Jionghao Lin, Felix Havugimana, Xiangen Hu, | (参考訳) 知的学習システム(ITS)における質問に対する正解や誤応答などのパフォーマンスデータを学習することは、学習者の進歩と知識の熟達の追跡と評価に不可欠である。
しかし、未解決の質問や未解決の試み、正確な評価、ITS内でのカスタマイズされたパーソナライズされた指導の提供などが特徴である。
本稿では,GAIN(Generative Adversarial Imputation Networks)フレームワークを用いて,学習者,質問,試行の次元にまたがる3次元テンソル表現に再構成した,スパース学習性能データをインプットする手法を提案する。
我々のカスタマイズされたGAINベースの計算プロセスは、3次元テンソル空間におけるスパースデータをインプットし、入力層と出力層に対する畳み込みニューラルネットワークによって大幅に強化する。
この適応はまた、最小二乗損失関数を最適化に使用することを含み、入力と出力の形状を学習者の次元に沿った質問求心行列の次元に合わせる。
AutoTutor, ASSISTments, MATHiaなど,さまざまなITSから得られた6つのデータセットに関する広範な実験を通じて,GAINアプローチは一般にテンソル因子化やGAN(Generative Adversarial Network)に基づくアプローチよりも計算精度が高いことを示した。
この発見は、AIベースの教育における包括的な学習データモデリングと分析を促進する。
Learning performance data, such as correct or incorrect responses to questions in Intelligent Tutoring Systems (ITSs) is crucial for tracking and assessing the learners' progress and mastery of knowledge. However, the issue of data sparsity, characterized by unexplored questions and missing attempts, hampers accurate assessment and the provision of tailored, personalized instruction within ITSs. This paper proposes using the Generative Adversarial Imputation Networks (GAIN) framework to impute sparse learning performance data, reconstructed into a three-dimensional (3D) tensor representation across the dimensions of learners, questions and attempts. Our customized GAIN-based method computational process imputes sparse data in a 3D tensor space, significantly enhanced by convolutional neural networks for its input and output layers. This adaptation also includes the use of a least squares loss function for optimization and aligns the shapes of the input and output with the dimensions of the questions-attempts matrices along the learners' dimension. Through extensive experiments on six datasets from various ITSs, including AutoTutor, ASSISTments and MATHia, we demonstrate that the GAIN approach generally outperforms existing methods such as tensor factorization and other generative adversarial network (GAN) based approaches in terms of imputation accuracy. This finding enhances comprehensive learning data modeling and analytics in AI-based education. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# マイクロキャビティにおけるコヒーレントホールスピンの高速光制御
Fast optical control of a coherent hole spin in a microcavity ( http://arxiv.org/abs/2407.18876v1 ) ライセンス: Link先を確認 | Mark Hogg, Nadia Antoniadis, Malwina Marczak, Giang Nguyen, Timon Baltisberger, Alisa Javadi, Ruediger Schott, Sascha Valentin, Andreas Wieck, Arne Ludwig, Richard Warburton, | (参考訳) スピンフォトンインタフェースは量子ネットワークの重要な構成要素の1つである。
研究中の物理プラットフォームは、超低温原子やイオンから様々な固体システムまで、現代の実験物理学の範囲にまたがっている。
それぞれの系には強みと弱みがあり、通常はスピン特性とフォトニック特性のトレードオフがある。
現在、最も決定論的な単一光子源は光学マイクロキャビティに埋め込まれた半導体量子ドットを使用している。
しかし、コヒーレントスピン制御はまだ最先端の単一光子源と統合されておらず、半導体環境におけるホスト核スピンからの磁気ノイズはスピンコヒーレンスに強い制限を課している。
ここでは、高忠実度全光スピン制御と、現在利用可能な最も効率的な単一光子源プラットフォームであるオープンマイクロキャビティの量子ドットを組み合わせる。
マイクロ波信号を赤みがかった光場、ラマン過程に印加することで、ブロッホ球の任意の軸の周りの孔スピンのコヒーレントな回転を実証し、98.6%の最大密度を達成する。
キャビティはラマン過程を強化し、1GHz以上の超高速のラビ周波数を可能にする。
我々は、フレキシブルスピン制御を用いて、中心孔スピンを介してホスト材料の核スピンの光冷却を行い、ホールスピンコヒーレンス時間T2*を28 nsから535 nsまで延ばす。
ハーンエコーはスピンコヒーレンスを20 {\mu}sの時間スケールで保存し、動的デカップリングは緩和限界に近いコヒーレンスを拡張する。
スピン T2* とスピン回転時間は、Purcell による放射光再結合時間 50 ps よりもはるかに大きく、スピンがコヒーレンスを失う前に多くのスピン-光子対を生成できる。
A spin-photon interface is one of the key components of a quantum network. Physical platforms under investigation span the range of modern experimental physics, from ultra-cold atoms and ions to a variety of solid-state systems. Each system has its strengths and weaknesses, typically with a trade-off between spin properties and photonic properties. Currently, the best deterministic single-photon sources use a semiconductor quantum dot embedded in an optical microcavity. However, coherent spin control has not yet been integrated with a state-of-the-art single-photon source, and the magnetic noise from host nuclear spins in the semiconductor environment has placed strong limitations on the spin coherence. Here, we combine high-fidelity all-optical spin control with a quantum dot in an open microcavity, currently the most efficient single-photon source platform available. By imprinting a microwave signal onto a red-detuned optical field, a Raman process, we demonstrate coherent rotations of a hole spin around an arbitrary axis of the Bloch sphere, achieving a maximum {\pi}-pulse fidelity of 98.6%. The cavity enhances the Raman process, enabling ultra-fast Rabi frequencies above 1 GHz. We use our flexible spin control to perform optical cooling of the nuclear spins in the host material via the central hole spin, extending the hole-spin coherence time T2* from 28 ns to 535 ns. Hahn echo preserves the spin coherence on a timescale of 20 {\mu}s, and dynamical decoupling extends the coherence close to the relaxation limit. Both the spin T2* and spin rotation time are much larger than the Purcell-enhanced radiative recombination time, 50 ps, enabling many spin-photon pairs to be created before the spin loses its coherence. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# コード脆弱性検出のためのラインレベルの意味学習によるコード構造認識
Code Structure-Aware through Line-level Semantic Learning for Code Vulnerability Detection ( http://arxiv.org/abs/2407.18877v1 ) ライセンス: Link先を確認 | Ziliang Wang, Ge Li, Jia Li, Yihong Dong, Yingfei Xiong, Zhi Jin, | (参考訳) 自然言語のフローセマンティクスとは違って、プログラミング言語は構造や文法において本質的に厳格である。
コード脆弱性検出のための既存の微調整手法は、通常、コードを長いテキストシーケンスとして扱い、新しい行('/n')や空白のような構造的要素を取り除く。
しかし、このアプローチは必然的に重要な構造情報の喪失を招き、コードの独特な特性を低下させ、脆弱性検出の精度を損なう。
これらの課題に対処するために,構造化情報認識を組み込んだ事前学習型コードモデルに基づく新しいネットワークアーキテクチャ手法を提案する。
モデリングに先立って構造的要素を保持する拡張されたコードテキスト処理ワークフローを提案する。
この改良により、モデルはモデリングプロセス中にラインレベルの構造情報や意味情報を保持し、活用することができる。
さらに,Line-level Semantic Learning(CSLS)による新しいネットワークアーキテクチャであるCode Structure-Aware Networkを導入し,グローバルな脆弱性認識,ライン構造認識,センシティブライン認識という3つの重要なコンポーネントを統合した。
実世界のプロジェクトから脆弱性検出データセットを用いて包括的実験を行った。
現実世界のプロジェクトから派生した脆弱性検出データセットについて大規模な実験を行った。
その結果、新しいコード前処理フローは既存のベースライン(CoderBertやUniXcoderといった一般的なモデルに適用した場合のDevignデータセットの3倍の精度向上など)を大幅に改善することが示された。
提案するネットワークアーキテクチャでは,脆弱性の検出精度も向上し,新たに確立されたベンチマークを上回っている。
これらの結果は,コード脆弱性検出モデルの有効性を高める上で,構造情報の重要性を浮き彫りにしている。
Different from the flow semantics of natural languages, programming languages are inherently rigid in structure and grammar. Existing fine-tuning methodologies for code vulnerability detection generally treat code as long text sequences, stripping away structural elements such as newlines ('/n') and whitespace. However, this approach inadvertently results in the loss of crucial structural information, diminishing the distinct characteristics of code and impairing the accuracy of vulnerability detection. To address these challenges, we propose a novel network architecture method based on pre-trained code models, which incorporates structural information awareness. We propose an enhanced code text processing workflow that retains structural elements prior to modeling. This refinement allows the model to retain and exploit line-level structural information and semantic information during the modeling process. Furthermore, we introduce a new network architecture, the Code Structure-Aware Network through Line-level Semantic Learning (CSLS), which integrates three key components: global vulnerability awareness, line-structural awareness, and sensitive-line awareness. We have conducted comprehensive experiments using vulnerability detection datasets from real-world projects. Extensive experiments were conducted on vulnerability detection datasets derived from real-world projects. The results demonstrate that our new code pre-processing flow significantly improves existing baselines (e.g., a 3\% accuracy improvement on the Devign dataset when applied to popular models such as CoderBert and UniXcoder). The proposed network architecture also demonstrates superior accuracy in detecting vulnerabilities, surpassing newly established benchmarks. These findings underscore the importance of structural information in enhancing the efficacy of code vulnerability detection models. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# 一般政策パラメトリゼーションを用いた平均逆強化学習のための高速化モンテカルロ手法
An Accelerated Multi-level Monte Carlo Approach for Average Reward Reinforcement Learning with General Policy Parametrization ( http://arxiv.org/abs/2407.18878v1 ) ライセンス: Link先を確認 | Swetha Ganesh, Vaneet Aggarwal, | (参考訳) 本研究では,一般政策パラメトリゼーションによる平均回帰強化学習について検討した。
この領域内では、現在の保証は最適以下の保証で不足するか、混合時間の事前知識を要求するかのいずれかである。
これらの問題に対処するために,マルチレベルモンテカルロとナチュラルアクタ批判を統合したRandomized Accelerated Natural Actor Criticを導入する。
我々のアプローチは、混合時間の知識を必要としない$\tilde{\mathcal{O}}(1/\sqrt{T})$のグローバル収束率を初めて達成し、$\tilde{\mathcal{O}}(1/T^{1/4})$の最先端境界をはるかに上回っている。
In our study, we delve into average-reward reinforcement learning with general policy parametrization. Within this domain, current guarantees either fall short with suboptimal guarantees or demand prior knowledge of mixing time. To address these issues, we introduce Randomized Accelerated Natural Actor Critic, a method that integrates Multi-level Monte-Carlo and Natural Actor Critic. Our approach is the first to achieve global convergence rate of $\tilde{\mathcal{O}}(1/\sqrt{T})$ without requiring knowledge of mixing time, significantly surpassing the state-of-the-art bound of $\tilde{\mathcal{O}}(1/T^{1/4})$. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# TTS合成データを用いたキーワードスポッティングモデルの効率的な開発
Utilizing TTS Synthesized Data for Efficient Development of Keyword Spotting Model ( http://arxiv.org/abs/2407.18879v1 ) ライセンス: Link先を確認 | Hyun Jin Park, Dhruuv Agarwal, Neng Chen, Rentao Sun, Kurt Partridge, Justin Chen, Harry Zhang, Pai Zhu, Jacob Bartel, Kyle Kastner, Gary Wang, Andrew Rosenberg, Quan Wang, | (参考訳) 本稿では、開発コストと時間を最小限に抑えつつ、KWSタスクのためのTTS合成トレーニングデータの使用について検討する。
キーワードスポッティングモデルは、高精度なトレーニングデータを必要とするため、そのようなトレーニングデータを取得するのにコストがかかる。
現在の最先端では、TSモデルは大量の自然音データを生成することができるため、KWSモデルの開発にかかるコストと時間を削減できる。
それでも、TSが生成したデータは、実際のデータと比べて多様性に欠ける可能性がある。
限られた資源と現在のTS能力の制約下でのKWSモデルの精度の最大化を追求するため、実データ使用の最小化とTTS出力の多様性の最大化に焦点をあてて、TSデータと実際の人間の音声データを混在させる様々な戦略を検討した。
実験結果から,話者の多様性が比較的少ない実音声データ(100話者,2k発話)と多量のTTS合成データ(ベースラインの3倍誤差率)は,ベースライン(3.8M実肯定発話)と比較して合理的に高い精度が得られることが示された。
This paper explores the use of TTS synthesized training data for KWS (keyword spotting) task while minimizing development cost and time. Keyword spotting models require a huge amount of training data to be accurate, and obtaining such training data can be costly. In the current state of the art, TTS models can generate large amounts of natural-sounding data, which can help reducing cost and time for KWS model development. Still, TTS generated data can be lacking diversity compared to real data. To pursue maximizing KWS model accuracy under the constraint of limited resources and current TTS capability, we explored various strategies to mix TTS data and real human speech data, with a focus on minimizing real data use and maximizing diversity of TTS output. Our experimental results indicate that relatively small amounts of real audio data with speaker diversity (100 speakers, 2k utterances) and large amounts of TTS synthesized data can achieve reasonably high accuracy (within 3x error rate of baseline), compared to the baseline (trained with 3.8M real positive utterances). | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# 構造化環境の低ランク離散化によるオープン量子システムの効率的なモデリング
Effective Modeling of Open Quantum Systems by Low-rank Discretization of Structured Environments ( http://arxiv.org/abs/2407.18880v1 ) ライセンス: Link先を確認 | Hideaki Takahashi, Raffaele Borrelli, | (参考訳) 量子系とその環境との相互作用の正確な記述は、物理学のあらゆる領域にまたがる難しい問題であり、量子力学理論の基礎にある。
ここでは,システム-バス相関関数とスペクトル密度を結合するゆらぎ-散逸関係に符号化された周波数・時間領域情報を活用することにより,システム-環境相互作用の離散的低ランクモデルを作成するための新たな戦略を開拓する。
本研究では,テンソルネットワーク手法と組み合わせ,高度に構造化されたボソニック環境下での複素励起系の量子力学をシミュレーションすることにより,提案手法の有効性を実証する。
新しいモデリングフレームワークは、計算コストを大幅に削減した制御された精度を提供するオープン量子系の解析の飛躍の基盤と、すべての接続された研究領域における利点を規定する。
The accurate description of the interaction of a quantum system with a its environment is a challenging problem ubiquitous across all areas of physics, and lies at the foundation of quantum mechanics theory. Here we pioneer a new strategy to create discrete low-rank models of the system-environment interaction, by exploiting the frequency and time domain information encoded in the fluctuation-dissipation relation connecting the system-bath correlation function and the spectral density. We demonstrate the effectiveness of our methodology by combining it with tensor-network methodologies and simulating the quantum dynamics of a complex excitonic systems in a highly structured bosonic environment. The new modeling framework sets the basis for a leap in the analysis of open quantum systems providing controlled accuracy at significantly reduced computational costs, with benefits in all connected research areas. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# データの埋め込みとクラスタリングがコントラスト事前トレーニングを改善する
Embedding And Clustering Your Data Can Improve Contrastive Pretraining ( http://arxiv.org/abs/2407.18887v1 ) ライセンス: Link先を確認 | Luke Merrick, | (参考訳) テキスト埋め込み領域における大規模なコントラスト事前学習の研究は、混合ソースのミニバッチではなく、単一ソースのミニバッチを使用することで、モデル全体の精度を大幅に向上できることを示している。
本研究では、事前学習されたテキスト埋め込みモデルと古典的なk平均クラスタリングアルゴリズムを利用して、ソース内のセマンティッククラスタによってトレーニングデータをさらに分割することで、ソースの粒度を超えてトレーニングデータの成層化を拡大することを検討する。
MSMARCOトランジッション検索データセットからBERTベースのテキスト埋め込みモデルをクエリパスペア上で事前学習する場合,NDCG@10の顕著な増加が観察された。
さらに,我々は,TAS-B方法論のトピック・アウェア・サンプリング(TAS)の側面と近縁の近縁な近縁なマイニングの側面の両方に,クラスタリングのアプローチを概念的に結び付け,この統一的な視点が,コントラスト付き事前学習データの組織化に関する今後の研究を動機付けているかについて議論する。
Recent studies of large-scale contrastive pretraining in the text embedding domain show that using single-source minibatches, rather than mixed-source minibatches, can substantially improve overall model accuracy. In this work, we explore extending training data stratification beyond source granularity by leveraging a pretrained text embedding model and the classic k-means clustering algorithm to further split training data apart by the semantic clusters within each source. Experimentally, we observe a notable increase in NDCG@10 when pretraining a BERT-based text embedding model on query-passage pairs from the MSMARCO passage retrieval dataset. Additionally, we conceptually connect our clustering approach to both the Topic Aware Sampling (TAS) aspect of the TAS-B methodology and the nearest-neighbor-based hard-negative mining aspect of the ANCE methodology and discuss how this unified view motivates future lines of research on the organization of contrastive pretraining data. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# 言語特異的構文分離器による半構造的マージ
Semistructured Merge with Language-Specific Syntactic Separators ( http://arxiv.org/abs/2407.18888v1 ) ライセンス: Link先を確認 | Guilherme Cavalcanti, Paulo Borba, Leonardo dos Anjos, Jonatas Clementino, | (参考訳) 構造化マージツールは、プログラミング言語の構文構造を利用して、非構造化ツールによって報告される急激な競合を減らすことでマージ精度を向上させる。
フルASTの作成と処理によって、構造化ツールは言語固有のもので、実装が難しくなります。
これらの欠点を減らすために、半構造化されたマージツールは部分的なASTで動作し、文字列を使用してメソッド本体のような低レベルの構文構造を表現し、それらをマージするために非構造化ツールに依存している。
しかし、これはマージ精度の低下をもたらす。
半構造化マージの利点を損なうことなく精度を向上させるために,言語固有の構文分離器を用いて解析せずに構造を推論するツールを提案する。
低いレベルの構造をマージするための非構造化ツールを引き続き使用していますが、コードを前処理した後のみ、カーリーブレスのようなセパレータ間のテキストが別々の行に表示されるようにしています。
このようにして、構造化されたマージツールの能力をエミュレートし、その欠点を避けます。
ツールと半構造化マージの堅牢な実装を比較することで、私たちのツールが突発的な競合の数を大幅に減らすことが分かりました。
また、報告されたコンフリクトの総数、およびコンフリクトのファイルの大幅な削減も観察する。
しかし、構造化ツールと同様に、私たちのツールはより多くのマージコンフリクトが検出されないようにします。
我々のツールは、実際に広く使われている非構造化ツールよりも大幅に改善されている。
最後に、言語固有の構文セパレータを活用することで、ユニークなテキストアライメントの課題が生じることを観察する。
Structured merge tools exploit programming language syntactic structure to enhance merge accuracy by reducing spurious conflicts reported by unstructured tools. By creating and handling full ASTs, structured tools are language-specific and harder to implement. They can also be computationally expensive when merging large files.To reduce these drawbacks, semistructured merge tools work with partial ASTs that use strings to represent lower level syntactic structures such as method bodies, and rely on unstructured tools to merge them. This, however, results in merge accuracy loss. To improve accuracy without compromising semistructured merge benefits, we propose a tool that leverages language-specific syntactic separators to infer structure without parsing. We still resort to an unstructured tool to merge lower level structures, but only after preprocessing the code so that text in between separators such as curly braces appear in separate lines. This way we emulate the capabilities of structured merge tools while avoiding their drawbacks. By comparing our tool with a robust implementation of semistructured merge, we find that our tool substantially reduces the number of spurious conflicts. We also observe significant but less substantial reductions on the overall number of reported conflicts, and of files with conflicts. However, similar to structured tools, our tool lets more merge conflicts go undetected. Our tool shows significant improvements over unstructured tools widely used in practice. Finally we observe that exploiting language-specific syntactic separators introduces unique textual alignment challenges. | 翻訳日:2024-07-29 12:49:41 公開日:2024-07-26 |
# モーラルな選好励磁のための能動学習の課題と課題
On the Pros and Cons of Active Learning for Moral Preference Elicitation ( http://arxiv.org/abs/2407.18889v1 ) ライセンス: Link先を確認 | Vijay Keswani, Vincent Conitzer, Hoda Heidari, Jana Schaich Borg, Walter Sinnott-Armstrong, | (参考訳) 計算的嗜好推論法(英: Computational preference elicitation method)は、ある状況下で人々の嗜好を定量的に学習するために用いられるツールである。
近年の選好選好に関する研究は、エージェントの根底にある嗜好に最も有意義なクエリを反復的に構築する効率的な方法として、アクティブラーニングを提唱している。
本論では,道徳的嗜好の誘惑に積極的学習を用いることは,その根底にある道徳的嗜好に関する特定の仮定に依拠し,実際に違反する可能性があると論じる。
具体的には、以下の一般的な仮定を強調します。
a) 好みは時間とともに安定しており、提示されたクエリのシーケンスに敏感ではない。
(b)道徳的嗜好をモデル化する適切な仮説類を選択し、
(c) エージェントの応答のノイズは限られている。
これらの仮定は特定の領域において好意的推論に適しているが、道徳心理学に関する先行研究は、道徳的判断には有効でないことを示唆している。
上記の仮定に反する選好の合成シミュレーションにより、ある設定における基本的ランダムなクエリ選択法と、アクティブラーニングが類似または悪質な性能を持つことを観察する。
しかし、シミュレーションの結果は、不安定性やノイズの程度が比較的小さい場合や、エージェントの好みが学習に使用される仮説クラスとほぼ一致する場合においても、アクティブラーニングは引き続き有効であることを示した。
本研究は、実践における効果的な道徳的嗜好誘発に関連するニュアンスを強調し、道徳的嗜好を学習する方法論としてアクティブラーニングの慎重な利用を提唱する。
Computational preference elicitation methods are tools used to learn people's preferences quantitatively in a given context. Recent works on preference elicitation advocate for active learning as an efficient method to iteratively construct queries (framed as comparisons between context-specific cases) that are likely to be most informative about an agent's underlying preferences. In this work, we argue that the use of active learning for moral preference elicitation relies on certain assumptions about the underlying moral preferences, which can be violated in practice. Specifically, we highlight the following common assumptions (a) preferences are stable over time and not sensitive to the sequence of presented queries, (b) the appropriate hypothesis class is chosen to model moral preferences, and (c) noise in the agent's responses is limited. While these assumptions can be appropriate for preference elicitation in certain domains, prior research on moral psychology suggests they may not be valid for moral judgments. Through a synthetic simulation of preferences that violate the above assumptions, we observe that active learning can have similar or worse performance than a basic random query selection method in certain settings. Yet, simulation results also demonstrate that active learning can still be viable if the degree of instability or noise is relatively small and when the agent's preferences can be approximately represented with the hypothesis class used for learning. Our study highlights the nuances associated with effective moral preference elicitation in practice and advocates for the cautious use of active learning as a methodology to learn moral preferences. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# SHANGUS: 未知の空間における高速フロンティアに基づく自律走行車探索のためのヒューリスティックな最適化を実現する深層強化学習
SHANGUS: Deep Reinforcement Learning Meets Heuristic Optimization for Speedy Frontier-Based Exploration of Autonomous Vehicles in Unknown Spaces ( http://arxiv.org/abs/2407.18892v1 ) ライセンス: Link先を確認 | Seunghyeop Nam, Tuan Anh Nguyen, Eunmi Choi, Dugki Min, | (参考訳) 本稿では,深層強化学習(DRL)とヒューリスティック最適化を組み合わせた高度フレームワークであるSHANGUSを紹介する。
シャングスはDRLの適応性とヒューリスティックな優先順位付けを活用し、探索効率を著しく向上し、完了時間を短縮し、旅行距離を最小化している。
この戦略は、探索されていない領域を識別するフロンティア選択ノードと、ロバストパス計画と動的障害物回避のためのTwin Delayed Deep Deterministic Policy Gradient (TD3)アルゴリズムを用いたDRLナビゲーションノードを含む。
ROS2 と Gazebo のシミュレーション環境での大規模な実験は、SHANGUS がNF (Nearest Frontier) や New Frontier-Based Exploration Algorithm (CFE) や Goal-Driven Self Exploration (GDAE) アルゴリズムなど、特に複雑なシナリオにおいて、特に完了時間、旅行距離、探索速度などにおいて、代表的手法を超越していることを示している。
このスケーラブルなソリューションは、産業自動化、自律運転、家庭用ロボティクス、宇宙探査といった分野におけるリアルタイムの自律ナビゲーションに適している。
将来の研究は、SHANGUSの効率性と堅牢性をさらに向上するために、追加の感覚入力とヒューリスティック機能を統合する予定である。
This paper introduces SHANGUS, an advanced framework combining Deep Reinforcement Learning (DRL) with heuristic optimization to improve frontier-based exploration efficiency in unknown environments, particularly for intelligent vehicles in autonomous air services, search and rescue operations, and space exploration robotics. SHANGUS harnesses DRL's adaptability and heuristic prioritization, markedly enhancing exploration efficiency, reducing completion time, and minimizing travel distance. The strategy involves a frontier selection node to identify unexplored areas and a DRL navigation node using the Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm for robust path planning and dynamic obstacle avoidance. Extensive experiments in ROS2 and Gazebo simulation environments show SHANGUS surpasses representative traditional methods like the Nearest Frontier (NF), Novel Frontier-Based Exploration Algorithm (CFE), and Goal-Driven Autonomous Exploration (GDAE) algorithms, especially in complex scenarios, excelling in completion time, travel distance, and exploration rate. This scalable solution is suitable for real-time autonomous navigation in fields such as industrial automation, autonomous driving, household robotics, and space exploration. Future research will integrate additional sensory inputs and refine heuristic functions to further boost SHANGUS's efficiency and robustness. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# 進化的アルゴリズムを用いたロバスト多モード超伝導量子ビット
Robust multi-mode superconducting qubit designed with evolutionary algorithms ( http://arxiv.org/abs/2407.18895v1 ) ライセンス: Link先を確認 | P. García-Azorín, F. A. Cárdenas-López, G. B. P. Huber, G. Romero, M. Werninghaus, F. Motzoi, S. Filipp, M. Sanz, | (参考訳) マルチモード超伝導回路は、量子計算のための堅牢なシステムを構築するための有望なプラットフォームを提供する。
これまでの研究では、単一モードデバイスは保護要件の矛盾により複数のデコヒーレンスソースに対して同時にレジリエンスを示すことができないことが示されている。
対照的に、マルチモードシステムでは柔軟性が向上し、これらの基本的な制限を克服できることが証明されている。
それでも、ヒルベルト空間次元の指数的スケーリングのため、マルチモードアーキテクチャの探索は計算的に要求される。
本稿では,進化的最適化手法を用いて設計したマルチモードデバイスについて述べる。
提案装置は、量子ビット周波数の3分の1の非調和性と、電荷および磁束変動によるエネルギー分散の低減を最適化した。
トランスモンとフラクソニウムのコヒーレンスと操作の基本的なエラーを制限し、低脱分極誤差と高速操作のバランスを目標とし、さらに多くの提案されたマルチモードデバイスにおいて、製造エラーに対する堅牢性を示す。
全体として、結合行列要素とノイズ保護のバランスを崩すことで、超伝導量子プロセッサ構築の適切な特性を見出すための道を開く装置を提案する。
Multi-mode superconducting circuits offer a promising platform for engineering robust systems for quantum computation. Previous studies have shown that single-mode devices cannot simultaneously exhibit resilience against multiple decoherence sources due to conflicting protection requirements. In contrast, multi-mode systems offer increased flexibility and have proven capable of overcoming these fundamental limitations. Nevertheless, exploring multi-mode architectures is computationally demanding due to the exponential scaling of the Hilbert space dimension. Here, we present a multi-mode device designed using evolutionary optimization techniques, which have been shown to be effective for this computational task. The proposed device was optimized to feature an anharmonicity of a third of the qubit frequency and reduced energy dispersion caused by charge and magnetic flux fluctuations. It exhibits improvements over the fundamental errors limiting Transmon and Fluxonium coherence and manipulation, aiming for a balance between low depolarization error and fast manipulation; furthermore demonstrating robustness against fabrication errors, a major limitation in many proposed multi-mode devices. Overall, by striking a balance between coupling matrix elements and noise protection, we propose a device that paves the way towards finding proper characteristics for the construction of superconducting quantum processors. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# 大規模言語モデルを用いた小分子最適化
Small Molecule Optimization with Large Language Models ( http://arxiv.org/abs/2407.18897v1 ) ライセンス: Link先を確認 | Philipp Guevorguian, Menua Bedrosian, Tigran Fahradyan, Gayane Chilingaryan, Hrant Khachatrian, Armen Aghajanyan, | (参考訳) 大規模言語モデルの最近の進歩は、生成分子ドラッグデザインの新しい可能性を開いた。
計算特性を持つ110M分子の新規コーパスを微調整した2つの言語モデルであるChemlacticaとChemmaについて述べる。
これらのモデルは、特定の性質を持つ分子を生成し、限られたサンプルから新しい分子特性を予測する上で、強い性能を示す。
ブラックボックスオラクルへのアクセスに制限がある場合、言語モデルを利用して任意の特性の分子を最適化する新しい最適化アルゴリズムを導入する。
我々のアプローチは、遺伝的アルゴリズム、拒絶サンプリング、即時最適化のアイデアを組み合わせている。
複数の分子最適化ベンチマークの最先端性能を達成し、従来の手法と比較して、実用的分子最適化の8%の改善を含む。
トレーニングコーパス、言語モデル、最適化アルゴリズムを公開しています。
Recent advancements in large language models have opened new possibilities for generative molecular drug design. We present Chemlactica and Chemma, two language models fine-tuned on a novel corpus of 110M molecules with computed properties, totaling 40B tokens. These models demonstrate strong performance in generating molecules with specified properties and predicting new molecular characteristics from limited samples. We introduce a novel optimization algorithm that leverages our language models to optimize molecules for arbitrary properties given limited access to a black box oracle. Our approach combines ideas from genetic algorithms, rejection sampling, and prompt optimization. It achieves state-of-the-art performance on multiple molecular optimization benchmarks, including an 8% improvement on Practical Molecular Optimization compared to previous methods. We publicly release the training corpus, the language models and the optimization algorithm. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# 学習者から学ぶ:コントラストサンプリングとビジュアルパーシステンスによるソースフリーなアクティブドメイン適応
Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence ( http://arxiv.org/abs/2407.18899v1 ) ライセンス: Link先を確認 | Mengyao Lyu, Tianxiang Hao, Xinhao Xu, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding, | (参考訳) ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討し、適応時にソースデータがアクセス不能になり、ターゲットドメインで最小限のアノテーション予算が利用可能となる。
ソースデータを参照せずに、ラベル付けのための最も有益なターゲットサンプルを特定し、適応中にドメイン間のアライメントを確立し、反復的なクエリ・アンド・アダプティブ・プロセスを通じて継続的なパフォーマンス改善を確実にする、という新たな課題が浮かび上がっている。
これに対し、SFADAの新たなパラダイムであるLearledt (LFTL) を用いて、学習した学習知識を事前学習モデルから活用し、余分なオーバーヘッドを伴わずに積極的に反復したモデルを提示する。
本研究では,先行モデルの仮説から学習するためのコントラシティブアクティブサンプリングを提案する。
適応中、従来の中間モデルから選択されたアクティブなアンカーの特徴から学習し、視覚パーシステンス誘導適応により特徴分布のアライメントとアクティブなサンプル利用が容易になる。
広く使用されている3つのベンチマークにおいて,LFTLは,アノテーションの予算が増大するにつれて,最先端の性能,優れた計算効率,継続的な改善を達成できることを示す。
私たちのコードはhttps://github.com/lyumengyao/lftl.comで公開されています。
Domain Adaptation (DA) facilitates knowledge transfer from a source domain to a related target domain. This paper investigates a practical DA paradigm, namely Source data-Free Active Domain Adaptation (SFADA), where source data becomes inaccessible during adaptation, and a minimum amount of annotation budget is available in the target domain. Without referencing the source data, new challenges emerge in identifying the most informative target samples for labeling, establishing cross-domain alignment during adaptation, and ensuring continuous performance improvements through the iterative query-and-adaptation process. In response, we present learn from the learnt (LFTL), a novel paradigm for SFADA to leverage the learnt knowledge from the source pretrained model and actively iterated models without extra overhead. We propose Contrastive Active Sampling to learn from the hypotheses of the preceding model, thereby querying target samples that are both informative to the current model and persistently challenging throughout active learning. During adaptation, we learn from features of actively selected anchors obtained from previous intermediate models, so that the Visual Persistence-guided Adaptation can facilitate feature distribution alignment and active sample exploitation. Extensive experiments on three widely-used benchmarks show that our LFTL achieves state-of-the-art performance, superior computational efficiency and continuous improvements as the annotation budget increases. Our code is available at https://github.com/lyumengyao/lftl. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# AppWorld:インタラクティブコーディングエージェントをベンチマークするアプリケーションと人々のコントロール可能な世界
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents ( http://arxiv.org/abs/2407.18901v1 ) ライセンス: Link先を確認 | Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian, | (参考訳) 日々のデジタルタスク(例えば、家庭で食料品を注文するなど)に対処する自律エージェントは、API経由で複数のアプリ(例えば、メモ、メッセージング、ショッピングアプリ)を操作するだけでなく、環境とのインタラクションに基づいて、複雑な制御フローを持つリッチコードを生成する必要があります。
しかし、ツール使用のための既存のベンチマークは、単純なAPI呼び出しのシーケンスを必要とするタスクのみをカバーするため、不十分である。
このギャップを埋めるために、私たちは$\textbf{AppWorld Engine}$を構築しました。これは、9つの日々のアプリケーションの高品質な実行環境(60K行のコード)で、457のAPIを通して操作可能で、100人の架空のユーザの生活をシミュレートするリアルなデジタルアクティビティに満ちています。
次に$\textbf{AppWorld Benchmark}$ (40K行のコード)を作りました。
状態ベースの単体テストによる堅牢なプログラム的評価をサポートし、タスクを完了し、予期せぬ変更、すなわち副次的ダメージをチェックできる。
最先端のLCMであるGPT-4oは、我々の「通常の」タスクの49%と「混み合う」タスクの30%しか解決していないが、他のモデルは少なくとも16%少ない。
これは、ベンチマークの難しさと、インタラクティブなコーディングエージェントのフロンティアを推し進めるAppWorldの可能性を強調している。
プロジェクトのWebサイトはhttps://appworld.dev/.comで公開されている。
Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built $\textbf{AppWorld Engine}$, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created $\textbf{AppWorld Benchmark}$ (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# 学習からスピン"ペン"への教訓
Lessons from Learning to Spin "Pens" ( http://arxiv.org/abs/2407.18902v1 ) ライセンス: Link先を確認 | Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang, | (参考訳) ハンマーやスクリュードライバーのような道具も同じような形をしているので、ペンのような物体を手作業で操作することは私たちの日常生活にとって重要なスキルです。
しかし,従来の学習手法では,高品質な実演が欠如し,シミュレーションと実世界の間に大きなギャップがあるため,この課題に苦慮している。
本研究では,ペンのような物体を回転させる能力を示すことによって,学習に基づく手動操作システムの境界を推し進める。
まず、強化学習を用いて、特権情報でオラクルポリシーを訓練し、シミュレーションにおいて高忠実度軌道データセットを生成する。
これは2つの目的がある。
1) シミュレーションにおける感覚士政策の事前学習
2) 実世界におけるオープンループ軌道再生の実施。
次に、これらの実世界の軌道を用いて感覚運動のポリシーを微調整し、実世界の力学に適応させる。
50個未満の軌道で、我々のポリシーは、複数の革命のために異なる物理的特性を持つ10個以上のペンのような物体を回転させることを学ぶ。
デザイン選択の包括的分析を行い、開発中に学んだ教訓を共有します。
In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# 画像分類のためのスケーラブル量子非局所ニューラルネットワーク
A Scalable Quantum Non-local Neural Network for Image Classification ( http://arxiv.org/abs/2407.18906v1 ) ライセンス: Link先を確認 | Sparsh Gupta, Debanjan Konar, Vaneet Aggarwal, | (参考訳) 非局所的な操作は、局所的にのみ焦点を絞った従来の畳み込み操作の制約を超越して、入力全体の特徴の重み付けによる長距離依存の捕捉を可能にするコンピュータビジョンにおいて重要な役割を担っている。
非局所的な操作は通常、セット内のすべての要素間のペアワイズ関係の計算を必要とし、時間とメモリの2次的な複雑さをもたらす。
計算とメモリの要求が高いため、非局所ニューラルネットワークを大規模に拡張することは困難である。
本稿では、パターン認識を強化するために、量子非局所ニューラルネットワーク(QNL-Net)と呼ばれる、量子古典的スケーラブルな非局所ニューラルネットワークを紹介する。
提案したQNL-Netは、多くの入力特徴の同時処理を可能にするために、固有な量子並列性に依存しており、量子強化された特徴空間におけるより効率的な計算を可能にし、量子絡み合いによるペア関係を含む。
我々は,提案したQNL-Netを,MNISTとCIFAR-10の2値分類と比較した。
シミュレーションの結果,QNL-Netは量子分類器間の2値画像分類における最先端の精度レベルを実現し,量子ビットの削減を実現している。
Non-local operations play a crucial role in computer vision enabling the capture of long-range dependencies through weighted sums of features across the input, surpassing the constraints of traditional convolution operations that focus solely on local neighborhoods. Non-local operations typically require computing pairwise relationships between all elements in a set, leading to quadratic complexity in terms of time and memory. Due to the high computational and memory demands, scaling non-local neural networks to large-scale problems can be challenging. This article introduces a hybrid quantum-classical scalable non-local neural network, referred to as Quantum Non-Local Neural Network (QNL-Net), to enhance pattern recognition. The proposed QNL-Net relies on inherent quantum parallelism to allow the simultaneous processing of a large number of input features enabling more efficient computations in quantum-enhanced feature space and involving pairwise relationships through quantum entanglement. We benchmark our proposed QNL-Net with other quantum counterparts to binary classification with datasets MNIST and CIFAR-10. The simulation findings showcase our QNL-Net achieves cutting-edge accuracy levels in binary image classification among quantum classifiers while utilizing fewer qubits. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# ShiC:キーポイント・スーパービジョンなしの形状対応
SHIC: Shape-Image Correspondences with no Keypoint Supervision ( http://arxiv.org/abs/2407.18907v1 ) ライセンス: Link先を確認 | Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi, | (参考訳) 正準曲面マッピングは、オブジェクトの各ピクセルを3Dテンプレートの対応する点に割り当てることで、キーポイント検出を一般化する。
人間の分析のためにDensePoseによって人気を博した著者たちは、この概念をより多くのカテゴリーに適用しようとしたが、手作業による監督のコストが高いため、成功しなかった。
そこで本研究では,手動による指導を伴わずに標準地図を学習するShiCを紹介し,ほとんどのカテゴリにおいて教師付き手法よりも優れた結果が得られることを示す。
我々の考えは、DINOやStable Diffusionなどの基礎的なコンピュータビジョンモデルを活用することであり、これはオープンエンドであり、自然カテゴリーよりも優れた先行性を持つ。
ShiCは、基礎モデルの特徴を用いた画像から画像への対応を予測し、画像からテンプレートへの対応を推定する問題を低減している。
このリダクションは、オブジェクトのイメージとテンプレートの非フォトリアリスティックなレンダリングとをマッチングすることで機能し、このタスクのために手動のアノテーションを収集するプロセスをエミュレートする。
これらの対応は、任意の関心対象に対して高品質な標準写像を監督するために使用される。
また、画像生成装置はテンプレートビューのリアリズムをさらに改善し、モデルに対するさらなる監視源を提供することを示す。
Canonical surface mapping generalizes keypoint detection by assigning each pixel of an object to a corresponding point in a 3D template. Popularised by DensePose for the analysis of humans, authors have since attempted to apply the concept to more categories, but with limited success due to the high cost of manual supervision. In this work, we introduce SHIC, a method to learn canonical maps without manual supervision which achieves better results than supervised methods for most categories. Our idea is to leverage foundation computer vision models such as DINO and Stable Diffusion that are open-ended and thus possess excellent priors over natural categories. SHIC reduces the problem of estimating image-to-template correspondences to predicting image-to-image correspondences using features from the foundation models. The reduction works by matching images of the object to non-photorealistic renders of the template, which emulates the process of collecting manual annotations for this task. These correspondences are then used to supervise high-quality canonical maps for any object of interest. We also show that image generators can further improve the realism of the template views, which provide an additional source of supervision for the model. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# Wolf: World Summarization Frameworkですべてをカプセル化
Wolf: Captioning Everything with a World Summarization Framework ( http://arxiv.org/abs/2407.18908v1 ) ライセンス: Link先を確認 | Boyi Li, Ligeng Zhu, Ran Tian, Shuhan Tan, Yuxiao Chen, Yao Lu, Yin Cui, Sushant Veer, Max Ehrlich, Jonah Philion, Xinshuo Weng, Fuzhao Xue, Andrew Tao, Ming-Yu Liu, Sanja Fidler, Boris Ivanovic, Trevor Darrell, Jitendra Malik, Song Han, Marco Pavone, | (参考訳) We propose Wolf, a WOrLd summarization Framework for accurate video casting。
Wolfは自動キャプションフレームワークで、Vision Language Models (VLM)の相補的な強みを活用して、専門家の混在したアプローチを採用している。
画像モデルとビデオモデルの両方を利用することで,異なるレベルの情報を収集し,効率的に要約する。
本手法は,映像理解,自動ラベル付け,キャプションの強化に有効である。
キャプションの品質を評価するために,LLMベースの指標であるCapScoreを導入する。
さらに、包括的な比較を容易にするために、自律運転、一般的なシーン、ロボット工学という3つの領域に、人間による注釈付きデータセットを4つ構築します。
研究コミュニティ (VILA1.5, CogAgent) や商用ソリューション (Gemini-Pro-1.5, GPT-4V) の最先端手法と比較して, Wolf のキャプション性能は優れていた。
例えば、GPT-4Vと比較して、WolfはCapScoreの品質を55.6%改善し、類似度を77.4%改善した。
最後に、ビデオキャプションのベンチマークを確立し、ビデオ理解、キャプション、データのアライメントの進歩を加速することを目的としたリーダーボードを導入する。
リーダーボード:https://wolfv0.github.io/ Leaderboard.html
We propose Wolf, a WOrLd summarization Framework for accurate video captioning. Wolf is an automated captioning framework that adopts a mixture-of-experts approach, leveraging complementary strengths of Vision Language Models (VLMs). By utilizing both image and video models, our framework captures different levels of information and summarizes them efficiently. Our approach can be applied to enhance video understanding, auto-labeling, and captioning. To evaluate caption quality, we introduce CapScore, an LLM-based metric to assess the similarity and quality of generated captions compared to the ground truth captions. We further build four human-annotated datasets in three domains: autonomous driving, general scenes, and robotics, to facilitate comprehensive comparisons. We show that Wolf achieves superior captioning performance compared to state-of-the-art approaches from the research community (VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally, we establish a benchmark for video captioning and introduce a leaderboard, aiming to accelerate advancements in video understanding, captioning, and data alignment. Leaderboard: https://wolfv0.github.io/leaderboard.html. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# ハイブリッド要約統計:パワースペクトルを超えた神経弱レンズ推論
Hybrid summary statistics: neural weak lensing inference beyond the power spectrum ( http://arxiv.org/abs/2407.18909v1 ) ライセンス: Link先を確認 | T. Lucas Makinen, Tom Charnock, Natalia Porqueres, Axel Lapel, Alan Heavens, Benjamin D. Wandelt, | (参考訳) 推論問題では、データセット内の情報コンテンツの大部分をキャプチャする要約統計を定義できるドメイン知識がよくあります。
本稿では, 既定の要約では得られない余分な情報を抽出するために最適化された, 圧縮されたニューラルネットワークの要約統計によって, 物理に基づく要約が拡張されるハイブリッド手法を提案する。
結果の統計は、モデルパラメータのシミュレーションベースまたは暗黙の推論に対する非常に強力な入力である。
我々は,この情報最大化ニューラルネットワーク(IMNN)の一般化をトモグラフィ弱重力レンズ収束マップからの制約パラメータに適用し,角スペクトル推定を補完するために明示的に最適化された要約統計を求める。
暗黒物質シミュレーションの低雑音・高雑音状態における分解能について検討した。
私たちはそれを示します
一 情報更新形式は、すべての騒音体制における角パワースペクトルに匹敵する情報を少なくとも三時以上及び八時まで抽出する。
二 ネットワーク要約は、既存の二点要約を極めて補完するものであつて、
三 私たちのフォーマリズムは、より小さく、物理的にインフォームドされたアーキテクチャを持つネットワークを、漸近的に最適な推論を得るためには、はるかに少ないシミュレーションで、はるかに大きな回帰ネットワークと一致させることができる。
In inference problems, we often have domain knowledge which allows us to define summary statistics that capture most of the information content in a dataset. In this paper, we present a hybrid approach, where such physics-based summaries are augmented by a set of compressed neural summary statistics that are optimised to extract the extra information that is not captured by the predefined summaries. The resulting statistics are very powerful inputs to simulation-based or implicit inference of model parameters. We apply this generalisation of Information Maximising Neural Networks (IMNNs) to parameter constraints from tomographic weak gravitational lensing convergence maps to find summary statistics that are explicitly optimised to complement angular power spectrum estimates. We study several dark matter simulation resolutions in low- and high-noise regimes. We show that i) the information-update formalism extracts at least $3\times$ and up to $8\times$ as much information as the angular power spectrum in all noise regimes, ii) the network summaries are highly complementary to existing 2-point summaries, and iii) our formalism allows for networks with smaller, physically-informed architectures to match much larger regression networks with far fewer simulations needed to obtain asymptotically optimal inference. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# トレーニング中にグラフの畳み込みは本当に必要か?
Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation ( http://arxiv.org/abs/2407.18910v1 ) ライセンス: Link先を確認 | Weizhi Zhang, Liangwei Yang, Zihe Song, Henry Peng Zou, Ke Xu, Henry Peng Zou, Liancheng Fang, Philip S. Yu, | (参考訳) トレーニングレコメンデータシステム(RecSys)におけるグラフ畳み込みネットワーク(GCN)の効率性とスケーラビリティは、現実のアプリケーションへの展開を妨げている。
本稿では,学習段階におけるグラフ畳み込みの必要性を批判的に検証し,ライトポストトレーニンググラフ正規分方程式(LightGODE)という革新的な方法を提案する。
調査の結果,GCNの利点はトレーニングよりもテスト中に顕著であることが判明した。
そこでLightGODEは,GCNの計算集約的なメッセージパッシングを回避し,非パラメトリック連続グラフ常微分方程式(ODE)を用いてノード表現を動的にモデル化する,新しい学習後グラフ畳み込み手法を開発した。
このアプローチは、学習後の詳細なグラフ畳み込みを達成しつつ、元のトレーニング埋め込み空間の歪みを回避しながら、トレーニング時間を劇的に短縮する。
我々は、異なるスケールの複数の実世界のデータセットにまたがってモデルを検証し、LightGODEがGCNベースのモデルよりも効率と効率の点で優れているだけでなく、より深いグラフ畳み込み層に関連付けられた埋め込み不一致を著しく軽減することを示した。
我々のLightGODEは、RecSysトレーニングにおける一般的なパラダイムに挑戦し、グラフ畳み込みの役割を再評価し、効率的な大規模グラフベースのRecSysの開発を導く可能性を示唆しています。
The efficiency and scalability of graph convolution networks (GCNs) in training recommender systems (RecSys) have been persistent concerns, hindering their deployment in real-world applications. This paper presents a critical examination of the necessity of graph convolutions during the training phase and introduces an innovative alternative: the Light Post-Training Graph Ordinary-Differential-Equation (LightGODE). Our investigation reveals that the benefits of GCNs are more pronounced during testing rather than training. Motivated by this, LightGODE utilizes a novel post-training graph convolution method that bypasses the computation-intensive message passing of GCNs and employs a non-parametric continuous graph ordinary-differential-equation (ODE) to dynamically model node representations. This approach drastically reduces training time while achieving fine-grained post-training graph convolution to avoid the distortion of the original training embedding space, termed the embedding discrepancy issue. We validate our model across several real-world datasets of different scales, demonstrating that LightGODE not only outperforms GCN-based models in terms of efficiency and effectiveness but also significantly mitigates the embedding discrepancy commonly associated with deeper graph convolution layers. Our LightGODE challenges the prevailing paradigms in RecSys training and suggests re-evaluating the role of graph convolutions, potentially guiding future developments of efficient large-scale graph-based RecSys. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# HRP:ロボットによる事前訓練のための人的知識
HRP: Human Affordances for Robotic Pre-Training ( http://arxiv.org/abs/2407.18911v1 ) ライセンス: Link先を確認 | Mohan Kumar Srirama, Sudeep Dasari, Shikhar Bahl, Abhinav Gupta, | (参考訳) 野生の様々なタスクに*を一般化するためには、ロボットが高次元の視覚入力を与えられた最適な行動を予測するのに適した表現(ビジョンネットワーク)が必要である。
しかし、そのような表現を学習するには極端に多様な訓練データが必要であるため、実際のロボットで収集するのは極めて高価である。
この問題をどうやって克服できるのか?
そこで本研究では、ロボットデータを集める代わりに、インターネットスケールの人間ビデオを用いて、環境とエージェントレベルの双方で「アクダクタンス」を抽出し、それらを事前訓練された表現に抽出する手法を提案する。
本稿では,手,オブジェクト,連絡先の表現を事前学習するためのシンプルなフレームワークについて述べる。
これらの余裕は人間のビデオデータから自動的に抽出され(市販のコンピュータビジョンモジュールの助けを借りて)、既存の表現を微調整するために使用される。
われわれのアプローチは、既存の表現を効率よく微調整でき、その結果、より強力な下流ロボット性能のモデルが得られる。
実世界の5つのタスクにおいて,3つの多様なロボット形態(器用な手を含む)を考慮し,その性能を最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
この分野における以前の作業とは異なり、これらの表現は3つの異なるカメラビューのパフォーマンスを改善する。
定量的に見ると,本手法は分布外設定における一般化のレベルを高くする。
コード、重み、データチェックについては、https://hrp-robot.github.io
In order to *generalize* to various tasks in the wild, robotic agents will need a suitable representation (i.e., vision network) that enables the robot to predict optimal actions given high dimensional vision inputs. However, learning such a representation requires an extreme amount of diverse training data, which is prohibitively expensive to collect on a real robot. How can we overcome this problem? Instead of collecting more robot data, this paper proposes using internet-scale, human videos to extract "affordances," both at the environment and agent level, and distill them into a pre-trained representation. We present a simple framework for pre-training representations on hand, object, and contact "affordance labels" that highlight relevant objects in images and how to interact with them. These affordances are automatically extracted from human video data (with the help of off-the-shelf computer vision modules) and used to fine-tune existing representations. Our approach can efficiently fine-tune *any* existing representation, and results in models with stronger downstream robotic performance across the board. We experimentally demonstrate (using 3000+ robot trials) that this affordance pre-training scheme boosts performance by a minimum of 15% on 5 real-world tasks, which consider three diverse robot morphologies (including a dexterous hand). Unlike prior works in the space, these representations improve performance across 3 different camera views. Quantitatively, we find that our approach leads to higher levels of generalization in out-of-distribution settings. For code, weights, and data check: https://hrp-robot.github.io | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# SOAP-RL:POMDP環境における強化学習のための逐次オプションアドバンテージプロパゲーション
SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments ( http://arxiv.org/abs/2407.18913v1 ) ライセンス: Link先を確認 | Shu Ishida, João F. Henriques, | (参考訳) この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。
オプションの1つの見解は、時間的に拡張されたアクションであり、エージェントがポリシーのコンテキストウィンドウを越えて歴史的な情報を保持できるメモリとして実現することができる。
オプションの割り当てはヒューリスティックスと手作りの目的を使って扱うことができるが、時間的に一貫した選択肢と関連するサブ政治を明示的な監督なしに学ぶことは困難である。
PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
PPOEM は (Hidden Markov Models の)フォワードバックワードアルゴリズムを適用して,オプション拡張ポリシに対する期待リターンを最適化する。
しかし、この学習アプローチは、オン・ポリティクスのロールアウト中に不安定である。
オプションの割り当ては、エピソード全体が利用可能なオフラインシーケンスに最適化されているため、将来の軌跡を知ることなく因果ポリシーを学ぶのにも適していない。
別のアプローチとして、SOAPは最適なオプション割り当てのためのポリシー勾配を評価します。
これは、GAE(Generalized advantage estimation)の概念を拡張して、オプションの利点を時間を通して伝播させ、オプションポリシー勾配の時間的バックプロパゲーションの実行と等価な分析を行う。
このオプションポリシーは、エージェントの歴史にのみ条件付きであり、将来のアクションではない。
競合するベースラインに対して評価され、SOAPは最も堅牢なパフォーマンスを示し、POMDPの廊下環境と、AtariやMuJoCoなどの標準ベンチマーク、PPOEM、LSTM、Option-Criticベースラインを正しく検出した。
オープンソースコードはhttps://github.com/shuishida/SoapRL.comで公開されている。
This work compares ways of extending Reinforcement Learning algorithms to Partially Observed Markov Decision Processes (POMDPs) with options. One view of options is as temporally extended action, which can be realized as a memory that allows the agent to retain historical information beyond the policy's context window. While option assignment could be handled using heuristics and hand-crafted objectives, learning temporally consistent options and associated sub-policies without explicit supervision is a challenge. Two algorithms, PPOEM and SOAP, are proposed and studied in depth to address this problem. PPOEM applies the forward-backward algorithm (for Hidden Markov Models) to optimize the expected returns for an option-augmented policy. However, this learning approach is unstable during on-policy rollouts. It is also unsuited for learning causal policies without the knowledge of future trajectories, since option assignments are optimized for offline sequences where the entire episode is available. As an alternative approach, SOAP evaluates the policy gradient for an optimal option assignment. It extends the concept of the generalized advantage estimation (GAE) to propagate option advantages through time, which is an analytical equivalent to performing temporal back-propagation of option policy gradients. This option policy is only conditional on the history of the agent, not future actions. Evaluated against competing baselines, SOAP exhibited the most robust performance, correctly discovering options for POMDP corridor environments, as well as on standard benchmarks including Atari and MuJoCo, outperforming PPOEM, as well as LSTM and Option-Critic baselines. The open-sourced code is available at https://github.com/shuishida/SoapRL. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# Floating No More: 1枚の画像からオブジェクト・グラウンドを再構築する
Floating No More: Object-Ground Reconstruction from a Single Image ( http://arxiv.org/abs/2407.18914v1 ) ライセンス: Link先を確認 | Yunze Man, Yichen Sheng, Jianming Zhang, Liang-Yan Gui, Yu-Xiong Wang, | (参考訳) 単一画像からの3次元物体再構成の進歩は主に物体形状の精度の向上に焦点を当てている。
しかし、これらの技術は、オブジェクト、グラウンド、カメラ間の相互関係を正確に捉えるのに失敗することが多い。
その結果、復元された物体は平らな表面に置かれると浮いているか傾いていることが多い。
この制限は、影のレンダリングやオブジェクトのポーズ操作といった3D画像編集アプリケーションに大きく影響する。
そこで我々は,3次元物体形状の再構成を目的としたORG(Object Restruction with Ground)を提案する。
提案手法では,2つのコンパクトなピクセルレベル表現を用いて,カメラ,オブジェクト,グラウンドの関係を表現している。
実験により,提案したORGモデルにより,未確認データ上でのオブジェクト・グラウンド・ジオメトリを効果的に再構築することが可能であり,従来の単像3次元再構成技術と比較して影生成やポーズ操作の質が著しく向上することが示された。
Recent advancements in 3D object reconstruction from single images have primarily focused on improving the accuracy of object shapes. Yet, these techniques often fail to accurately capture the inter-relation between the object, ground, and camera. As a result, the reconstructed objects often appear floating or tilted when placed on flat surfaces. This limitation significantly affects 3D-aware image editing applications like shadow rendering and object pose manipulation. To address this issue, we introduce ORG (Object Reconstruction with Ground), a novel task aimed at reconstructing 3D object geometry in conjunction with the ground surface. Our method uses two compact pixel-level representations to depict the relationship between camera, object, and ground. Experiments show that the proposed ORG model can effectively reconstruct object-ground geometry on unseen data, significantly enhancing the quality of shadow generation and pose manipulation compared to conventional single-image 3D reconstruction techniques. | 翻訳日:2024-07-29 12:39:55 公開日:2024-07-26 |
# 合成データ、類似性に基づくプライバシメトリクス、および規制(ノン-)コンプライアンス
Synthetic Data, Similarity-based Privacy Metrics, and Regulatory (Non-)Compliance ( http://arxiv.org/abs/2407.16929v2 ) ライセンス: Link先を確認 | Georgi Ganev, | (参考訳) 本稿では,類似性に基づくプライバシメトリクスが,合成データの規制コンプライアンスを保証できないことを論じる。
我々の分析と反例は、歌い出しやリンク性から保護されていないことを示し、基本的な問題として、モチベーションのある侵入者テストを完全に無視している。
In this paper, we argue that similarity-based privacy metrics cannot ensure regulatory compliance of synthetic data. Our analysis and counter-examples show that they do not protect against singling out and linkability and, among other fundamental issues, completely ignore the motivated intruder test. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# プログレッシブラーニングによる感情行動分析
Affective Behaviour Analysis via Progressive Learning ( http://arxiv.org/abs/2407.16945v2 ) ライセンス: Link先を確認 | Chen Liu, Wei Zhang, Feng Qiu, Lincheng Li, Xin Yu, | (参考訳) 感情行動分析(Affective Behavior Analysis)は、人間の感情を認識し、反応できる感情知的な技術を開発することを目的とする。
これを進めるために、第7回Affective Behavior Analysis in-the-Wild (ABAW)コンペティションは、マルチタスク学習(MTL)チャレンジと、Aff-Wild2とC-EXPR-DBデータセットに基づく複合表現(CE)チャレンジの2つのトラックを確立する。
本稿では,2つの競合トラックに対する提案手法と実験結果について述べる。
具体的には、以下の4つの側面で要約できる。
1) 高品質な顔機能を実現するために, マスケッドオートエンコーダを自己指導的に訓練する。
2) 時間収束モジュールを考案し,ビデオフレーム間の時間的情報を取得し,各サブタスクにおけるウィンドウサイズとシーケンス長の影響を探索する。
3) 各種サブタスクの協調最適化を容易にするため, タスク毎の性能改善に対するサブタスク共同訓練と個別タスクからの特徴融合の影響について検討した。
4) カリキュラム学習を利用して, 単一表現の認識から複合表現の認識へモデルを移行し, 複合表現の認識精度を向上させる。
大規模な実験は、我々の設計の優越性を実証している。
Affective Behavior Analysis aims to develop emotionally intelligent technology that can recognize and respond to human emotions. To advance this, the 7th Affective Behavior Analysis in-the-wild (ABAW) competition establishes two tracks: i.e., the Multi-task Learning (MTL) Challenge and the Compound Expression (CE) challenge based on Aff-Wild2 and C-EXPR-DB datasets. In this paper, we present our methods and experimental results for the two competition tracks. Specifically, it can be summarized in the following four aspects: 1) To attain high-quality facial features, we train a Masked-Auto Encoder in a self-supervised manner. 2) We devise a temporal convergence module to capture the temporal information between video frames and explore the impact of window size and sequence length on each sub-task. 3) To facilitate the joint optimization of various sub-tasks, we explore the impact of sub-task joint training and feature fusion from individual tasks on each task performance improvement. 4) We utilize curriculum learning to transition the model from recognizing single expressions to recognizing compound expressions, thereby improving the accuracy of compound expression recognition. Extensive experiments demonstrate the superiority of our designs. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# Few-shot CLIPのための選択的な視覚言語部分空間投影
Selective Vision-Language Subspace Projection for Few-shot CLIP ( http://arxiv.org/abs/2407.16977v2 ) ライセンス: Link先を確認 | Xingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang, Yanbin Hao, Hanwang Zhang, | (参考訳) CLIPのような視覚言語モデルは、異なるモダリティデータを統一された特徴空間にマッピングすることができ、与えられた画像やテキストの類似度を測定してゼロ/フェーショット推論を可能にする。
しかし、既存のほとんどの手法は、CLIPの符号化された特徴のモダリティギャップを見落としている。
この問題に対処するため,SSP (Selective Vision-Language Subspace Projection) と呼ばれる手法を導入する。
具体的には,視覚プロジェクタと言語プロジェクタの2つの並列モジュールで構成されている。
どちらのプロジェクタも、ローカルな画像特徴を利用して、画像とテキストのサブスペースにまたがって、画像とテキストの特徴をそれぞれのサブスペースに投影し、アライメントを実現する。
さらに,本手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
11のデータセットに対する大規模な実験は、SSPの優れたテキストイメージアライメント能力を示し、最先端アライメント方法よりも優れています。
コードはhttps://github.com/zhuhsingyuu/SSPで入手できる。
Vision-language models such as CLIP are capable of mapping the different modality data into a unified feature space, enabling zero/few-shot inference by measuring the similarity of given images and texts. However, most existing methods overlook modality gaps in CLIP's encoded features, which is shown as the text and image features lie far apart from each other, resulting in limited classification performance. To tackle this issue, we introduce a method called Selective Vision-Language Subspace Projection (SSP), which incorporates local image features and utilizes them as a bridge to enhance the alignment between image-text pairs. Specifically, our SSP framework comprises two parallel modules: a vision projector and a language projector. Both projectors utilize local image features to span the respective subspaces for image and texts, thereby projecting the image and text features into their respective subspaces to achieve alignment. Moreover, our approach entails only training-free matrix calculations and can be seamlessly integrated into advanced CLIP-based few-shot learning frameworks. Extensive experiments on 11 datasets have demonstrated SSP's superior text-image alignment capabilities, outperforming the state-of-the-art alignment methods. The code is available at https://github.com/zhuhsingyuu/SSP | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# 量子カオス可積分遷移の秩序パラメータとしてのクリロフ複雑性
Krylov complexity as an order parameter for quantum chaotic-integrable transitions ( http://arxiv.org/abs/2407.17054v2 ) ライセンス: Link先を確認 | Matteo Baggioli, Kyoung-Bum Huh, Hyun-Sik Jeong, Keun-Young Kim, Juan F. Pedraza, | (参考訳) Krylov複雑性は、最近、多体システムにおける量子カオスを特徴付ける新しいパラダイムとして登場した。
しかしながら、クリャロフ複雑性の特徴は量子カオスシステムの先駆的であり、スペクトル統計学やOTOC(out-of-time-order correlator)のようなより標準的なプローブとどのように関係するかは未解決のままである。
近年の知見によると、量子カオス系では、Krylov状態の複雑性は、よく理解された深夜高原に沈む前に、時間進化の間にはっきりとしたピークを示す。
本研究では、このKrylov複雑性ピーク(KCP)が量子カオスシステムの目印であり、その高さが量子カオスの「順序パラメータ」として機能することを提案する。
我々は、KCPが、質量変形したSachdev-Ye-Kitaevモデルにおけるカオス可積分遷移を、スペクトル統計学およびOTOCsの結果と整合して、無限温度と有限温度の両方で効果的に同定することを示した。
我々の発見は、演算子に依存しない新しい量子カオスの診断ツールを提供し、より「ユニバーサル」な洞察と、量子カオスシステムにおける一般的な性質のより深い理解をもたらす可能性がある。
Krylov complexity has recently emerged as a new paradigm to characterize quantum chaos in many-body systems. However, which features of Krylov complexity are prerogative of quantum chaotic systems and how they relate to more standard probes, such as spectral statistics or out-of-time-order correlators (OTOCs), remain open questions. Recent insights have revealed that in quantum chaotic systems Krylov state complexity exhibits a distinct peak during time evolution before settling into a well-understood late-time plateau. In this work, we propose that this Krylov complexity peak (KCP) is a hallmark of quantum chaotic systems and suggest that its height could serve as an `order parameter' for quantum chaos. We demonstrate that the KCP effectively identifies chaotic-integrable transitions in the mass-deformed Sachdev-Ye-Kitaev model at both infinite and finite temperature, aligning with results from spectral statistics and OTOCs. Our findings offer a new diagnostic tool for quantum chaos that is operator-independent, potentially leading to more `universal' insights and a deeper understanding of general properties in quantum chaotic systems. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# DenseTrack:密度認識型モーション・アウェアランス・シナジーによるドローンによる群集追跡
DenseTrack: Drone-based Crowd Tracking via Density-aware Motion-appearance Synergy ( http://arxiv.org/abs/2407.17272v2 ) ライセンス: Link先を確認 | Yi Lei, Huilin Zhu, Jingling Yuan, Guangli Xiang, Xian Zhong, Shengfeng He, | (参考訳) ドローンによる群集の追跡は、物体を空中から正確に識別し、監視するのに困難に直面している。
これらの課題に対処するために、密度認識追跡(DenseTrack)フレームワークを提案する。
DenseTrackは、群衆のカウントに乗じて、オブジェクトの位置を正確に決定し、視覚とモーションのキューを混ぜて、小規模オブジェクトの追跡を改善する。
具体的には、追跡精度と信頼性を高めるために、クロスフレーム動作の問題に対処する。
DenseTrackは、ビデオフレーム内の正確なオブジェクトローカライゼーションのためのアンカーとして、群衆密度推定を使用している。
これらの推定値は、トラッキングネットワークからのモーションと位置情報とマージされ、キートラッキングキューとして動作オフセットが機能する。
さらに、DenseTrackは、視覚言語モデルからの洞察を用いて小さなオブジェクトを区別する機能を強化し、外観をモーションキューに統合する。
このフレームワークはハンガリーのアルゴリズムを利用して、フレーム間の個人間の正確なマッチングを保証する。
DroneCrowdのデータセットを例にとり、当社のアプローチは優れたパフォーマンスを示し、ドローンが捉えたシナリオにおける有効性を確認した。
Drone-based crowd tracking faces difficulties in accurately identifying and monitoring objects from an aerial perspective, largely due to their small size and close proximity to each other, which complicates both localization and tracking. To address these challenges, we present the Density-aware Tracking (DenseTrack) framework. DenseTrack capitalizes on crowd counting to precisely determine object locations, blending visual and motion cues to improve the tracking of small-scale objects. It specifically addresses the problem of cross-frame motion to enhance tracking accuracy and dependability. DenseTrack employs crowd density estimates as anchors for exact object localization within video frames. These estimates are merged with motion and position information from the tracking network, with motion offsets serving as key tracking cues. Moreover, DenseTrack enhances the ability to distinguish small-scale objects using insights from the visual-language model, integrating appearance with motion cues. The framework utilizes the Hungarian algorithm to ensure the accurate matching of individuals across frames. Demonstrated on DroneCrowd dataset, our approach exhibits superior performance, confirming its effectiveness in scenarios captured by drones. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# 品質保証:AIイメージングにおけるアノテーション戦略の再考
Quality Assured: Rethinking Annotation Strategies in Imaging AI ( http://arxiv.org/abs/2407.17596v2 ) ライセンス: Link先を確認 | Tim Rädsch, Annika Reinke, Vivienn Weru, Minu D. Tizabi, Nicholas Heller, Fabian Isensee, Annette Kopp-Schneider, Lena Maier-Hein, | (参考訳) 本稿では,新しい手法について述べる。
代わりに、信頼性の高いベンチマークと、最終的にはAIベースの画像分析の現実的な応用のための重要な基盤、すなわち高品質な参照アノテーションを生成する。
これまでの研究は、アノテーションをアウトソーシングする手段としてクラウドソーシングに重点を置いてきた。
しかしながら、アノテーション会社、特に内部品質保証(QA)プロセスについてはほとんど注目されていない。
そこで本研究の目的は、アノテーション会社によるQAがアノテーションの品質に与える影響を評価し、データアノテーションの有効性を最大化するための方法論を考案することである。
アノテーション会社4社とアマゾン・メカニカル・トルク(MTurk)の計924社と34人のQAワーカーから得られた57,648件のインスタンス分割画像から,(1)アノテーション会社は,広く使用されているMTurkと比較して,量と品質の両面で優れているという知見を得た。
2 アノテーション会社の内部QAは、もしあれば、限界的な改善しか提供しない。
しかし、QAに投資する代わりにラベリング命令を改善することで、アノテーションのパフォーマンスを大幅に向上させることができる。
3) 内部QAの利点は, 特定の画像特性に依存する。
我々の研究により、研究者は固定されたアノテーション予算からかなり多くの価値を導き出し、アノテーション会社が内部のQAを行う方法を変えることができます。
This paper does not describe a novel method. Instead, it studies an essential foundation for reliable benchmarking and ultimately real-world application of AI-based image analysis: generating high-quality reference annotations. Previous research has focused on crowdsourcing as a means of outsourcing annotations. However, little attention has so far been given to annotation companies, specifically regarding their internal quality assurance (QA) processes. Therefore, our aim is to evaluate the influence of QA employed by annotation companies on annotation quality and devise methodologies for maximizing data annotation efficacy. Based on a total of 57,648 instance segmented images obtained from a total of 924 annotators and 34 QA workers from four annotation companies and Amazon Mechanical Turk (MTurk), we derived the following insights: (1) Annotation companies perform better both in terms of quantity and quality compared to the widely used platform MTurk. (2) Annotation companies' internal QA only provides marginal improvements, if any. However, improving labeling instructions instead of investing in QA can substantially boost annotation performance. (3) The benefit of internal QA depends on specific image characteristics. Our work could enable researchers to derive substantially more value from a fixed annotation budget and change the way annotation companies conduct internal QA. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# リッチ表現を学習するUnsqueeze [CLS] Bottleneck
Unsqueeze [CLS] Bottleneck to Learn Rich Representations ( http://arxiv.org/abs/2407.17671v2 ) ライセンス: Link先を確認 | Qing Su, Shihao Ji, | (参考訳) 蒸留に基づく自己教師付き学習は、急進的なクラスタリングプロセスとよりシャープなターゲット分布の実装により、一般的により圧縮された表現をもたらす。
この制限を克服し、より多くの情報を入力から保存するために、Unsqueezed Distillation-based self-supervised learning (SSL)として概念化されたUDIを導入する。
UDIは、階層化サンプリングによって導出される局所予測の統合プロファイルから抽出されたマルチモーダル予測を奨励することにより、学習された表現を豊かにする。
評価の結果, UDIは画像分類において, 意味的に意味のある表現を推進し, 最先端のSSL手法に優れた結果をもたらすだけでなく, 入力のニュアンスを効果的に保ち, オブジェクト検出やセグメンテーションなどの密接な予測タスクを大幅に改善することが示された。
さらに、UDIはローショット画像分類において競合的に機能し、共同埋め込みパイプラインのスケーラビリティを向上させる。
UDIの背後にあるメカニズムをさらに解明するために、様々な可視化とアブレーション研究が提示されている。
ソースコードはhttps://github.com/ISL-CV/udi.comで公開されています。
Distillation-based self-supervised learning typically leads to more compressed representations due to its radical clustering process and the implementation of a sharper target distribution. To overcome this limitation and preserve more information from input, we introduce UDI, conceptualized as Unsqueezed Distillation-based self-supervised learning (SSL). UDI enriches the learned representation by encouraging multimodal prediction distilled from a consolidated profile of local predictions that are derived via stratified sampling. Our evaluations show that UDI not only promotes semantically meaningful representations at instance level, delivering superior or competitive results to state-of-the-art SSL methods in image classification, but also effectively preserves the nuisance of input, which yields significant improvement in dense prediction tasks, including object detection and segmentation. Additionally, UDI performs competitively in low-shot image classification, improving the scalability of joint-embedding pipelines. Various visualizations and ablation studies are presented to further elucidate the mechanisms behind UDI. Our source code is available at https://github.com/ISL-CV/udi. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# スタンス分類における大規模言語モデル性能に対する政治的バイアスの影響の検討
Examining the Influence of Political Bias on Large Language Model Performance in Stance Classification ( http://arxiv.org/abs/2407.17688v2 ) ライセンス: Link先を確認 | Lynnette Hui Xian Ng, Iain Cruickshank, Roy Ka-Wei Lee, | (参考訳) 大規模言語モデル(LLM)は、自然言語クエリに基づいてタスクを実行する際、顕著な能力を示した。
しかし、これらのモデルは訓練されたデータセットに基づいて訓練され、本質的に人種的から民族的、性別的バイアスまで幅広いバイアスを具現化している。
これらのバイアスが特定のタスクにおけるLLMの性能に影響を及ぼすかどうかは不明である。
本研究では,姿勢分類課題におけるLCMの政治的バイアスについて検討し,これらのモデルが政治的に補充された姿勢をより正確に分類する傾向を示すかを検討した。
3つのデータセットと7つのLCMと4つの異なるプロンプトスキームを用いて、政治的に指向したステートメントとターゲット上でのLCMの性能を分析した。
本研究は,様々な政治的指向性姿勢分類課題において,LSMの性能に統計的に有意な差が認められた。
さらに、この差はデータセットレベルで主に現れており、異なるスタンス分類データセット間で統計的に類似したパフォーマンスを示すモデルとプロンプトスキームがある。
最後に、文が目的とする対象にあいまいさがある場合、LCMは分類精度が低くなることを観察する。
Code & Dataset: http://doi.org/10.5281/zenodo.12938478
Large Language Models (LLMs) have demonstrated remarkable capabilities in executing tasks based on natural language queries. However, these models, trained on curated datasets, inherently embody biases ranging from racial to national and gender biases. It remains uncertain whether these biases impact the performance of LLMs for certain tasks. In this study, we investigate the political biases of LLMs within the stance classification task, specifically examining whether these models exhibit a tendency to more accurately classify politically-charged stances. Utilizing three datasets, seven LLMs, and four distinct prompting schemes, we analyze the performance of LLMs on politically oriented statements and targets. Our findings reveal a statistically significant difference in the performance of LLMs across various politically oriented stance classification tasks. Furthermore, we observe that this difference primarily manifests at the dataset level, with models and prompting schemes showing statistically similar performances across different stance classification datasets. Lastly, we observe that when there is greater ambiguity in the target the statement is directed towards, LLMs have poorer stance classification accuracy. Code & Dataset: http://doi.org/10.5281/zenodo.12938478 | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# Kolmogorov-Arnoldネットワークの分類における限界を探る:ソフトウェアトレーニングとハードウェア実装への視点
Exploring the Limitations of Kolmogorov-Arnold Networks in Classification: Insights to Software Training and Hardware Implementation ( http://arxiv.org/abs/2407.17790v2 ) ライセンス: Link先を確認 | Van Duy Tran, Tran Xuan Hieu Le, Thi Diem Tran, Hoai Luan Pham, Vu Trung Duong Le, Tuan Hai Vu, Van Tinh Nguyen, Yasuhiko Nakashima, | (参考訳) 新たなタイプのニューラルネットワークであるKolmogorov-Arnold Networks(KAN)は、人工知能(AI)における多層認識(MLP)の精度と相互運用性の向上により、最近人気と注目を集めている。
しかし、カンアセスメントはまだ限られており、特定のドメインの詳細な分析は提供できない。
さらに,ハードウェア設計におけるkanの実装についての研究は行われていない。
そこで本研究では,4種類のデータセットを用いて,AIにおいて一般的だが重要なトピックである分類問題に対するkanの検証に焦点をあてる。
さらに、Vitis High-level synthesis (HLS) ツールを用いて、対応するハードウェアの実装を検討する。
我々の知る限りでは、kan向けのハードウェアを実装する最初の記事である。
以上の結果から,kansは,極めて高いハードウェアリソースを生かしながら,複雑なデータセットのMPPよりも高い精度を達成できないことが示唆された。
したがって、MLPはソフトウェアとハードウェアの実装において精度と効率を達成するための効果的なアプローチであり続けている。
Kolmogorov-Arnold Networks (KANs), a novel type of neural network, have recently gained popularity and attention due to the ability to substitute multi-layer perceptions (MLPs) in artificial intelligence (AI) with higher accuracy and interoperability. However, KAN assessment is still limited and cannot provide an in-depth analysis of a specific domain. Furthermore, no study has been conducted on the implementation of KANs in hardware design, which would directly demonstrate whether KANs are truly superior to MLPs in practical applications. As a result, in this paper, we focus on verifying KANs for classification issues, which are a common but significant topic in AI using four different types of datasets. Furthermore, the corresponding hardware implementation is considered using the Vitis high-level synthesis (HLS) tool. To the best of our knowledge, this is the first article to implement hardware for KAN. The results indicate that KANs cannot achieve more accuracy than MLPs in high complex datasets while utilizing substantially higher hardware resources. Therefore, MLP remains an effective approach for achieving accuracy and efficiency in software and hardware implementation. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# 高度な時間的行動検出のためのハーネスング時間的因果性
Harnessing Temporal Causality for Advanced Temporal Action Detection ( http://arxiv.org/abs/2407.17792v2 ) ライセンス: Link先を確認 | Shuming Liu, Lin Sui, Chen-Lin Zhang, Fangzhou Mu, Chen Zhao, Bernard Ghanem, | (参考訳) 時系列ビデオ理解の基本的な課題として、時間的行動検出(TAD)は、未編集ビデオにおける固有の時間的関係を捉え、正確な境界を持つ候補行動を特定することを目的としている。
長年にわたり、TADの効果的な時間的モデリングのために、畳み込み、グラフ、変換器などの様々なネットワークが検討されてきた。
しかしながら、これらのモジュールは通常、過去の情報と将来の情報を等しく扱い、アクション境界の変化が本質的に因果事象である重要な事実を見越す。
この知見にインスパイアされた本研究では,行動の時間的因果性を活用して,モデルが過去や将来の文脈にのみアクセスすることを制限し,TAD表現を強化することを提案する。
因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
特に、CausalTADでは、EPIC-Kitchens Challenge 2024において、Action Recognition, Action Detection, and Audio-Based Interaction Detection trackで1位、Ego4D Challenge 2024ではMoment Queries trackで1位にランクインした。
私たちのコードはhttps://github.com/sming256/OpenTAD/で利用可能です。
As a fundamental task in long-form video understanding, temporal action detection (TAD) aims to capture inherent temporal relations in untrimmed videos and identify candidate actions with precise boundaries. Over the years, various networks, including convolutions, graphs, and transformers, have been explored for effective temporal modeling for TAD. However, these modules typically treat past and future information equally, overlooking the crucial fact that changes in action boundaries are essentially causal events. Inspired by this insight, we propose leveraging the temporal causality of actions to enhance TAD representation by restricting the model's access to only past or future context. We introduce CausalTAD, which combines causal attention and causal Mamba to achieve state-of-the-art performance on multiple benchmarks. Notably, with CausalTAD, we ranked 1st in the Action Recognition, Action Detection, and Audio-Based Interaction Detection tracks at the EPIC-Kitchens Challenge 2024, as well as 1st in the Moment Queries track at the Ego4D Challenge 2024. Our code is available at https://github.com/sming256/OpenTAD/. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# MDS-ED:救急部門におけるマルチモーダル意思決定支援 -- 救急医療における診断と劣化予測のためのベンチマークデータセット
MDS-ED: Multimodal Decision Support in the Emergency Department -- a Benchmark Dataset for Diagnoses and Deterioration Prediction in Emergency Medicine ( http://arxiv.org/abs/2407.17856v2 ) ライセンス: Link先を確認 | Juan Miguel Lopez Alcaraz, Hjalmar Bouma, Nils Strodthoff, | (参考訳) 背景: 医学的意思決定支援アルゴリズムのベンチマークは、データセットへのアクセスが限られ、予測タスクが狭く、入力モダリティが制限されているため、しばしば苦労する。
これらの制限は、緊急ケア、複製の複雑化、検証、ベンチマークの改善など、高リスク領域における臨床関連性とパフォーマンスに影響を与える。
方法: 救急部門(ED)におけるMIMIC-IV, ベンチマークプロトコル, およびマルチモーダル意思決定支援評価の初期結果に基づくデータセットを提案する。
我々は、人口統計、バイオメトリックス、バイタルサイン、検査値、心電図波形など、最初の1.5時間からさまざまなデータモダリティを使用します。
ICD-10符号による診断の予測と患者の劣化の予測の2つの文脈で1443の臨床ラベルを分析した。
結果: 心筋梗塞などの心疾患, 腎疾患や糖尿病などの非心臓疾患を含む1428例中357例において, AUROCスコアが0.8以上の統計的に有意な値を示した。
劣化モデルでは, 心停止, 機械的換気, ICU入院, 短期的, 長期的死亡などの重要な事象を含む15項目中13項目について, 0.8以上の統計的に有意なスコアが得られた。
生波形データを組み込むことで、モデル性能が大幅に向上し、この効果の最初の堅牢な実演の1つとなる。
結論: 本研究は, 幅広い臨床業務を包含し, 緊急時に早期に収集した包括的特徴を利用するデータセットの特異性を強調した。
AUROCの高得点が診断や劣化の目標に当てはまるように、急性および緊急医療における意思決定に革命をもたらすアプローチの可能性を強調している。
Background: Benchmarking medical decision support algorithms often struggles due to limited access to datasets, narrow prediction tasks, and restricted input modalities. These limitations affect their clinical relevance and performance in high-stakes areas like emergency care, complicating replication, validation, and improvement of benchmarks. Methods: We introduce a dataset based on MIMIC-IV, benchmarking protocol, and initial results for evaluating multimodal decision support in the emergency department (ED). We use diverse data modalities from the first 1.5 hours of patient arrival, including demographics, biometrics, vital signs, lab values, and electrocardiogram waveforms. We analyze 1443 clinical labels across two contexts: predicting diagnoses with ICD-10 codes and forecasting patient deterioration. Results: Our multimodal diagnostic model achieves an AUROC score over 0.8 in a statistically significant manner for 357 out of 1428 conditions, including cardiac issues like myocardial infarction and non-cardiac conditions such as renal disease and diabetes. The deterioration model scores above 0.8 in a statistically significant manner for 13 out of 15 targets, including critical events like cardiac arrest and mechanical ventilation, ICU admission as well as short- and long-term mortality. Incorporating raw waveform data significantly improves model performance, which represents one of the first robust demonstrations of this effect. Conclusions: This study highlights the uniqueness of our dataset, which encompasses a wide range of clinical tasks and utilizes a comprehensive set of features collected early during the emergency after arriving at the ED. The strong performance, as evidenced by high AUROC scores across diagnostic and deterioration targets, underscores the potential of our approach to revolutionize decision-making in acute and emergency medicine. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# 外科的コンピュータビジョンのための自己指導型学習におけるデータセットの多様性の影響を探る
Exploring the Effect of Dataset Diversity in Self-Supervised Learning for Surgical Computer Vision ( http://arxiv.org/abs/2407.17904v2 ) ライセンス: Link先を確認 | Tim J. M. Jaspers, Ronald L. P. D. de Jong, Yasmina Al Khalil, Tijn Zeelenberg, Carolus H. J. Kusters, Yiping Li, Romy C. van Jaarsveld, Franciscus H. A. Bakker, Jelle P. Ruurda, Willem M. Brinkman, Peter H. N. De With, Fons van der Sommen, | (参考訳) 過去10年間で、最小侵襲手術におけるコンピュータビジョンの応用は急速に増加している。
この成長にもかかわらず、外科的コンピュータビジョンの影響は、病理学や放射線学のような他の医学分野と比較しても限られている。
ImageNetのような大規模アノテートデータセットからの転送学習は、従来、高性能なモデルを実現するための標準であったが、近年の自己教師付き学習(SSL)の進歩は、優れたパフォーマンスを示している。
医用画像解析では、ドメイン内SSLプリトレーニングがImageNetベースの初期化よりも優れていることがすでに示されている。
手術用コンピュータビジョンの分野におけるラベルなしデータは豊富であるが、このデータ内の多様性は限られている。
本研究では,手術用コンピュータビジョンにおけるSSLにおけるデータセット多様性の役割について検討し,より異質な外科用データセットと比較した。
その結果、ImageNetの事前トレーニングと比較して、プロシージャ固有のデータのみを使用することで、13.8%、9.5%、36.8%の大幅な改善が達成された。
しかし、このデータをより異質な外科的データで拡張することで、さらなる5.0%、5.2%、および2.5%の性能が向上し、SSLデータ内での多様性の増大がモデルの性能に有益であることが示唆されている。
コードと事前訓練されたモデルウェイトはhttps://github.com/TimJaspers0801/SurgeNetで公開されている。
Over the past decade, computer vision applications in minimally invasive surgery have rapidly increased. Despite this growth, the impact of surgical computer vision remains limited compared to other medical fields like pathology and radiology, primarily due to the scarcity of representative annotated data. Whereas transfer learning from large annotated datasets such as ImageNet has been conventionally the norm to achieve high-performing models, recent advancements in self-supervised learning (SSL) have demonstrated superior performance. In medical image analysis, in-domain SSL pretraining has already been shown to outperform ImageNet-based initialization. Although unlabeled data in the field of surgical computer vision is abundant, the diversity within this data is limited. This study investigates the role of dataset diversity in SSL for surgical computer vision, comparing procedure-specific datasets against a more heterogeneous general surgical dataset across three different downstream surgical applications. The obtained results show that using solely procedure-specific data can lead to substantial improvements of 13.8%, 9.5%, and 36.8% compared to ImageNet pretraining. However, extending this data with more heterogeneous surgical data further increases performance by an additional 5.0%, 5.2%, and 2.5%, suggesting that increasing diversity within SSL data is beneficial for model performance. The code and pretrained model weights are made publicly available at https://github.com/TimJaspers0801/SurgeNet. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# Dallah: アラビア語の対話型マルチモーダル大言語モデル
Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic ( http://arxiv.org/abs/2407.18129v2 ) ライセンス: Link先を確認 | Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed, | (参考訳) 近年,画像からテキストコンテンツの生成・理解において,MLLM(Multimodal Large Language Models)の能力が大幅に向上している。
これらの成功にもかかわらず、他の言語で高品質なマルチモーダルリソースが不足しているため、進歩は英語に限られている。
この制限はアラビア語などの言語における競争モデルの発展を妨げる。
この状況を緩和するために,LLaMA-2に基づく先進言語モデルを用いて多モーダルインタラクションを容易にする,効率の良いアラビア多モーダルアシスタントであるDallahを導入する。
Dallah氏はアラビア語のMLLMで最先端のパフォーマンスをデモしている。
ダッラーは6つのアラビア方言を微調整することで、テキスト要素と視覚要素の両方を取り入れた複雑な方言の相互作用を扱う能力を示した。
このモデルは2つのベンチマークテストで優れており、1つは現代標準アラビア語(MSA)の性能を評価するもので、もう1つは方言の反応を評価するために特別に設計されたものである。
マルチモーダルな相互作用タスクにおける堅牢なパフォーマンスに加えて、ダッラーは方言を意識したアラビア・MLLMのさらなる発展の道を開くことができる。
Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# LLMロバストネスのスケーリング動向
Exploring Scaling Trends in LLM Robustness ( http://arxiv.org/abs/2407.18213v2 ) ライセンス: Link先を確認 | Nikolaus Howe, Michał Zajac, Ian McKenzie, Oskar Hollinsworth, Tom Tseng, Pierre-Luc Bacon, Adam Gleave, | (参考訳) 言語モデル機能は、モデルのサイズとトレーニングデータのスケーリングから、予測可能な改善を行う。
これに触発されて、ますます大きな言語モデルが訓練され、印象的な能力を持つようになりました。
しかし、これらのモデルは、好ましくない行動を実行するためにハイジャックモデルを実行する「ジェイルブレイク」のような敵のプロンプトに対して脆弱であり、誤用のかなりのリスクを生じさせる。
以前の研究は、コンピュータビジョンモデルがモデルとデータのスケーリングによってより堅牢になることを示している。
本研究では,より大規模なモデルが敵の訓練にかなり効果があることを実証的に研究するが,明確な防御がなければ,モデルスケールのメリットはほとんど見つからない。
Language model capabilities predictably improve from scaling a model's size and training data. Motivated by this, increasingly large language models have been trained, yielding an array of impressive capabilities. Yet these models are vulnerable to adversarial prompts, such as "jailbreaks" that hijack models to perform undesired behaviors, posing a significant risk of misuse. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically, finding that larger models respond substantially better to adversarial training, but there is little to no benefit from model scale in the absence of explicit defenses. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |
# 帰納的イントロスペクション:言語モデルエージェントに自己改善の仕方を教える
Recursive Introspection: Teaching Language Model Agents How to Self-Improve ( http://arxiv.org/abs/2407.18219v2 ) ライセンス: Link先を確認 | Yuxiao Qu, Tianjun Zhang, Naman Garg, Aviral Kumar, | (参考訳) ファンデーションモデルにおけるインテリジェントなエージェント的行動を可能にするための中心的な要素は、より多くの計算や相互作用が利用可能であるように、彼らの振る舞いをイントロスペクションし、推論し、誤りを修正することができるようにすることである。
最強のプロプライエタリな大規模言語モデル(LLM)でさえ、過ちを明示的に告げられるシナリオであっても、連続的に応答を改善する能力は十分に示されていない。
本稿では,この能力を達成できないと仮定した先行研究にもかかわらず,微調整型LLMの手法であるRISE: Recursive IntroSpEctionを開発する。
提案手法は,テストタイムの難解な問題を事前に実行した後,モデルに応答の修正方法を教えるための反復的な微調整手順を規定し,任意に環境フィードバックを付加する。
RISEは、初期状態がプロンプトであるマルチターンマルコフ決定プロセス(MDP)の解決として、シングルターンプロンプトの微調整を行う。
オンラインの模倣学習と強化学習の原則に着想を得て, 複数ターンのデータ収集と学習の戦略を提案し, 繰り返し繰り返しの誤りを再帰的に検出し, 修正する能力を持つLLMを組み込む。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,算数推論タスクのターン数を増やすことで自己改善を実現している。
また、RISEはうまくスケールし、より有能なモデルでより大きなメリットを得ることができることもわかりました。
解析の結果、RISEはより複雑な分布を表現した結果、一ターンの能力を損なうことなく、正しい解にたどり着くための応答を有意義に改善していることがわかった。
A central piece in enabling intelligent agentic behavior in foundation models is to make them capable of introspecting upon their behavior, reasoning, and correcting their mistakes as more computation or interaction is available. Even the strongest proprietary large language models (LLMs) do not quite exhibit the ability of continually improving their responses sequentially, even in scenarios where they are explicitly told that they are making a mistake. In this paper, we develop RISE: Recursive IntroSpEction, an approach for fine-tuning LLMs to introduce this capability, despite prior work hypothesizing that this capability may not be possible to attain. Our approach prescribes an iterative fine-tuning procedure, which attempts to teach the model how to alter its response after having executed previously unsuccessful attempts to solve a hard test-time problem, with optionally additional environment feedback. RISE poses fine-tuning for a single-turn prompt as solving a multi-turn Markov decision process (MDP), where the initial state is the prompt. Inspired by principles in online imitation learning and reinforcement learning, we propose strategies for multi-turn data collection and training so as to imbue an LLM with the capability to recursively detect and correct its previous mistakes in subsequent iterations. Our experiments show that RISE enables Llama2, Llama3, and Mistral models to improve themselves with more turns on math reasoning tasks, outperforming several single-turn strategies given an equal amount of inference-time computation. We also find that RISE scales well, often attaining larger benefits with more capable models. Our analysis shows that RISE makes meaningful improvements to responses to arrive at the correct solution for challenging prompts, without disrupting one-turn abilities as a result of expressing more complex distributions. | 翻訳日:2024-07-29 12:30:11 公開日:2024-07-26 |