このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240722となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 強化学習アプリケーションにおけるリワードエンジニアリングとシェイピングの総合的概要
Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications ( http://arxiv.org/abs/2408.10215v1 ) ライセンス: Link先を確認 | Sinan Ibrahim, Mostafa Mostafa, Ali Jnadi, Pavel Osinenko, | (参考訳) 実世界のアプリケーションにおける強化学習(RL)の目的は、試行錯誤を通じて環境から学習することで自律的な意思決定が可能なシステムを作ることである。
本稿では,強化学習アルゴリズムの効率性と有効性を高めるために,報酬工学と報酬形成の重要性を強調する。
リワードエンジニアリングでは、望ましい成果を正確に反映した報酬関数を設計する一方で、報酬形成は学習プロセスのガイドとして追加のフィードバックを提供し、最適ポリシーへの収束を加速する。
強化学習の大幅な進歩にもかかわらず、いくつかの制限が続いた。
主要な課題の1つは、多くの現実のシナリオにおいて報酬のスパースと遅延の性質であり、学習の進歩を妨げる可能性があることである。
さらに、実世界の環境を正確にモデル化することの複雑さと強化学習アルゴリズムの計算要求は、依然としてかなりの障害である。
一方、近年のディープラーニングとニューラルネットワークの進歩により、高次元の状態と行動空間を扱う強化学習システムが大幅に向上し、ロボット工学、自律運転、ゲームプレイといった複雑なタスクに応用できるようになった。
本稿では,報酬工学と報酬形成に使用される手法と技術に着目し,強化学習の現状を概観する。
この分野の限界と最近の進歩を批判的に分析し、将来の研究の方向性や様々な分野の潜在的な応用についての洞察を提供する。
The aim of Reinforcement Learning (RL) in real-world applications is to create systems capable of making autonomous decisions by learning from their environment through trial and error. This paper emphasizes the importance of reward engineering and reward shaping in enhancing the efficiency and effectiveness of reinforcement learning algorithms. Reward engineering involves designing reward functions that accurately reflect the desired outcomes, while reward shaping provides additional feedback to guide the learning process, accelerating convergence to optimal policies. Despite significant advancements in reinforcement learning, several limitations persist. One key challenge is the sparse and delayed nature of rewards in many real-world scenarios, which can hinder learning progress. Additionally, the complexity of accurately modeling real-world environments and the computational demands of reinforcement learning algorithms remain substantial obstacles. On the other hand, recent advancements in deep learning and neural networks have significantly improved the capability of reinforcement learning systems to handle high-dimensional state and action spaces, enabling their application to complex tasks such as robotics, autonomous driving, and game playing. This paper provides a comprehensive review of the current state of reinforcement learning, focusing on the methodologies and techniques used in reward engineering and reward shaping. It critically analyzes the limitations and recent advancements in the field, offering insights into future research directions and potential applications in various domains. | 翻訳日:2024-08-25 14:21:10 公開日:2024-07-22 |
# 相対論的流れとしてのディラック理論
Dirac Theory as a Relativistic Flow ( http://arxiv.org/abs/2408.10216v1 ) ライセンス: Link先を確認 | Asher Yahalom, | (参考訳) これまでの論文では、電磁場相互作用を含むSchr\"{o}dinger's equationが、電磁場と相互作用する荷電電位流の流体力学ラグランジアンからどのように導出されるかを示した。
量子的振る舞いは、古典ラグランジアンに追加されたフィッシャー情報項に由来する。
その結果, 量子力学系は情報によって駆動され, 電磁場だけでなく電磁場によっても駆動されることがわかった。
このプログラムは、ポテンシャルフローの制限を取り除き、クレブシュ形式を用いることで、パウリの方程式にも適用された。
この分析は非常に成功したが、解釈を認めない用語がまだあったが、そのいくつかは相対論的ディラック理論に容易に辿ることができる。
ここでは相対論的流れの解析を繰り返すが、これは相対論的量子力学を導出するための新しいアプローチを示している。
In previous papers we have shown how Schr\"{o}dinger's equation which includes an electromagnetic field interaction can be deduced from a fluid dynamical Lagrangian of a charged potential flow that interacts with an electromagnetic field. The quantum behaviour was derived from Fisher information terms which were added to the classical Lagrangian. It was thus shown that a quantum mechanical system is drived by information and not only electromagnetic fields. This program was applied also to Pauli's equations by removing the restriction of potential flow and using the Clebsch formalism. Although the analysis was quite successful there were still terms that did not admit interpretation, some of them can be easily traced to the relativistic Dirac theory. Here we repeat the analysis for a relativistic flow, pointing to a new approach for deriving relativistic quantum mechanics. | 翻訳日:2024-08-25 14:21:10 公開日:2024-07-22 |
# 大規模言語モデルとドメイン特化標準を用いたチャットボットによるオントロジーインタラクション
Chatbot-Based Ontology Interaction Using Large Language Models and Domain-Specific Standards ( http://arxiv.org/abs/2408.00800v1 ) ライセンス: Link先を確認 | Jonathan Reif, Tom Jeleniewski, Milapji Singh Gill, Felix Gehlhoff, Alexander Fay, | (参考訳) 次のコントリビューションでは、大規模言語モデル(LLM)とチャットボットインターフェースを採用して、オントロジーのためのSPARQLクエリ生成を強化し、形式化された知識への直感的なアクセスを容易にするコンセプトを紹介している。
自然言語入力を利用することで、ユーザからの問い合わせを正確なSPARQLクエリに変換し、オントロジーの事実内容を厳密にクエリし、LLMによる誤情報や偽造を効果的に防止する。
結果の質と精度を高めるために、確立されたドメイン固有の標準から追加のテキスト情報をオントロジーに統合し、その概念や関係を正確に記述する。
実験によって生成されたSPARQLクエリの精度を評価し、オントロジーのクエリや今後の研究領域のハイライトにLLMを使用することによる大きなメリットを明らかにした。
The following contribution introduces a concept that employs Large Language Models (LLMs) and a chatbot interface to enhance SPARQL query generation for ontologies, thereby facilitating intuitive access to formalized knowledge. Utilizing natural language inputs, the system converts user inquiries into accurate SPARQL queries that strictly query the factual content of the ontology, effectively preventing misinformation or fabrication by the LLM. To enhance the quality and precision of outcomes, additional textual information from established domain-specific standards is integrated into the ontology for precise descriptions of its concepts and relationships. An experimental study assesses the accuracy of generated SPARQL queries, revealing significant benefits of using LLMs for querying ontologies and highlighting areas for future research. | 翻訳日:2024-08-19 05:18:32 公開日:2024-07-22 |
# 低レイテンシ項目推薦のための低ランクフィールド重み付き因子化装置
Low Rank Field-Weighted Factorization Machines for Low Latency Item Recommendation ( http://arxiv.org/abs/2408.00801v1 ) ライセンス: Link先を確認 | Alex Shtoff, Michael Viderman, Naama Haramaty-Krasne, Oren Somekh, Ariel Raviv, Tularam Ban, | (参考訳) ファクトリゼーションマシン(FM)の変種は、オンライン広告システムのような厳格なスループットと遅延要求の下で機能するレコメンデーションシステムで広く使われている。
FMは、データ空間に耐性を持ちながら、ペアワイズな特徴相互作用をモデル化する能力と、高速な推論とトレーニングを容易にする計算グラフの両方で知られている。
さらに、入力するユーザ毎のクエリの一部として項目がランク付けされる場合、これらのグラフは、クエリ毎に1回だけ、ユーザとコンテキストフィールドから発生する部分の計算を容易にする。
したがって、推論コストの面では、ユーザフィールドやコンテキストフィールドの数は事実上無制限である。
FwFMのようなより高度なFM変種は、フィールドワイドな相互作用の表現を学習することでより良い精度を提供するが、全てのペアワイドな相互作用の項を明示的に計算する必要がある。
推論中の計算コストは、ユーザ、コンテキスト、アイテムを含むフィールドの2乗に比例する。
フィールド数が大きければ、これは厳格なレイテンシ制約を持つシステムでは禁止される。
この注意を和らげるために、低強度場相互作用のヒューリスティックプルーニングが一般的に推論を加速するために使用される。
本研究では,FwFMにおけるプルーニングヒューリスティックの代替として,対角および対称な低ランク分解法を提案する。
提案手法は,項目数のみに比例して推論の計算コストを削減する。
実世界のデータセットにおける一連の実験を用いて、攻撃的なランクの低減は、精度と項目推薦速度の両方において、同様に攻撃的なプルーニングよりも優れていることを示す。
我々は、合成テストと、主要なオンライン広告システムにソリューションをデプロイすることで、より高速な推論の主張を実験的に裏付ける。
実験結果を再現するコードはhttps://github.com/michaelviderman/pytorch-fm/tree/devです。
Factorization machine (FM) variants are widely used in recommendation systems that operate under strict throughput and latency requirements, such as online advertising systems. FMs are known both due to their ability to model pairwise feature interactions while being resilient to data sparsity, and their computational graphs that facilitate fast inference and training. Moreover, when items are ranked as a part of a query for each incoming user, these graphs facilitate computing the portion stemming from the user and context fields only once per query. Consequently, in terms of inference cost, the number of user or context fields is practically unlimited. More advanced FM variants, such as FwFM, provide better accuracy by learning a representation of field-wise interactions, but require computing all pairwise interaction terms explicitly. The computational cost during inference is proportional to the square of the number of fields, including user, context, and item. When the number of fields is large, this is prohibitive in systems with strict latency constraints. To mitigate this caveat, heuristic pruning of low intensity field interactions is commonly used to accelerate inference. In this work we propose an alternative to the pruning heuristic in FwFMs using a diagonal plus symmetric low-rank decomposition. Our technique reduces the computational cost of inference, by allowing it to be proportional to the number of item fields only. Using a set of experiments on real-world datasets, we show that aggressive rank reduction outperforms similarly aggressive pruning, both in terms of accuracy and item recommendation speed. We corroborate our claim of faster inference experimentally, both via a synthetic test, and by having deployed our solution to a major online advertising system. The code to reproduce our experimental results is at https://github.com/michaelviderman/pytorch-fm/tree/dev. | 翻訳日:2024-08-19 05:18:32 公開日:2024-07-22 |
# LLM推論の活用はパーソナライズされたレコメンダシステムを促進する
Leveraging LLM Reasoning Enhances Personalized Recommender Systems ( http://arxiv.org/abs/2408.00802v1 ) ライセンス: Link先を確認 | Alicia Y. Tsai, Adam Kraft, Long Jin, Chenwei Cai, Anahita Hosseini, Taibai Xu, Zemin Zhang, Lichan Hong, Ed H. Chi, Xinyang Yi, | (参考訳) 最近の進歩は、推論タスクの実行におけるLarge Language Models (LLMs) の可能性を示しており、特にChain-of-Thought (CoT) のプロンプトによって促進されている。
算術的推論のようなタスクは明確で決定的な答えと思考の論理的連鎖を含むが、レコメンデーションシステム(RecSys)におけるLLM推論の適用は、明確な課題である。
RecSysタスクは、LLMの推論能力を活用するための未探索領域である主観性とパーソナライズされた嗜好を中心に展開される。
本研究では、RecSysの推論をよりよく理解し、ゼロショットと微調整の両方でLCM推論を利用することで、タスク品質がどのように改善されるかを実証する。
また,レコメンダシステムの自動検証とレーダ評価(RecSAVER, Recommender Systems Automatic Verification and Evaluation of Reasoning)を提案する。
我々の枠組みは、推論応答の一貫性と忠実性に関する実際の人間の判断と一致していることを示す。
全体としては、RecSysに推論を組み込むことで、パーソナライズされたタスクを改善し、レコメンデーションシステム方法論のさらなる進歩の道を開くことができることを示す。
Recent advancements have showcased the potential of Large Language Models (LLMs) in executing reasoning tasks, particularly facilitated by Chain-of-Thought (CoT) prompting. While tasks like arithmetic reasoning involve clear, definitive answers and logical chains of thought, the application of LLM reasoning in recommendation systems (RecSys) presents a distinct challenge. RecSys tasks revolve around subjectivity and personalized preferences, an under-explored domain in utilizing LLMs' reasoning capabilities. Our study explores several aspects to better understand reasoning for RecSys and demonstrate how task quality improves by utilizing LLM reasoning in both zero-shot and finetuning settings. Additionally, we propose RecSAVER (Recommender Systems Automatic Verification and Evaluation of Reasoning) to automatically assess the quality of LLM reasoning responses without the requirement of curated gold references or human raters. We show that our framework aligns with real human judgment on the coherence and faithfulness of reasoning responses. Overall, our work shows that incorporating reasoning into RecSys can improve personalized tasks, paving the way for further advancements in recommender system methodologies. | 翻訳日:2024-08-19 05:18:32 公開日:2024-07-22 |
# FDiff-Fusion:3次元医用画像分割のためのファジィ学習に基づく拡散融合ネットワーク
FDiff-Fusion:Denoising diffusion fusion network based on fuzzy learning for 3D medical image segmentation ( http://arxiv.org/abs/2408.02075v1 ) ライセンス: Link先を確認 | Weiping Ding, Sheng Geng, Haipeng Wang, Jiashuang Huang, Tianyi Zhou, | (参考訳) 近年,デノナイジング拡散モデルが画像セグメンテーションモデリングにおいて顕著な成功を収めている。
強力な非線形モデリング機能と優れた一般化性能により、ディノナイズ拡散モデルは徐々に医療画像のセグメンテーションタスクに適用され、この分野に新たな視点と方法がもたらされた。
しかし,既存の手法はセグメント化境界の不確実性や領域のファジィ性を見落とし,セグメント化結果の不確実性と不正確性をもたらす。
そこで本論文では,ファジィ学習に基づく拡散拡散ネットワークによる3次元医用画像分割(FDiff-Fusion)を提案する。
従来のU-Netネットワークにデノナイズ拡散モデルを統合することにより、入力された医用画像からリッチな意味情報を効果的に抽出し、医用画像のセグメンテーションに優れたピクセルレベルの表現を提供する。
はぁ...。
最後に、FDiff-Fusionの有効性を検証するために、既存のBRATS 2020脳腫瘍データセットとBTCV腹部多臓器データセットの高度なセグメンテーションネットワークと比較した。
その結果,FDiff-Fusionはこれらの2つのデータセットのDiceスコアとHD95距離を有意に改善し,医用画像分割作業においてその優位性を示した。
In recent years, the denoising diffusion model has achieved remarkable success in image segmentation modeling. With its powerful nonlinear modeling capabilities and superior generalization performance, denoising diffusion models have gradually been applied to medical image segmentation tasks, bringing new perspectives and methods to this field. However, existing methods overlook the uncertainty of segmentation boundaries and the fuzziness of regions, resulting in the instability and inaccuracy of the segmentation results. To solve this problem, a denoising diffusion fusion network based on fuzzy learning for 3D medical image segmentation (FDiff-Fusion) is proposed in this paper. By integrating the denoising diffusion model into the classical U-Net network, this model can effectively extract rich semantic information from input medical images, thus providing excellent pixel-level representation for medical image segmentation. ... Finally, to validate the effectiveness of FDiff-Fusion, we compare it with existing advanced segmentation networks on the BRATS 2020 brain tumor dataset and the BTCV abdominal multi-organ dataset. The results show that FDiff-Fusion significantly improves the Dice scores and HD95 distance on these two datasets, demonstrating its superiority in medical image segmentation tasks. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-22 |
# Compiler-Integrated Conversational AIによるCS1のスケーリングサポート
Scaling CS1 Support with Compiler-Integrated Conversational AI ( http://arxiv.org/abs/2408.02378v1 ) ライセンス: Link先を確認 | Jake Renzella, Alexandra Vassar, Lorenzo Lee Solano, Andrew Taylor, | (参考訳) 本稿では、既存のLLMベースのC/C++コンパイラを拡張し、教育プログラムエラー説明を生成するWebベースの会話型AIツールであるDCC Sidekickを紹介する。
このツールは、コード表示、コンパイル時および実行時エラーメッセージ、スタックフレームの読み出しとAIインターフェースをシームレスに組み合わせ、コンパイラエラーコンテキストを活用して説明を改善する。
959名の学生が11,222人のDCC Sidekickセッションに従事し、7週間で17,982件の誤りを報告した。
注目すべきなのは、インタラクションの50%以上がビジネス時間外で発生し、ツールの価値が常に利用可能なリソースであることを強調したことです。
以上の結果から,広範囲なCS1コースをサポートする上でのスケーラビリティを実証し,AI支援デバッグツールの強力な採用を明らかにした。
我々は、適切な教育的保護にAIツールを組み込もうとする教育者に対して、実装の洞察と勧告を提供する。
This paper introduces DCC Sidekick, a web-based conversational AI tool that enhances an existing LLM-powered C/C++ compiler by generating educational programming error explanations. The tool seamlessly combines code display, compile- and run-time error messages, and stack frame read-outs alongside an AI interface, leveraging compiler error context for improved explanations. We analyse usage data from a large Australian CS1 course, where 959 students engaged in 11,222 DCC Sidekick sessions, resulting in 17,982 error explanations over seven weeks. Notably, over 50% of interactions occurred outside business hours, underscoring the tool's value as an always-available resource. Our findings reveal strong adoption of AI-assisted debugging tools, demonstrating their scalability in supporting extensive CS1 courses. We provide implementation insights and recommendations for educators seeking to incorporate AI tools with appropriate pedagogical safeguards. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-22 |
# AIの安全開発と認定のためのXAIの貢献:専門家による分析
The Contribution of XAI for the Safe Development and Certification of AI: An Expert-Based Analysis ( http://arxiv.org/abs/2408.02379v1 ) ライセンス: Link先を確認 | Benjamin Fresz, Vincent Philipp Göbels, Safa Omri, Danilo Brajovic, Andreas Aichele, Janika Kutz, Jens Neuhüttler, Marco F. Huber, | (参考訳) 安全な(いわゆる信頼できる)AIの開発と認定は、特にEU AI Act(EUAI法)のような今後の規制に照らして、ますます健全な問題になっている。
この文脈では、機械学習モデルのブラックボックスの性質は、複雑な技術システムの認証に対する従来のアプローチの方法の使用を制限する。
潜在的なソリューションとして、eXplainable AI(XAI)の分野で開発されたこのブラックボックスに関する洞察を与える方法が使用できる。
本研究では,(X)AI分野の専門家に対する15の質的なインタビューにおいて,安全なAI開発と認定を目的とした手法の可能性と欠点について論じる。
XAIメソッドは、MLモデルのバイアスや失敗を示すことができるため、安全なAI開発に役立つ可能性があるが、認証は技術システムに関する包括的な正しい情報に依存しているため、その影響は限定されると予想されている。
Developing and certifying safe - or so-called trustworthy - AI has become an increasingly salient issue, especially in light of upcoming regulation such as the EU AI Act. In this context, the black-box nature of machine learning models limits the use of conventional avenues of approach towards certifying complex technical systems. As a potential solution, methods to give insights into this black-box - devised in the field of eXplainable AI (XAI) - could be used. In this study, the potential and shortcomings of such methods for the purpose of safe AI development and certification are discussed in 15 qualitative interviews with experts out of the areas of (X)AI and certification. We find that XAI methods can be a helpful asset for safe AI development, as they can show biases and failures of ML-models, but since certification relies on comprehensive and correct information about technical systems, their impact is expected to be limited. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-22 |
# 意図的難読化攻撃の可能性について
On Feasibility of Intent Obfuscating Attacks ( http://arxiv.org/abs/2408.02674v1 ) ライセンス: Link先を確認 | Zhaobin Li, Patrick Shafto, | (参考訳) 侵入難読化(Intent obfuscation)は、敵の状況において一般的な戦術であり、攻撃者が標的システムの操作と、実行可能性の回避を可能にする。
驚くべきことに、機械学習システムに対する敵攻撃で実装されることはめったにない。
我々は,対象物体を乱すために別の非重複物体を摂動することにより,攻撃者が意図した対象を隠蔽する,対象検出器の対向的な例を生成するための意図的難読化の導入を最初に提案する。
我々は、ターゲットと未ターゲットの両方の攻撃を使用して、YOLOv3、SSD、RetinaNet、Faster R-CNN、Cascade R-CNNの5つの重要な検出器でランダム化実験を行い、すべてのモデルと攻撃で成功しました。
対象物体の信頼度や摂動物体の大きさなど,意図的難読化攻撃を特徴付ける成功要因を解析する。
次に、攻撃者がこれらの成功要因を利用して、すべてのモデルと攻撃の成功率を高めることを実証する。
最後に、既知の防衛と法的反感について論じる。
Intent obfuscation is a common tactic in adversarial situations, enabling the attacker to both manipulate the target system and avoid culpability. Surprisingly, it has rarely been implemented in adversarial attacks on machine learning systems. We are the first to propose incorporating intent obfuscation in generating adversarial examples for object detectors: by perturbing another non-overlapping object to disrupt the target object, the attacker hides their intended target. We conduct a randomized experiment on 5 prominent detectors -- YOLOv3, SSD, RetinaNet, Faster R-CNN, and Cascade R-CNN -- using both targeted and untargeted attacks and achieve success on all models and attacks. We analyze the success factors characterizing intent obfuscating attacks, including target object confidence and perturb object sizes. We then demonstrate that the attacker can exploit these success factors to increase success rates for all models and attacks. Finally, we discuss known defenses and legal repercussions. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-22 |
# InLUT3D:ポイントクラウド分析のための屋内実際のデータセットのマッチング
InLUT3D: Challenging real indoor dataset for point cloud analysis ( http://arxiv.org/abs/2408.03338v1 ) ライセンス: Link先を確認 | Jakub Walczak, | (参考訳) 本稿では,屋内環境におけるシーン理解の分野を推し進めるための総合的なリソースであるInLUT3Dポイントクラウドデータセットを紹介する。
このデータセットは、高解像度レーザーベースの点雲と手動ラベリングを特徴とするロドス工科大学のW7学部ビル内の様々な空間をカバーしている。
このデータセットとともに,アルゴリズム評価において信頼性と再現性を確保するための指標とベンチマークガイドラインを提案する。
InLUT3Dデータセットとその関連ベンチマークの導入は、3Dシーン理解における今後の進歩を触媒し、方法論的な厳密さを促進し、この分野における新しいアプローチを刺激することを期待している。
In this paper, we introduce the InLUT3D point cloud dataset, a comprehensive resource designed to advance the field of scene understanding in indoor environments. The dataset covers diverse spaces within the W7 faculty buildings of Lodz University of Technology, characterised by high-resolution laser-based point clouds and manual labelling. Alongside the dataset, we propose metrics and benchmarking guidelines essential for ensuring trustworthy and reproducible results in algorithm evaluation. We anticipate that the introduction of the InLUT3D dataset and its associated benchmarks will catalyse future advancements in 3D scene understanding, facilitating methodological rigour and inspiring new approaches in the field. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# グラフィカルインタフェースによる知識グラフデータへのアクセスの民主化
The Ontoverse: Democratising Access to Knowledge Graph-based Data Through a Cartographic Interface ( http://arxiv.org/abs/2408.03339v1 ) ライセンス: Link先を確認 | Johannes Zimmermann, Dariusz Wiktorek, Thomas Meusburger, Miquel Monge-Dalmau, Antonio Fabregat, Alexander Jarasch, Günter Schmidt, Jorge S. Reis-Filho, T. Ian Simpson, | (参考訳) 科学出版物やプレプリントの数は指数関数的に増えているので、この複雑で詳細な風景をナビゲートする試みがいくつかなされている。
これらは、ドメイン知識を取り入れず、直感的に対話的な人間の探索と発見に必要な構造組織を欠く、ほとんど教師なしのアプローチを取っている。
特に学際的な分野において、研究の関連性に関する深い理解は、洞察を生み出すのに不可欠である。
我々は、地理的視覚化に頼って、階層的に構造化されたドメイン知識を使用して、エンドユーザが自分の望む領域に根ざした知識空間を探索できるデータナビゲーションのユニークなアプローチを開発した。
これは既存のオントロジー、プロプライエタリなインテリジェンススキーマ、あるいは階層的なトピックモデリングを通じて基盤となるデータから直接引き出すことができる。
提案手法は自然言語処理技術を用いて,基礎となるデータから名前付きエンティティを抽出し,関連するドメイン参照やナビゲーション構造に対して正規化する。
知識は、まず共有された特徴空間に基づいてエンティティ間の類似性を計算し、次にナビゲーション構造にアライメントすることで統合される。
その結果得られた知識グラフは、完全なテキストとセマンティックグラフクエリと構造化トピック駆動ナビゲーションを可能にする。
これにより、エンドユーザは、ニーズに関連するエンティティを識別し、広範なグラフ分析にアクセスできるようになる。
ユーザインタフェースは、基礎となる知識グラフとのグラフィカルな相互作用を容易にし、地図マップを模倣して使いやすさを最大化し、採用を拡大する。
我々は、数百の異なるドメインエンティティを基盤とした学術バイオメディカル文献コーパスのための、汎用的でスケーラブルなインフラを用いた先進的なプロジェクトを実演する。
As the number of scientific publications and preprints is growing exponentially, several attempts have been made to navigate this complex and increasingly detailed landscape. These have almost exclusively taken unsupervised approaches that fail to incorporate domain knowledge and lack the structural organisation required for intuitive interactive human exploration and discovery. Especially in highly interdisciplinary fields, a deep understanding of the connectedness of research works across topics is essential for generating insights. We have developed a unique approach to data navigation that leans on geographical visualisation and uses hierarchically structured domain knowledge to enable end-users to explore knowledge spaces grounded in their desired domains of interest. This can take advantage of existing ontologies, proprietary intelligence schemata, or be directly derived from the underlying data through hierarchical topic modelling. Our approach uses natural language processing techniques to extract named entities from the underlying data and normalise them against relevant domain references and navigational structures. The knowledge is integrated by first calculating similarities between entities based on their shared extracted feature space and then by alignment to the navigational structures. The result is a knowledge graph that allows for full text and semantic graph query and structured topic driven navigation. This allows end-users to identify entities relevant to their needs and access extensive graph analytics. The user interface facilitates graphical interaction with the underlying knowledge graph and mimics a cartographic map to maximise ease of use and widen adoption. We demonstrate an exemplar project using our generalisable and scalable infrastructure for an academic biomedical literature corpus that is grounded against hundreds of different named domain entities. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# マルチモーダルRAG検索のためのビデオフレームサンプリング手法の実証的比較
An Empirical Comparison of Video Frame Sampling Methods for Multi-Modal RAG Retrieval ( http://arxiv.org/abs/2408.03340v1 ) ライセンス: Link先を確認 | Mahesh Kandhare, Thibault Gisselbrecht, | (参考訳) 文献で詳述された多数のビデオフレームサンプリング手法は、ビデオRAGパターンの最適なビデオフレーム法を比較サイドバイサイド分析なしで決定する上で大きな課題となる。
本研究では,自然言語を用いたビデオ・フレーム検索におけるフレームサンプリング手法のトレードオフについて検討する。
サンプルフレーム量と検索リコールスコアのバランスについて検討し,ストレージと処理要求の低減とともに高い検索効率を維持するための効率的なビデオフレームサンプリング戦略を明らかにすることを目的とした。
本研究では,ビデオRAGパターンが要求するベクトルデータベース内の画像データ(ビデオフレーム)の保存と検索に着目し,様々なフレームサンプリング手法の有効性を比較した。
本研究は,テキスト・ツー・ビデオ検索とテキスト・ツー・フレーム検索の両方におけるリコール@kメトリックが,ビデオから各フレームを格納する手法と同等かそれ以上であることを示す。
本研究は,本領域における革新的研究の出発点として,実用的なビデオRAG実装のためのフレームサンプリング手法の選択を通知することを目的としている。
Numerous video frame sampling methodologies detailed in the literature present a significant challenge in determining the optimal video frame method for Video RAG pattern without a comparative side-by-side analysis. In this work, we investigate the trade-offs in frame sampling methods for Video & Frame Retrieval using natural language questions. We explore the balance between the quantity of sampled frames and the retrieval recall score, aiming to identify efficient video frame sampling strategies that maintain high retrieval efficacy with reduced storage and processing demands. Our study focuses on the storage and retrieval of image data (video frames) within a vector database required by Video RAG pattern, comparing the effectiveness of various frame sampling techniques. Our investigation indicates that the recall@k metric for both text-to-video and text-to-frame retrieval tasks using various methods covered as part of this work is comparable to or exceeds that of storing each frame from the video. Our findings are intended to inform the selection of frame sampling methods for practical Video RAG implementations, serving as a springboard for innovative research in this domain. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# 人と学び、考える機械を作る
Building Machines that Learn and Think with People ( http://arxiv.org/abs/2408.03943v1 ) ライセンス: Link先を確認 | Katherine M. Collins, Ilia Sucholutsky, Umang Bhatt, Kartik Chandra, Lionel Wong, Mina Lee, Cedegao E. Zhang, Tan Zhi-Xuan, Mark Ho, Vikash Mansinghka, Adrian Weller, Joshua B. Tenenbaum, Thomas L. Griffiths, | (参考訳) マシンインテリジェンスから何が欲しいのか?
私たちは、思考のための単なるツールではなく、合理的で洞察力があり、知識があり、信頼性があり、信頼できるシステムという、思考上のパートナーを思い浮かべています。
現在の人工知能(AI)システムは、これらの基準の一部を満たしている。
このパースペクティブでは、我々の期待に応え、限界を補完するために構築された「思想的パートナー」システムと呼ばれるようなシステムに、協調的認知の科学がどう機能するかを示します。
我々は、人間とAIの思考パートナーが協力し、人間と互換性のある思考パートナーシップのためのデシラタを提案できる、協力的思考のいくつかのモードを配置した。
計算認知科学のモチーフに基づいて、我々はベイズレンズを通して思考パートナーとエコシステムの設計のための代替のスケーリングパスを動機付け、そこで構築するパートナーは、人間と世界のモデルよりも積極的に構築し、推論する。
What do we want from machine intelligence? We envision machines that are not just tools for thought, but partners in thought: reasonable, insightful, knowledgeable, reliable, and trustworthy systems that think with us. Current artificial intelligence (AI) systems satisfy some of these criteria, some of the time. In this Perspective, we show how the science of collaborative cognition can be put to work to engineer systems that really can be called ``thought partners,'' systems built to meet our expectations and complement our limitations. We lay out several modes of collaborative thought in which humans and AI thought partners can engage and propose desiderata for human-compatible thought partnerships. Drawing on motifs from computational cognitive science, we motivate an alternative scaling path for the design of thought partners and ecosystems around their use through a Bayesian lens, whereby the partners we construct actively build and reason over models of the human and world. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# 分類学を駆使した高速対人訓練
Taxonomy Driven Fast Adversarial Training ( http://arxiv.org/abs/2408.03944v1 ) ライセンス: Link先を確認 | Kun Tong, Chengze Jiang, Jie Gui, Yuan Cao, | (参考訳) 逆行訓練(AT)は、ニューラルネットワークの堅牢性を高めるために、勾配に基づく攻撃に対する効果的な防御方法である。
その中で、単段階ATはその単純さと効率性からホットスポットのトピックとして現れており、敵の例を生成する際には1つの勾配伝播しか必要としない。
それにもかかわらず、トレーニング崩壊を引き起こす破滅的オーバーフィッティング(CO)の問題はまだ理解されておらず、シングルステップATとマルチステップATで達成される堅牢な精度の間にはギャップがある。
本稿では,敵対例の分類がCOの真理を明らかにするという驚くべき発見を提示する。
そこで本研究では,学習目標,損失関数,初期化方法を共同で最適化した分類学習型高速対人訓練(TDAT)を提案する。
他の高速AT手法と比較して、TDATはニューラルネットワークの堅牢性を高め、誤分類された例の影響を緩和し、トレーニングプロセス中のCOを防止し、計算やメモリリソースをほとんど必要としない。
CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-100データセットでは, 乱れ予算8/255のPGD10攻撃に対して1.59\%$, $1.62\%$, $0.71\%$, $1.26\%$の堅牢な精度向上を実現している。
さらに,提案手法は,他の攻撃に対する最先端の精度も向上する。
コードはhttps://github.com/bookman233/TDATで入手できる。
Adversarial training (AT) is an effective defense method against gradient-based attacks to enhance the robustness of neural networks. Among them, single-step AT has emerged as a hotspot topic due to its simplicity and efficiency, requiring only one gradient propagation in generating adversarial examples. Nonetheless, the problem of catastrophic overfitting (CO) that causes training collapse remains poorly understood, and there exists a gap between the robust accuracy achieved through single- and multi-step AT. In this paper, we present a surprising finding that the taxonomy of adversarial examples reveals the truth of CO. Based on this conclusion, we propose taxonomy driven fast adversarial training (TDAT) which jointly optimizes learning objective, loss function, and initialization method, thereby can be regarded as a new paradigm of single-step AT. Compared with other fast AT methods, TDAT can boost the robustness of neural networks, alleviate the influence of misclassified examples, and prevent CO during the training process while requiring almost no additional computational and memory resources. Our method achieves robust accuracy improvement of $1.59\%$, $1.62\%$, $0.71\%$, and $1.26\%$ on CIFAR-10, CIFAR-100, Tiny ImageNet, and ImageNet-100 datasets, when against projected gradient descent PGD10 attack with perturbation budget 8/255. Furthermore, our proposed method also achieves state-of-the-art robust accuracy against other attacks. Code is available at https://github.com/bookman233/TDAT. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# 学習環境における人為的多形化大規模言語モデルの影響
Impacts of Anthropomorphizing Large Language Models in Learning Environments ( http://arxiv.org/abs/2408.03945v1 ) ライセンス: Link先を確認 | Kristina Schaaff, Marc-André Heidelmann, | (参考訳) 大きな言語モデル(LLM)は、学習環境において、学習仲間として、あるいは家庭教師として、教育をサポートするために、ますます使われている。
本研究は,学習環境におけるLLMの人為的形態化が教育理論に及ぼす影響について考察し,より効果的な学習成果の基盤を構築し,学習者に対する感情的影響を理解することを目的とする。
メディアの方程式によると、人々は他の人に反応するのと同じように、メディアに反応する傾向があります。
ジョージア工科大学が行った研究によると、チャットボットは学習環境でうまく実装できる。
本研究では,選択したオンラインコースの学習者は,チャットボットを「本物の」教師と区別できなかった。
OpenAI の GPT シリーズのような LLM ベースのチャットボットは,教育ツールでの利用が増えているため,人為的形態化の観点から LLM ベースのチャットボットへの帰属プロセスが学習者の感情にどのように影響するかを理解することが重要である。
Large Language Models (LLMs) are increasingly being used in learning environments to support teaching-be it as learning companions or as tutors. With our contribution, we aim to discuss the implications of the anthropomorphization of LLMs in learning environments on educational theory to build a foundation for more effective learning outcomes and understand their emotional impact on learners. According to the media equation, people tend to respond to media in the same way as they would respond to another person. A study conducted by the Georgia Institute of Technology showed that chatbots can be successfully implemented in learning environments. In this study, learners in selected online courses were unable to distinguish the chatbot from a "real" teacher. As LLM-based chatbots such as OpenAI's GPT series are increasingly used in educational tools, it is important to understand how the attribution processes to LLM-based chatbots in terms of anthropomorphization affect learners' emotions. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# 製品のプロンプト:テキスト・ツー・イメージ生成モデルの設計空間探索戦略の検討
Prompting for products: Investigating design space exploration strategies for text-to-image generative models ( http://arxiv.org/abs/2408.03946v1 ) ライセンス: Link先を確認 | Leah Chong, I-Ping Lo, Jude Rayan, Steven Dow, Faez Ahmed, Ioanna Lykourentzou, | (参考訳) テキスト・ツー・イメージ・モデルは効率的なデザイン空間の探索を可能にし、テキスト・プロンプトから素早く画像を生成する。
しかし、製品設計の目標と要求のために構築されていないため、製品設計アプリケーションには多くの生成AIツールが不完全である。
テキスト入力と画像出力の間の不明瞭なリンクは、そのアプリケーションをさらに複雑にする。
本研究は, 製品デザインにおける3つの共通目標である, 実用性, 新規性, 審美性を有する製品イメージの獲得に成功するデザイン空間探索戦略を実証的に検討する。
具体的には,グローバルな編集モードとローカルな編集モードのユーザアクションについて,時間,プロンプト長,モノ対マルチクリテリアプロンプト,プロンプトの目標方向などを分析した。
重要な発見は、モノ対マルチ基準と、特定の設計目標を達成するためのプロンプトのゴールオリエンテーションが、時間とプロンプトの長さで重要な役割を担っていることを明らかにする。
この研究は、グローバル編集における実現可能性と新規性のためのマルチクリテリアプロンプトの使用の優先順位付けを推奨し、一方、局所編集ではモノクリテリアプロンプトを推奨している。
本稿では、AI駆動型テキスト・画像モデルと製品デザインにおけるそれらの有効性との関係を概観し、異なる編集モードでプロンプトを慎重に構成し、製品デザインのユニークな要求を満たすよう、デザイナーに促す。
Text-to-image models are enabling efficient design space exploration, rapidly generating images from text prompts. However, many generative AI tools are imperfect for product design applications as they are not built for the goals and requirements of product design. The unclear link between text input and image output further complicates their application. This work empirically investigates design space exploration strategies that can successfully yield product images that are feasible, novel, and aesthetic, which are three common goals in product design. Specifically, user actions within the global and local editing modes, including their time spent, prompt length, mono vs. multi-criteria prompts, and goal orientation of prompts, are analyzed. Key findings reveal the pivotal role of mono vs. multi-criteria and goal orientation of prompts in achieving specific design goals over time and prompt length. The study recommends prioritizing the use of multi-criteria prompts for feasibility and novelty during global editing, while favoring mono-criteria prompts for aesthetics during local editing. Overall, this paper underscores the nuanced relationship between the AI-driven text-to-image models and their effectiveness in product design, urging designers to carefully structure prompts during different editing modes to better meet the unique demands of product design. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# 頑健な多視点ワークアウト検出のための左右のスワッピングと上肢ペアリング
Left-Right Swapping and Upper-Lower Limb Pairing for Robust Multi-Wearable Workout Activity Detection ( http://arxiv.org/abs/2408.03947v1 ) ライセンス: Link先を確認 | Jonas Van Der Donckt, Jeroen Van Der Donckt, Sofie Van Hoecke, | (参考訳) この研究は、2024年のHASCA WEARチャレンジのためのSignal Sleuthsチームのソリューションを提示します。
この課題は、4つのウェアラブル(各手足に1つ)から加速度計データを使用して18のワークアウトアクティビティ(とヌルクラス)を検出することに焦点を当てている。
データ分析により、参加者内および参加者間のウェアラブル指向の不整合が明らかとなり、新しいマルチウェアブルなデータ拡張技術が探求された。
固定特徴集合を用いた3つのモデルについて検討する。
i) "raw": すべてのデータをそのまま使う
(二)「左右スワップ」:左右手足のペアを交換してデータを増やすこと、
3)「上肢麻痺」とは,上肢ペアの組み合わせ(2つのウェアラブル)を用いてデータを積み重ねることである。
実験では,従来の機械学習にマルチウィンドウ特徴抽出と時間的平滑化を併用した。
3倍のクロスバリデーションを用いて、生モデルはマクロF1スコアを90.01%、左スワッピングと上肢のパーシングは91.30%と91.87%に改善した。
This work presents the solution of the Signal Sleuths team for the 2024 HASCA WEAR challenge. The challenge focuses on detecting 18 workout activities (and the null class) using accelerometer data from 4 wearables - one worn on each limb. Data analysis revealed inconsistencies in wearable orientation within and across participants, leading to exploring novel multi-wearable data augmentation techniques. We investigate three models using a fixed feature set: (i) "raw": using all data as is, (ii) "left-right swapping": augmenting data by swapping left and right limb pairs, and (iii) "upper-lower limb paring": stacking data by using upper-lower limb pair combinations (2 wearables). Our experiments utilize traditional machine learning with multi-window feature extraction and temporal smoothing. Using 3-fold cross-validation, the raw model achieves a macro F1-score of 90.01%, whereas left-right swapping and upper-lower limb paring improve the scores to 91.30% and 91.87% respectively. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# AIの信頼性に関する調査
A Survey of AI Reliance ( http://arxiv.org/abs/2408.03948v1 ) ライセンス: Link先を確認 | Sven Eckhardt, Niklas Kühl, Mateusz Dolata, Gerhard Schwabe, | (参考訳) 人工知能(AI)システムは現代技術にとって欠かせない要素となっている。
しかし、人間の行動反応の研究は遅れ、すなわちAIアドバイスへの人間依存の研究が遅れている。
この文献の現在の欠点は、AI依存への不明確な影響、外部の妥当性の欠如、信頼度を測定するための矛盾したアプローチ、時間による依存度の変化を無視していることである。
将来の研究の道のりは、生成的AI出力への依存と、マルチユーザー状況への依存である。
結論として,AI依存研究のガイドとなる形態的ボックスを提示する。
Artificial intelligence (AI) systems have become an indispensable component of modern technology. However, research on human behavioral responses is lagging behind, i.e., the research into human reliance on AI advice (AI reliance). Current shortcomings in the literature include the unclear influences on AI reliance, lack of external validity, conflicting approaches to measuring reliance, and disregard for a change in reliance over time. Promising avenues for future research include reliance on generative AI output and reliance in multi-user situations. In conclusion, we present a morphological box that serves as a guide for research on AI reliance. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-22 |
# EcoFollower: 燃費を考慮した環境対応車追従モデル
EcoFollower: An Environment-Friendly Car Following Model Considering Fuel Consumption ( http://arxiv.org/abs/2408.03950v1 ) ライセンス: Link先を確認 | Hui Zhong, Xianda Chen, PakHin Tiu, Hongliang Lu, Meixin Zhu, | (参考訳) EcoFollowerは, 自動車追従シナリオにおける燃料消費を最適化するために強化学習(RL)を用いて開発された新しいエコカー追従モデルである。
NGSIMデータセットを用いて、確立されたインテリジェントドライバモデル(IDM)と比較して、EcoFollowerの性能を評価した。
その結果、EcoFollowerは現実的な運転行動のシミュレート、スムーズな車両操作の維持、TTC(Time-to-collision)、車道、快適性などの基礎的真理指標の厳密な一致に優れていた。
特に、このモデルは燃料消費を大幅に削減し、実際の運転シナリオと比較して10.42\%削減した。
これらの結果は、EcoFollowerのようなRLベースのモデルが自動運転車のアルゴリズムを強化し、より安全でエネルギー効率の良い運転戦略を促進する能力を強調している。
To alleviate energy shortages and environmental impacts caused by transportation, this study introduces EcoFollower, a novel eco-car-following model developed using reinforcement learning (RL) to optimize fuel consumption in car-following scenarios. Employing the NGSIM datasets, the performance of EcoFollower was assessed in comparison with the well-established Intelligent Driver Model (IDM). The findings demonstrate that EcoFollower excels in simulating realistic driving behaviors, maintaining smooth vehicle operations, and closely matching the ground truth metrics of time-to-collision (TTC), headway, and comfort. Notably, the model achieved a significant reduction in fuel consumption, lowering it by 10.42\% compared to actual driving scenarios. These results underscore the capability of RL-based models like EcoFollower to enhance autonomous vehicle algorithms, promoting safer and more energy-efficient driving strategies. | 翻訳日:2024-08-19 04:27:34 公開日:2024-07-22 |
# 網膜血管セグメンテーションのための領域誘導注意ネットワーク
Region Guided Attention Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2407.18970v1 ) ライセンス: Link先を確認 | Syed Javed, Tariq M. Khan, Abdul Qayyum, Arcot Sowmya, Imran Razzak, | (参考訳) 網膜イメージングは、網膜のユニークな構造を利用して、この課題に対処する有望な方法として登場した。
網膜は中枢神経系の胚性拡張であり、神経学的健康への直接のインビボの窓を提供する。
近年の研究では、網膜血管の特定の構造変化が、様々な疾患の早期の指標となるだけでなく、疾患の進行を理解するのに役立つことが示されている。
本研究では,領域誘導型アテンションを用いたエンコーダデコーダ機構に基づく軽量網膜血管セグメンテーションネットワークを提案する。
我々は,前景領域に着目し,関心領域のセグメンテーションを改善するために,地域を誘導した逆付加注意ブロックを導入する。
網膜血管セグメンテーションにおけるモデルの性能をさらに向上させるために,重み付きサイスロスを用いる。
この選択は網膜血管セグメンテーションタスクで頻繁に発生するクラス不均衡の問題に対処するのに特に有効である。
Dice Losは偽陽性と偽陰性を等しく解析し、改善されたオブジェクト境界線と縮小されたフラグメンテーションでより正確なセグメンテーションを生成するようモデルに促す。
ベンチマークデータセットの大規模な実験では、最先端の手法と比較して、パフォーマンス(0.8285, 0.8098, 0.9677, 0.8166リコール、精度、精度、F1スコア)が向上した。
Retinal imaging has emerged as a promising method of addressing this challenge, taking advantage of the unique structure of the retina. The retina is an embryonic extension of the central nervous system, providing a direct in vivo window into neurological health. Recent studies have shown that specific structural changes in retinal vessels can not only serve as early indicators of various diseases but also help to understand disease progression. In this work, we present a lightweight retinal vessel segmentation network based on the encoder-decoder mechanism with region-guided attention. We introduce inverse addition attention blocks with region guided attention to focus on the foreground regions and improve the segmentation of regions of interest. To further boost the model's performance on retinal vessel segmentation, we employ a weighted dice loss. This choice is particularly effective in addressing the class imbalance issues frequently encountered in retinal vessel segmentation tasks. Dice loss penalises false positives and false negatives equally, encouraging the model to generate more accurate segmentation with improved object boundary delineation and reduced fragmentation. Extensive experiments on a benchmark dataset show better performance (0.8285, 0.8098, 0.9677, and 0.8166 recall, precision, accuracy and F1 score respectively) compared to state-of-the-art methods. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-22 |
# ブラジルにおけるML対応システムの要求工学の産業実践
Industrial Practices of Requirements Engineering for ML-Enabled Systems in Brazil ( http://arxiv.org/abs/2407.18977v1 ) ライセンス: Link先を確認 | Antonio Pedro Santos Alves, Marcos Kalinowski, Daniel Mendez, Hugo Villamizar, Kelly Azevedo, Tatiana Escovedo, Helio Lopes, | (参考訳) [コンテキスト]ブラジルでは、企業の41%が機械学習(ML)をある程度使用しています。
しかしながら、ML対応システムのエンジニアリングにおいて、非現実的な顧客期待やML問題仕様の不明瞭さなど、いくつかの課題が報告されている。
文献によると、要求工学(RE)の実践とツールはこれらの問題を緩和するのに役立ちますが、REの実践的応用と実践者間の認識について十分な理解が得られていません。
[目標]本研究は,ブラジルにおけるML対応システム開発におけるREの適用について検討し,ブラジルの産業における現在の実践,認識,課題の概要を明らかにすることを目的とする。
[方法]ブラジルの実践者からの回答を中心に,ML対応システムに着目した国際調査からデータを抽出,分析した。
データ駆動プロジェクトに関わる72人の実践者から得られたRE関連回答を分析した。
信頼性区間を有するブートストレッピングを用いた現代的実践の定量的統計分析と,オープンおよび軸方向の符号化手順に関する報告された問題に関する質的研究を行った。
結果]ブラジルのMLプロジェクトにおけるRE実装の異なる側面に注目した。
例えば、
i)RE関連業務は,主にデータ科学者が行う。
(二 要件を提示する最も一般的な技術は、面接及びワークショップミーティングである。
三 要求書にインタラクティブなノートが混在していること。
(4)解決すべき問題やビジネス領域の理解不足、顧客エンゲージメントの低下、利害関係者の期待管理の難しさなどの問題を報告する。
[結論]これらの結果は、ブラジルのML産業におけるRE関連プラクティスの理解を提供し、ML対応システムにおけるREの成熟度向上に向けた研究の指針となる。
[Context] In Brazil, 41% of companies use machine learning (ML) to some extent. However, several challenges have been reported when engineering ML-enabled systems, including unrealistic customer expectations and vagueness in ML problem specifications. Literature suggests that Requirements Engineering (RE) practices and tools may help to alleviate these issues, yet there is insufficient understanding of RE's practical application and its perception among practitioners. [Goal] This study aims to investigate the application of RE in developing ML-enabled systems in Brazil, creating an overview of current practices, perceptions, and problems in the Brazilian industry. [Method] To this end, we extracted and analyzed data from an international survey focused on ML-enabled systems, concentrating specifically on responses from practitioners based in Brazil. We analyzed RE-related answers gathered from 72 practitioners involved in data-driven projects. We conducted quantitative statistical analyses on contemporary practices using bootstrapping with confidence intervals and qualitative studies on the reported problems involving open and axial coding procedures. [Results] Our findings highlight distinct RE implementation aspects in Brazil's ML projects. For instance, (i) RE-related tasks are predominantly conducted by data scientists; (ii) the most common techniques for eliciting requirements are interviews and workshop meetings; (iii) there is a prevalence of interactive notebooks in requirements documentation; (iv) practitioners report problems that include a poor understanding of the problem to solve and the business domain, low customer engagement, and difficulties managing stakeholders expectations. [Conclusion] These results provide an understanding of RE-related practices in the Brazilian ML industry, helping to guide research toward improving the maturity of RE for ML-enabled systems. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-22 |
# エンタープライズデータタスクでLLMを動作させる
Making LLMs Work for Enterprise Data Tasks ( http://arxiv.org/abs/2407.20256v1 ) ライセンス: Link先を確認 | Çağatay Demiralp, Fabian Wenz, Peter Baile Chen, Moe Kayali, Nesime Tatbul, Michael Stonebraker, | (参考訳) 大規模言語モデル(LLM)は、プライベートデータエコシステムにおけるエンタープライズデータベーステーブルについてはほとんど知らない。
LLMのパフォーマンスはトレーニングデータと結びついているので、エンタープライズデータベースの管理と分析タスクを改善する上で、いかに有用かが重要な疑問である。
そこで本研究では,エンタープライズデータセット上でのテキスト・トゥ・SQLとセマンティック・カラム型検出タスクにおけるLLMの性能に関する実験結果について報告する。
企業データにおけるLCMの性能は、一般的なベンチマークデータセットよりも著しく低い。
業界実践者の発見とフィードバックにより、レイテンシ、コスト、品質の3つの根本的な課題を特定し、企業データワークフローにLLMを効果的に使用するための潜在的なソリューションを提案します。
Large language models (LLMs) know little about enterprise database tables in the private data ecosystem, which substantially differ from web text in structure and content. As LLMs' performance is tied to their training data, a crucial question is how useful they can be in improving enterprise database management and analysis tasks. To address this, we contribute experimental results on LLMs' performance for text-to-SQL and semantic column-type detection tasks on enterprise datasets. The performance of LLMs on enterprise data is significantly lower than on benchmark datasets commonly used. Informed by our findings and feedback from industry practitioners, we identify three fundamental challenges -- latency, cost, and quality -- and propose potential solutions to use LLMs in enterprise data workflows effectively. | 翻訳日:2024-08-05 00:46:38 公開日:2024-07-22 |
# CP-Prompt:ドメイン・インクリメンタル連続学習のための構成に基づくクロスモーダル・プロンプト
CP-Prompt: Composition-Based Cross-modal Prompting for Domain-Incremental Continual Learning ( http://arxiv.org/abs/2407.21043v1 ) ライセンス: Link先を確認 | Yu Feng, Zhen Tian, Yifan Zhu, Zongfu Han, Haoran Luo, Guangwei Zhang, Meina Song, | (参考訳) クロスモーダルドメイン・インクリメンタル・ラーニング(DIL)の鍵となる課題は、学習モデルが古いことを忘れずに、同じタスクの下で異なる特徴分布を持つ新しいデータから継続的に学習できるようにすることである。
しかし、ドメイン内知識抽出とドメイン間共通プロンプト戦略が欠如しているため、既存のトップパフォーマンス手法は依然として高い忘れ込み率を引き起こす。
本稿では,制約パラメータをトレーニングして,事前学習したモデルに新しいドメインを学習させ,既存の特徴分布を忘れないようにする,シンプルで効果的なフレームワークCP-Promptを提案する。
CP-Promptはドメイン内知識を、多頭部自己注意層にパーソナライズされたプロンプトを合成的に挿入し、共通のプロンプト戦略でドメイン間知識を学ぶ。
CP-Promptは,3つの広く評価されたDILタスクにおいて,最先端のベースラインよりも優れていた。
ソースコードはhttps://github.com/dannis97500/CP_Prompt.comで入手できる。
The key challenge of cross-modal domain-incremental learning (DIL) is to enable the learning model to continuously learn from novel data with different feature distributions under the same task without forgetting old ones. However, existing top-performing methods still cause high forgetting rates, by lacking intra-domain knowledge extraction and inter-domain common prompting strategy. In this paper, we propose a simple yet effective framework, CP-Prompt, by training limited parameters to instruct a pre-trained model to learn new domains and avoid forgetting existing feature distributions. CP-Prompt captures intra-domain knowledge by compositionally inserting personalized prompts on multi-head self-attention layers and then learns the inter-domain knowledge with a common prompting strategy. CP-Prompt shows superiority compared with state-of-the-art baselines among three widely evaluated DIL tasks. The source code is available at https://github.com/dannis97500/CP_Prompt. | 翻訳日:2024-08-04 19:28:03 公開日:2024-07-22 |
# 可能性の解き放つ - ウォーターエンジニアリングと研究における大規模言語モデルのベンチマーク
Unlocking the Potential: Benchmarking Large Language Models in Water Engineering and Research ( http://arxiv.org/abs/2407.21045v1 ) ライセンス: Link先を確認 | Boyan Xu, Liang Wen, Zihao Li, Yuxing Yang, Guanlan Wu, Xiongpeng Tang, Yu Li, Zihao Wu, Qingxian Su, Xueqing Shi, Yue Yang, Rui Tong, How Yong Ng, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な分野にわたる潜在的な応用への関心を喚起している。
既存のLLMは、水工学や研究タスクの「水エキスパートモデル」として効果的に機能するのか?
この研究は、ドメイン固有のベンチマークスイート、すなわちWaterERを確立することで、様々な水工学および研究課題におけるLLMの貢献を初めて評価した。
そこで我々は,水工学と研究に関連する973の課題を,「汚水処理」「環境復元」「水処理と分布の低下」「衛生」「嫌気性消化」「汚染物質評価」に分類した。
これらの課題に対して、7つのLCM(GPT-4, GPT-3.5, Gemini, GLM-4, ERNIE, QWEN, Llama3)の性能評価を行った。
我々は,水工学および水工学研究の多様かつ複雑なタスクの処理におけるGPT-4の強み,学術的文脈におけるGeminiの特殊能力,中国の水工学的疑問に答えるLlama3の最大の能力,およびいくつかの水工学的課題におけるGLM-4,ERNIE,QWENといった中国指向モデルの競争性能について強調した。
より具体的には、現在のLLMは「汚染物質および関連する水質モニタリングおよび評価」に関する論文の正確な研究ギャップを生じさせるのに優れていた。
さらに、彼らは「排水処理プロセス」、「環境修復」、「排水処理」に関する研究論文の適切なタイトルを作成することに長けていた。
本研究は,水工学および研究におけるLCMの評価の先駆者であり,予測の信頼性を評価するためにWaterERベンチマークを導入した。
この標準化された評価フレームワークは、ターゲットデータセットを使用して将来のLLM技術の進歩を促進し、これらのモデルを真の「水の専門家」へと推進する。
Recent advancements in Large Language Models (LLMs) have sparked interest in their potential applications across various fields. This paper embarked on a pivotal inquiry: Can existing LLMs effectively serve as "water expert models" for water engineering and research tasks? This study was the first to evaluate LLMs' contributions across various water engineering and research tasks by establishing a domain-specific benchmark suite, namely, WaterER. Herein, we prepared 983 tasks related to water engineering and research, categorized into "wastewater treatment", "environmental restoration", "drinking water treatment and distribution", "sanitation", "anaerobic digestion" and "contaminants assessment". We evaluated the performance of seven LLMs (i.e., GPT-4, GPT-3.5, Gemini, GLM-4, ERNIE, QWEN and Llama3) on these tasks. We highlighted the strengths of GPT-4 in handling diverse and complex tasks of water engineering and water research, the specialized capabilities of Gemini in academic contexts, Llama3's strongest capacity to answer Chinese water engineering questions and the competitive performance of Chinese-oriented models like GLM-4, ERNIE and QWEN in some water engineering tasks. More specifically, current LLMs excelled particularly in generating precise research gaps for papers on "contaminants and related water quality monitoring and assessment". Additionally, they were more adept at creating appropriate titles for research papers on "treatment processes for wastewaters", "environmental restoration", and "drinking water treatment". Overall, this study pioneered evaluating LLMs in water engineering and research by introducing the WaterER benchmark to assess the trustworthiness of their predictions. This standardized evaluation framework would also drive future advancements in LLM technology by using targeting datasets, propelling these models towards becoming true "water expert". | 翻訳日:2024-08-04 19:28:03 公開日:2024-07-22 |
# 生成的マスク言語モデリングの約束と落とし穴:理論的枠組みと実践的ガイドライン
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines ( http://arxiv.org/abs/2407.21046v1 ) ライセンス: Link先を確認 | Yuchen Li, Alexandre Kirchmeyer, Aashay Mehta, Yilong Qin, Boris Dadachev, Kishore Papineni, Sanjiv Kumar, Andrej Risteski, | (参考訳) 自動回帰言語モデルは、現在テキスト生成において支配的なパラダイムであるが、いくつかの基本的な制限があり、例えば、本質的にシーケンシャルで一方向の生成では修正できない。
モデルの代替クラスが検討されているが、その基本的なパワーと限界に関する数学的理解は限られている。
本稿では,モデルからサンプルを抽出するためにマルコフチェインへの入力として使用されるマスキングにより,データ分布の条件付き確率に適合するようにモデルを訓練する,非自己回帰的パラダイムであるGMLM(Generative Masked Language Models)に焦点を当てる。
本研究では,サンプルの複雑さや推論速度,品質といった問題に光を当てたモデルの解析と改善のための数学的枠組みを開発する。
実験では,T5モデルを並列デコードに繰り返し適用し,自動回帰モデルと比較して,品質の犠牲を最小限に抑えながら,機械翻訳において2~3倍の高速化を実現した。
我々は、重要な設計選択について推奨を与えるため、慎重にアブレーション実験を行い、我々の理論に関連する一般的なエラーモードについて詳細に観察する。
我々の数学的分析と経験的観察は、このアプローチのポテンシャルと限界の両方を特徴づけ、GMLMの理解と性能を改善するための将来の研究に適用できる。
私たちのコードはhttps://github.com/google-research/google-research/tree/master/padirで公開されています。
Autoregressive language models are the currently dominant paradigm for text generation, but they have some fundamental limitations that cannot be remedied by scale-for example inherently sequential and unidirectional generation. While alternate classes of models have been explored, we have limited mathematical understanding of their fundamental power and limitations. In this paper we focus on Generative Masked Language Models (GMLMs), a non-autoregressive paradigm in which we train a model to fit conditional probabilities of the data distribution via masking, which are subsequently used as inputs to a Markov Chain to draw samples from the model, These models empirically strike a promising speed-quality trade-off as each step can be typically parallelized by decoding the entire sequence in parallel. We develop a mathematical framework for analyzing and improving such models which sheds light on questions of sample complexity and inference speed and quality. Empirically, we adapt the T5 model for iteratively-refined parallel decoding, achieving 2-3x speedup in machine translation with minimal sacrifice in quality compared with autoregressive models. We run careful ablation experiments to give recommendations on key design choices, and make fine-grained observations on the common error modes in connection with our theory. Our mathematical analyses and empirical observations characterize both potentials and limitations of this approach, and can be applied to future works on improving understanding and performance of GMLMs. Our codes are released at https://github.com/google-research/google-research/tree/master/padir | 翻訳日:2024-08-04 19:28:03 公開日:2024-07-22 |
# PAV:非構造化ビデオコレクションからパーソナライズされたヘッドアバター
PAV: Personalized Head Avatar from Unstructured Video Collection ( http://arxiv.org/abs/2407.21047v1 ) ライセンス: Link先を確認 | Akin Caliskan, Berkay Kicanaoglu, Hyeongwoo Kim, | (参考訳) 任意の視点と表情下での人間の顔合成のためのPAV, パーソナライズドヘッドアバターを提案する。
PAVは動的に変形可能なニューラルレイディアンスフィールド(NeRF)を学習する手法を導入する。
既存のヘッド型NeRF法とは違い,本手法では複数出現型NeRFを学習し,学習可能な潜伏型ニューラル特徴を付加して各入力ビデオに外観埋め込みを導入する。
さらに, 外観条件付き密度定式化は, 放射場予測において, 顔の毛髪や軟組織などのキャラクタの形状変化を促進する。
我々の知識を最大限に活用するために、我々のアプローチは、同一主題のマルチ出現のための単一の統一ネットワークにおいて、外観と形状のバリエーションをモデル化する初めての動的変形可能なNeRFフレームワークである。
種々の被験者を対象とした定量的・定性的研究において,PAVは視覚的レンダリング品質において,ベースライン法よりも優れることを示した。
We propose PAV, Personalized Head Avatar for the synthesis of human faces under arbitrary viewpoints and facial expressions. PAV introduces a method that learns a dynamic deformable neural radiance field (NeRF), in particular from a collection of monocular talking face videos of the same character under various appearance and shape changes. Unlike existing head NeRF methods that are limited to modeling such input videos on a per-appearance basis, our method allows for learning multi-appearance NeRFs, introducing appearance embedding for each input video via learnable latent neural features attached to the underlying geometry. Furthermore, the proposed appearance-conditioned density formulation facilitates the shape variation of the character, such as facial hair and soft tissues, in the radiance field prediction. To the best of our knowledge, our approach is the first dynamic deformable NeRF framework to model appearance and shape variations in a single unified network for multi-appearances of the same subject. We demonstrate experimentally that PAV outperforms the baseline method in terms of visual rendering quality in our quantitative and qualitative studies on various subjects. | 翻訳日:2024-08-04 19:28:03 公開日:2024-07-22 |
# AICircuit:AI駆動アナログ集積回路設計のためのマルチレベルデータセットとベンチマーク
AICircuit: A Multi-Level Dataset and Benchmark for AI-Driven Analog Integrated Circuit Design ( http://arxiv.org/abs/2407.18272v1 ) ライセンス: Link先を確認 | Asal Mehradfar, Xuzhe Zhao, Yue Niu, Sara Babakniya, Mahdi Alesheikh, Hamidreza Aghasi, Salman Avestimehr, | (参考訳) アナログ回路と高周波回路の設計は、消費電力や帯域幅といった特定の設計基準を満たすために、回路トポロジーとパラメータの両方を広範囲に探究する必要がある。
設計者は文学における最先端のトポロジ構成をレビューし、各構成内で様々な回路パラメータを精査しなければならない。
この設計プロセスは、特に回路パラメータの数が増加し、回路が複雑になるにつれて、高度に専門化され、時間集約化されている。
これまでの研究は、回路設計手順を強化する機械学習の可能性を探ってきた。
しかし、これらの研究は主に単純な回路に焦点をあて、より実用的で複雑なアナログ・無線周波数システムを見渡す。
回路設計における機械学習のパワーを担う大きな障害は、アナログおよび高周波回路領域における機械学習アルゴリズムを徹底的に評価し改善するために不可欠である、堅牢なメトリクスとともに、汎用的で多様なデータセットが利用可能であることである。
本稿では、アナログ回路設計におけるMLアルゴリズムの開発と評価のための総合的なマルチレベルデータセットとベンチマークであるAICircuitを提案する。
AICircuitは7つの一般的な基本回路と、複数の回路ブロックで構成される2つの複雑な無線トランシーバシステムで構成され、現実世界のアプリケーションで発生する幅広い設計シナリオを含んでいる。
設計仕様から所望の回路パラメータへのマッピング学習におけるMLアルゴリズムの可能性を明らかにする。
Analog and radio-frequency circuit design requires extensive exploration of both circuit topology and parameters to meet specific design criteria like power consumption and bandwidth. Designers must review state-of-the-art topology configurations in the literature and sweep various circuit parameters within each configuration. This design process is highly specialized and time-intensive, particularly as the number of circuit parameters increases and the circuit becomes more complex. Prior research has explored the potential of machine learning to enhance circuit design procedures. However, these studies primarily focus on simple circuits, overlooking the more practical and complex analog and radio-frequency systems. A major obstacle for bearing the power of machine learning in circuit design is the availability of a generic and diverse dataset, along with robust metrics, which are essential for thoroughly evaluating and improving machine learning algorithms in the analog and radio-frequency circuit domain. We present AICircuit, a comprehensive multi-level dataset and benchmark for developing and evaluating ML algorithms in analog and radio-frequency circuit design. AICircuit comprises seven commonly used basic circuits and two complex wireless transceiver systems composed of multiple circuit blocks, encompassing a wide array of design scenarios encountered in real-world applications. We extensively evaluate various ML algorithms on the dataset, revealing the potential of ML algorithms in learning the mapping from the design specifications to the desired circuit parameters. | 翻訳日:2024-07-29 15:18:53 公開日:2024-07-22 |
# StreamTinyNet:時空間TinyMLを用いたビデオストリーミング解析
StreamTinyNet: video streaming analysis with spatial-temporal TinyML ( http://arxiv.org/abs/2407.17524v1 ) ライセンス: Link先を確認 | Hazem Hesham Yousef Shalby, Massimo Pavan, Manuel Roveri, | (参考訳) Tiny Machine Learning (TinyML) は、MLの世界と組み込みシステムエコシステム(IoTデバイス、組み込みデバイス、エッジコンピューティングユニット)の橋渡しを構成する機械学習(ML)のブランチであり、メモリ、計算能力、消費電力の点で制約されたデバイス上でMLアルゴリズムの実行を可能にする。
TinyMLの最も興味深いタスクのひとつであるビデオストリーミング分析(VSA)は、興味深いパターンを特定することを目的として、ストリーミング方法で一連のフレームをスキャンする。
これらの小さなデバイスの厳密な制約を考えると、現在のソリューションはすべてフレーム単位の分析に頼っているため、データストリームの時間的コンポーネントを利用できない。
本稿では,マルチフレームVSAを実現する最初のTinyMLアーキテクチャであるStreamTinyNetを提案する。
公開データセットの実験結果から,提案手法の有効性と有効性を示した。
最後に、StreamTinyNetはArduino Nicla Visionで移植され、テストされている。
Tiny Machine Learning (TinyML) is a branch of Machine Learning (ML) that constitutes a bridge between the ML world and the embedded system ecosystem (i.e., Internet of Things devices, embedded devices, and edge computing units), enabling the execution of ML algorithms on devices constrained in terms of memory, computational capabilities, and power consumption. Video Streaming Analysis (VSA), one of the most interesting tasks of TinyML, consists in scanning a sequence of frames in a streaming manner, with the goal of identifying interesting patterns. Given the strict constraints of these tiny devices, all the current solutions rely on performing a frame-by-frame analysis, hence not exploiting the temporal component in the stream of data. In this paper, we present StreamTinyNet, the first TinyML architecture to perform multiple-frame VSA, enabling a variety of use cases that requires spatial-temporal analysis that were previously impossible to be carried out at a TinyML level. Experimental results on public-available datasets show the effectiveness and efficiency of the proposed solution. Finally, StreamTinyNet has been ported and tested on the Arduino Nicla Vision, showing the feasibility of what proposed. | 翻訳日:2024-07-26 18:08:23 公開日:2024-07-22 |
# 蒸留トンプソンサンプリング:模倣学習による実用的で効率的なトンプソンサンプリング
Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning ( http://arxiv.org/abs/2011.14266v3 ) ライセンス: Link先を確認 | Hongseok Namkoong, Samuel Daulton, Eytan Bakshy, | (参考訳) トンプソンサンプリング(TS)は文脈的包帯問題に対する堅牢な手法として登場した。
しかし、TSは後続の推論とアクション生成の最適化を必要としており、レイテンシとデプロイの容易さが懸念される多くのオンラインプラットフォームでの使用を禁止している。
我々は、TSポリシーを明示的なポリシー表現に蒸留し、高速な意思決定とモバイルおよびサーバベースの環境への展開を可能にする、新しい模倣学習ベースのアルゴリズムを提案して、TSを運用する。
本アルゴリズムは,模倣ポリシーに基づいて収集されたバッチデータを用いて,TSポリシーのオフライン更新を反復的に実行し,それを模倣する新しい明示的なポリシー表現を学習する。
実証的に、我々の模倣ポリシーは、バッチTSに匹敵する性能を達成しつつ、決定時間レイテンシの桁違いの削減を可能にします。
低レイテンシと実装の単純さによって、我々のアルゴリズムはMeta用の複数のビデオアップロードシステムにうまく展開されている。
ランダム化比較試験を用いて,本アルゴリズムは映像品質と視聴時間を大幅に改善したことを示す。
Thompson sampling (TS) has emerged as a robust technique for contextual bandit problems. However, TS requires posterior inference and optimization for action generation, prohibiting its use in many online platforms where latency and ease of deployment are of concern. We operationalize TS by proposing a novel imitation-learning-based algorithm that distills a TS policy into an explicit policy representation, allowing fast decision-making and easy deployment in mobile and server-based environments. Using batched data collected under the imitation policy, our algorithm iteratively performs offline updates to the TS policy, and learns a new explicit policy representation to imitate it. Empirically, our imitation policy achieves performance comparable to batch TS while allowing more than an order of magnitude reduction in decision-time latency. Buoyed by low latency and simplicity of implementation, our algorithm has been successfully deployed in multiple video upload systems for Meta. Using a randomized controlled trial, we show our algorithm resulted in significant improvements in video quality and watch time. | 翻訳日:2024-07-25 20:17:42 公開日:2024-07-22 |
# 顕微鏡としてのベンチマーク - モデルメトロロジーへのコール
Benchmarks as Microscopes: A Call for Model Metrology ( http://arxiv.org/abs/2407.16711v1 ) ライセンス: Link先を確認 | Michael Saxon, Ari Holtzman, Peter West, William Yang Wang, Naomi Saphra, | (参考訳) 現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
静的ベンチマークは、LMベースのシステムのデプロイメント耐性に自信を持たずに必然的に飽和するが、それでも開発者は、彼らのモデルは、これらの欠陥のあるメトリクスに基づいた推論やオープンドメイン言語理解のような一般化された特徴を持っていると主張している。
LMの科学と実践は、動的アセスメントで特定の能力を測定するベンチマークに新しいアプローチを必要とする。
メトリクスに自信を持つためには、モデルメロジ – デプロイメント中のパフォーマンスを予測するベンチマークの生成方法に焦点を当てた、モデルメロジの新たな規律が必要です。評価基準によって、モデルメロジ実践者のコミュニティの構築 — ツールの構築とシステム機能の測定方法の研究 – が、これらのニーズを満たす最善の方法であり、AI議論に明快さを加える方法である、と概説します。
Modern language models (LMs) pose a new challenge in capability assessment. Static benchmarks inevitably saturate without providing confidence in the deployment tolerances of LM-based systems, but developers nonetheless claim that their models have generalized traits such as reasoning or open-domain language understanding based on these flawed metrics. The science and practice of LMs requires a new approach to benchmarking which measures specific capabilities with dynamic assessments. To be confident in our metrics, we need a new discipline of model metrology -- one which focuses on how to generate benchmarks that predict performance under deployment. Motivated by our evaluation criteria, we outline how building a community of model metrology practitioners -- one focused on building tools and studying how to measure system capabilities -- is the best way to meet these needs to and add clarity to the AI discussion. | 翻訳日:2024-07-25 17:52:45 公開日:2024-07-22 |
# Sparse High Rank Adaptersによる高速スイッチングとマルチアダプタフュージョン
Rapid Switching and Multi-Adapter Fusion via Sparse High Rank Adapters ( http://arxiv.org/abs/2407.16712v1 ) ライセンス: Link先を確認 | Kartikeya Bhardwaj, Nilesh Prasad Pandey, Sweta Priyadarshi, Viswanath Ganapathy, Rafael Esteves, Shreya Kadambi, Shubhankar Borse, Paul Whatmough, Risheek Garrepalli, Mart Van Baalen, Harris Teague, Markus Nagel, | (参考訳) 本稿では,Sparse High Rank Adapters (SHiRA)を提案する。
この高分散性は、推論オーバーヘッドを発生させることなく、融合モードで直接切り替えることを可能にし、マルチアダプタ融合時の概念損失を著しく低減する。
LVM と LLM に関する広範な実験により、基礎モデルの1-2% しかパラメータを微調整するだけで、多くのアダプタタスクに十分であり、ローランク適応 (LoRA) を著しく上回っていることが示された。
また、SHiRAはDoRAのような先進的なLoRA手法と直交しており、既存の手法と容易に組み合わせることができることを示す。
In this paper, we propose Sparse High Rank Adapters (SHiRA) that directly finetune 1-2% of the base model weights while leaving others unchanged, thus, resulting in a highly sparse adapter. This high sparsity incurs no inference overhead, enables rapid switching directly in the fused mode, and significantly reduces concept-loss during multi-adapter fusion. Our extensive experiments on LVMs and LLMs demonstrate that finetuning merely 1-2% parameters in the base model is sufficient for many adapter tasks and significantly outperforms Low Rank Adaptation (LoRA). We also show that SHiRA is orthogonal to advanced LoRA methods such as DoRA and can be easily combined with existing techniques. | 翻訳日:2024-07-25 17:52:45 公開日:2024-07-22 |
# 構成可能な対話システムのためのコンテナ形態
Container Morphisms for Composable Interactive Systems ( http://arxiv.org/abs/2407.16713v1 ) ライセンス: Link先を確認 | André Videla, | (参考訳) 本稿では,モジュール型およびタイプセーフ型アーキテクチャを実現するクライアントサーバ通信のための数学的フレームワークを提供する。
データベース層とフロントエンドを備えたサーババックエンドを開発するという、ソフトウェアエンジニアリングのプラクティスによって、これらすべてが要求/応答の概念と通信する、という情報と動機付けを受けています。
私は、リクエスト/レスポンスの関係が一致することを保証するために依存型を使用し、このアイデアがコンテナのより広いコンテキストとそれらの射にどのように適合するかを示しています。
コンテナのカテゴリとそのモノノイド製品を使って、関数型プログラミングを模倣するコンテナ上のモナドを定義し、Kleeneスターを使って、同じシステムでステートフルなプロトコルを記述します。
This paper provides a mathematical framework for client-server communication that results in a modular and type-safe architecture. It is informed and motivated by the software engineering practice of developing server backends with a database layer and a frontend, all of which communicate with a notion of request/response. I make use of dependent types to ensure the request/response relation matches and show how this idea fits in the broader context of containers and their morphisms. Using the category of containers and their monoidal products, I define monads on containers that mimic their functional programming counterparts, and using the Kleene star, I describe stateful protocols in the same system. | 翻訳日:2024-07-25 17:52:45 公開日:2024-07-22 |
# 進化的アルゴリズムを用いた確率シミュレーションによる育種プログラム設計の最適化
Optimization of breeding program design through stochastic simulation with evolutionary algorithms ( http://arxiv.org/abs/2407.17286v1 ) ライセンス: Link先を確認 | Azadeh Hassanpour, Johannes Geibel, Henner Simianer, Antje Rohde, Torsten Pook, | (参考訳) 現代の育種プログラムにおける資源の効果的な計画と配分は複雑な作業である。
育種プログラムの設計と運用管理は、育種プログラムの成功に大きな影響を与え、選択された/フェノタイプ/遺伝子型個体の数や遺伝的多様性、コストに影響を及ぼすパラメータを変化させる。
その結果、異なる育種目標と関連するコストのトレードオフを考慮して、デザインパラメータの慎重な評価とバランスが重要である。
前報では, 遺伝的ゲインと交配率を含む目標関数を所定の予算で最大化することを目的として, 確率的シミュレーションとカーネル回帰を組み合わせることにより, 乳牛繁殖方式における資源配分戦略を最適化した。
しかし、多くのパラメータを持つ育種プログラムを最適化するために提案したカーネル回帰法を使用する場合のシミュレーションは、そのような方法の有効性を弱める。
本研究では、カーネル回帰の概念に基づく最適化フレームワークを提案するが、さらに、より効率的で汎用的な最適化を可能にする進化的アルゴリズムを利用する。
鍵となる考え方は、育種プログラムの潜在的なパラメータ化のセットを検討し、確率的シミュレーションに基づいてそれらの性能を評価し、これらの出力を使用して新しいパラメータ化を導出し、反復的な手順でテストすることである。
進化的アルゴリズムはSnakemakeパイプラインで実装され、大規模分散コンピューティングプラットフォームでの効率的なスケーリングを可能にした。
このアルゴリズムは、膨大な数のシミュレーションで同じ最適値に収束することに成功した。
これにより、クラス変数の組み込みと最適化パイプラインのパラメータ数の増大により、計算時間が大幅に削減され、育種プログラムの望ましい最適化のためのスケーリングが向上する。
The effective planning and allocation of resources in modern breeding programs is a complex task. Breeding program design and operational management have a major impact on the success of a breeding program and changing parameters such as the number of selected/phenotyped/genotyped individuals will impact genetic gain, genetic diversity, and costs. As a result, careful assessment and balancing of design parameters is crucial, considering the trade-offs between different breeding goals and associated costs. In a previous study, we optimized the resource allocation strategy in a dairy cattle breeding scheme via the combination of stochastic simulations and kernel regression, aiming to maximize a target function containing genetic gain and the inbreeding rate under a given budget. However, the high number of simulations required when using the proposed kernel regression method to optimize a breeding program with many parameters weakens the effectiveness of such a method. In this work, we are proposing an optimization framework that builds on the concepts of kernel regression but additionally makes use of an evolutionary algorithm to allow for a more effective and general optimization. The key idea is to consider a set of potential parameterizations of the breeding program, evaluate their performance based on stochastic simulations, and use these outputs to derive new parametrization to test in an iterative procedure. The evolutionary algorithm was implemented in a Snakemake pipeline to allow for efficient scaling on large distributed computing platforms. The algorithm achieved convergence to the same optimum with a massively reduced number of simulations. Thereby, the incorporation of class variables and accounting for a higher number of parameters in the optimization pipeline leads to substantially reduced computing time and better scaling for the desired optimization of a breeding program. | 翻訳日:2024-07-25 13:44:46 公開日:2024-07-22 |
# テンソルにインスパイアされた不変性と正の多項分解
Polynomial decompositions with invariance and positivity inspired by tensors ( http://arxiv.org/abs/2109.06680v2 ) ライセンス: Link先を確認 | Gemma De las Cuevas, Andreas Klingler, Tim Netzer, | (参考訳) 不変性と肯定性を保ちながら実多変量多項式を分解する枠組みを提案する。
このフレームワークは、特に量子多体系において、テンソル分解のために最近導入された。
ここでは、分解構造、変数の置換の下での不変性、階数不等式と分離、近似、および非決定性についての結果を実多項式に転送する。
具体的には、多項式の不変分解を定義し、どの多項式がそのような分解を許容するかを特徴づける。
不変可分分解と総和分解を定義し、同様に多項式を特徴づける。
分解のランク間の不等式と分離を提供し、その分離が近似に関して堅牢でないことを示す。
巡回不変分解に対しては、多項式が非負であるか、あるいは全ての系サイズに対して二乗和であるかは決定不可能であることを示す。
我々の研究は、多項式をテンソルで等しい足場に置き、この枠組みを他のテンソル積構造に拡張する扉を開くことで、多項式に新しい光を放つ。
We present a framework to decompose real multivariate polynomials while preserving invariance and positivity. This framework has been recently introduced for tensor decompositions, in particular for quantum many-body systems. Here we transfer results about decomposition structures, invariance under permutations of variables, positivity, rank inequalities and separations, approximations, and undecidability to real polynomials. Specifically, we define invariant decompositions of polynomials and characterize which polynomials admit such decompositions. We then include positivity: We define invariant separable and sum-of-squares decompositions, and characterize the polynomials similarly. We provide inequalities and separations between the ranks of the decompositions, and show that the separations are not robust with respect to approximations. For cyclically invariant decompositions, we show that it is undecidable whether the polynomial is nonnegative or sum-of-squares for all system sizes. Our work sheds new light on polynomials by putting them on an equal footing with tensors, and opens the door to extending this framework to other tensor product structures. | 翻訳日:2024-07-24 23:52:45 公開日:2024-07-22 |
# 医用画像における信頼できる人工知能の原理とコンセンサス勧告
FUTURE-AI: Guiding Principles and Consensus Recommendations for Trustworthy Artificial Intelligence in Medical Imaging ( http://arxiv.org/abs/2109.09658v6 ) ライセンス: Link先を確認 | Karim Lekadir, Richard Osuala, Catherine Gallin, Noussair Lazrak, Kaisar Kushibar, Gianna Tsakou, Susanna Aussó, Leonor Cerdá Alberich, Kostas Marias, Manolis Tsiknakis, Sara Colantonio, Nickolas Papanikolaou, Zohaib Salahuddin, Henry C Woodruff, Philippe Lambin, Luis Martí-Bonmatí, | (参考訳) 人工知能(AI)の最近の進歩は、今日の臨床システムによって生成される膨大なデータと相まって、画像再構成、医用画像分割、画像ベースの診断、治療計画を含む、医療画像のバリューチェーン全体にわたる画像AIソリューションの開発につながっている。
医療画像におけるAIの成功と将来の可能性にかかわらず、多くの利害関係者は、AIソリューションの潜在的なリスクと倫理的影響を懸念している。
これらの懸念とリスクに対処するため、Future-AIフレームワークが提案されている。このフレームワークは、グローバルなマルチドメイン専門家の合意に基づいて、医療におけるAIの信頼性、安全性、採用を促進するための原則を導いたものだ。
本稿では,一般のFuture-AIヘルスケアの原則を,医療画像コミュニティのニーズに合わせて,簡潔かつ具体的なAI実装ガイドに変換する。
この目的のために我々は,Future-AIフレームワークの各ビルディングブロックを慎重に評価する。
(i)公平さ。
(二)普遍性
(三)トレーサビリティ
(4)ユーザビリティ
(五)ロバスト性及びロバスト性
vi) 説明可能性(Explainability)を定義し、それぞれ、Health ImagingにおけるAIに関する5つの大きなヨーロッパプロジェクトから蓄積したAI実装経験に基づいて、具体的なベストプラクティスを定義します。
我々の具体的なステップバイステップの医療画像開発ガイドに、実用的なAIソリューションの成熟度チェックリストを添付することで、AI開発チームが、技術的、臨床的、倫理的に信頼できるAIソリューションを臨床実践に設計、評価、保守、デプロイできるようになります。
The recent advancements in artificial intelligence (AI) combined with the extensive amount of data generated by today's clinical systems, has led to the development of imaging AI solutions across the whole value chain of medical imaging, including image reconstruction, medical image segmentation, image-based diagnosis and treatment planning. Notwithstanding the successes and future potential of AI in medical imaging, many stakeholders are concerned of the potential risks and ethical implications of imaging AI solutions, which are perceived as complex, opaque, and difficult to comprehend, utilise, and trust in critical clinical applications. Addressing these concerns and risks, the FUTURE-AI framework has been proposed, which, sourced from a global multi-domain expert consensus, comprises guiding principles for increased trust, safety, and adoption for AI in healthcare. In this paper, we transform the general FUTURE-AI healthcare principles to a concise and specific AI implementation guide tailored to the needs of the medical imaging community. To this end, we carefully assess each building block of the FUTURE-AI framework consisting of (i) Fairness, (ii) Universality, (iii) Traceability, (iv) Usability, (v) Robustness and (vi) Explainability, and respectively define concrete best practices based on accumulated AI implementation experiences from five large European projects on AI in Health Imaging. We accompany our concrete step-by-step medical imaging development guide with a practical AI solution maturity checklist, thus enabling AI development teams to design, evaluate, maintain, and deploy technically, clinically and ethically trustworthy imaging AI solutions into clinical practice. | 翻訳日:2024-07-24 23:52:45 公開日:2024-07-22 |
# 自信の低いバックドアは、レジリエントで頑丈なバックドア
Under-confidence Backdoors Are Resilient and Stealthy Backdoors ( http://arxiv.org/abs/2202.11203v2 ) ライセンス: Link先を確認 | Minlong Peng, Zidi Xiong, Quang H. Nguyen, Mingming Sun, Khoa D. Doan, Ping Li, | (参考訳) トレーニングセットに少量の有毒サンプルを注入することで、バックドア攻撃は、事前に設計されたバックドアで注入された入力に対して、設計されたアウトプットを生成することを目的としている。
有毒なトレーニングサンプルを可能な限り少なく使用して高い攻撃成功率を達成するため、既存の攻撃手法では、有毒なサンプルのラベルをターゲットクラスに変更している。
この慣行は、しばしば被害者モデルをバックドアに過度に適合させ、攻撃は出力制御に非常に効果的であるが、人間の検査や自動防御アルゴリズムによって容易に識別できる。
本研究では,これらの攻撃手法の過度に適合する問題を克服するためのラベル平滑化戦略を提案し,LSBA (textit{Label-Smoothed Backdoor Attack}) を得た。
LSBA では、有毒なサンプル $\bm{x}$ のラベルは 100 % ではなく $p_n(\bm{x})$ の確率でターゲットクラスに変更される。
いくつかの既存のバックドア攻撃に関する実証研究は、我々の戦略がこれらの攻撃のステルスネスを大幅に改善し、同時に高い攻撃成功率を達成することを示している。
LSBAs\footnote{Source code will be published at \url{https://github.com/v-mipeng/LabelSmoothedAttack.git}}。
By injecting a small number of poisoned samples into the training set, backdoor attacks aim to make the victim model produce designed outputs on any input injected with pre-designed backdoors. In order to achieve a high attack success rate using as few poisoned training samples as possible, most existing attack methods change the labels of the poisoned samples to the target class. This practice often results in severe over-fitting of the victim model over the backdoors, making the attack quite effective in output control but easier to be identified by human inspection or automatic defense algorithms. In this work, we proposed a label-smoothing strategy to overcome the over-fitting problem of these attack methods, obtaining a \textit{Label-Smoothed Backdoor Attack} (LSBA). In the LSBA, the label of the poisoned sample $\bm{x}$ will be changed to the target class with a probability of $p_n(\bm{x})$ instead of 100\%, and the value of $p_n(\bm{x})$ is specifically designed to make the prediction probability the target class be only slightly greater than those of the other classes. Empirical studies on several existing backdoor attacks show that our strategy can considerably improve the stealthiness of these attacks and, at the same time, achieve a high attack success rate. In addition, our strategy makes it able to manually control the prediction probability of the design output through manipulating the applied and activated number of LSBAs\footnote{Source code will be published at \url{https://github.com/v-mipeng/LabelSmoothedAttack.git}}. | 翻訳日:2024-07-24 23:52:45 公開日:2024-07-22 |
# 局所マルコフ量子力学と非マルコフ量子力学の組み合わせに対する多党スポンの定理
Multiparty Spohn's theorem for a combination of local Markovian and non-Markovian quantum dynamics ( http://arxiv.org/abs/2208.13026v2 ) ライセンス: Link先を確認 | Ahana Ghoshal, Ujjwal Sen, | (参考訳) 我々はマルコフ熱浴と非マルコフ熱浴の組み合わせに局所的に連結された2つ以上の量子系に対するゴリーニ・コサコフスキー・スダルシャン・リンドブラッドのようなマスター方程式を得る。
マスター方程式は元々、マルコフ的環境と非マルコフ的環境のどちらかが排他的であるマルチパーティシステムに対して定式化された。
マルコフ熱浴と非マルコフ熱浴を混合した複数の量子系を包含するように拡張する。
非マルコフ環境とマルコフ環境の共存は、特に原子-光子配置のようなハイブリッド物理系を研究する際には、もっともらしいシナリオである。
このような局所環境の集合に対する熱力学量を分析し、設定に対するスポンの定理の修正形式を導出する。
定理の修正は自然に証人につながるだけでなく、非マルコビアン性の計算が容易な量化子にも繋がる。
その結果,マルコフ熱浴と非マルコフ熱浴の組み合わせが有効である多党的状況において,非マルコフ熱浴による熱力学系特性の応答は進化の初期に近い時期において顕著であり,長期的挙動はマルコフ熱浴に支配されていることが示唆された。
We obtain a Gorini-Kossakowski-Sudarshan-Lindblad -like master equation for two or more quantum systems connected locally to a combination of Markovian and non-Markovian heat baths. The master equation was originally formulated for multiparty systems with either exclusively Markovian or non-Markovian environments. We extend it to encompass the case of multiple quantum systems connected to a mixture of Markovian and non-Markovian heat baths. The coexistence of both non-Markovian and Markovian environments is a plausible scenario, particularly when studying hybrid physical systems such as atom-photon arrangements. We analyze the thermodynamic quantities for such a set of local environments, and derive a modified form of the Spohn's theorem for the setup. The modification of the theorem naturally leads to a witness as well as an easily computable quantifier of non-Markovianity. Expectedly, we find that for multiparty situations, where a combination of Markovian and non-Markovian heat baths are active, the response in thermodynamic system characteristics due to non-Markovian baths is prominent at times close to the initial time of evolution, whereas the long-time behavior is predominantly controlled by the Markovian ones. | 翻訳日:2024-07-24 23:52:45 公開日:2024-07-22 |
# 近似シャープネスを受ける再起動:一階法におけるパラメータフリーかつ最適スキーム
Restarts subject to approximate sharpness: A parameter-free and optimal scheme for first-order methods ( http://arxiv.org/abs/2301.02268v2 ) ライセンス: Link先を確認 | Ben Adcock, Matthew J. Colbrook, Maksym Neyra-Nesterenko, | (参考訳) シャープネス(Sharpness)は、目的関数の準最適性によってミニマからの距離を束縛する連続最適化におけるほぼ一般的な仮定である。
再起動による1次メソッドのアクセラレーションを容易にする。
しかしながら、シャープネスは典型的には未知の問題固有の定数を伴い、再起動スキームは典型的には収束率を減少させる。
さらに、これらのスキームはノイズや近似モデルクラス(例えば、圧縮画像や学習問題)の存在下で適用することは困難であり、一般的に使用される一階法が実現可能な反復を生成すると仮定する。
対象関数の誤差に未知の定数摂動を組み込んだシャープネスの一般化である近似シャープネスの仮定を考察する。
この定数は、近似最小値を見つけるためのより強い堅牢性(例えば、モデルクラスのノイズや緩和)を提供する。
未知定数に新しいタイプの探索を適用することで、一般的な一階法に適用し、実現可能なイテレートを生成するために一階法を必要としない再起動方式を設計する。
我々のスキームは定数が知られているときと同じ収束率を維持する。
様々な一階法で達成した収束率は、幅広い問題の最適値と一致するか、以前に確立された速度を改善する。
提案手法をいくつかの例で紹介し,今後のフレームワークと理論の応用と展開について紹介する。
Sharpness is an almost generic assumption in continuous optimization that bounds the distance from minima by objective function suboptimality. It facilitates the acceleration of first-order methods through restarts. However, sharpness involves problem-specific constants that are typically unknown, and restart schemes typically reduce convergence rates. Moreover, these schemes are challenging to apply in the presence of noise or with approximate model classes (e.g., in compressive imaging or learning problems), and they generally assume that the first-order method used produces feasible iterates. We consider the assumption of approximate sharpness, a generalization of sharpness that incorporates an unknown constant perturbation to the objective function error. This constant offers greater robustness (e.g., with respect to noise or relaxation of model classes) for finding approximate minimizers. By employing a new type of search over the unknown constants, we design a restart scheme that applies to general first-order methods and does not require the first-order method to produce feasible iterates. Our scheme maintains the same convergence rate as when the constants are known. The convergence rates we achieve for various first-order methods match the optimal rates or improve on previously established rates for a wide range of problems. We showcase our restart scheme in several examples and highlight potential future applications and developments of our framework and theory. | 翻訳日:2024-07-24 23:52:45 公開日:2024-07-22 |
# 深達度多重像像を用いた高分解能乳房スキャンにおける教師なし異常像定位
Unsupervised anomaly localization in high-resolution breast scans using deep pluralistic image completion ( http://arxiv.org/abs/2305.03098v2 ) ライセンス: Link先を確認 | Nicholas Konz, Haoyu Dong, Maciej A. Mazurowski, | (参考訳) デジタル乳房共生(DBT)における腫瘍自動検出は, 天然腫瘍の出現率, 乳房組織の変化, 高分解能のため難しい課題である。
異常画像の不足と正常画像の多さを考えると,異常検出・局所化アプローチが適している可能性がある。
しかし、機械学習におけるほとんどの異常なローカライゼーション研究は、非医療的データセットに焦点を当てており、医療画像データセットに適用した場合、これらの手法は不足している。
画像補完の観点からタスクを解く際には、元の外観と周囲に条件付けられた自動補完との相違により異常の存在を示すことができる。
しかし、同じ環境、特にDBTデータセットにおいて、多くの有効な正規補完が存在するため、この評価基準はより正確ではない。
このような問題に対処するために、固定された予測を生成する代わりに、可能な完了の分布を探索し、多元的画像補完を考える。
これは、推論時間のみに空間的なドロップアウトを適用し、追加のトレーニングコストを必要とせず、多様な完了を生成するのに有効である。
さらに,これらの確率的完備化により,異常を検出するための新しい指標である最小完備距離(MCD)を提案する。
本稿では,提案手法を異常局所化に用いた既存手法よりも優れていることを示すとともに,理論的支援を行う。
DBTデータセットでは、我々のモデルは、画素レベルの検出のために、AUROCを少なくとも10倍以上の精度で、他の最先端手法よりも優れています。
Automated tumor detection in Digital Breast Tomosynthesis (DBT) is a difficult task due to natural tumor rarity, breast tissue variability, and high resolution. Given the scarcity of abnormal images and the abundance of normal images for this problem, an anomaly detection/localization approach could be well-suited. However, most anomaly localization research in machine learning focuses on non-medical datasets, and we find that these methods fall short when adapted to medical imaging datasets. The problem is alleviated when we solve the task from the image completion perspective, in which the presence of anomalies can be indicated by a discrepancy between the original appearance and its auto-completion conditioned on the surroundings. However, there are often many valid normal completions given the same surroundings, especially in the DBT dataset, making this evaluation criterion less precise. To address such an issue, we consider pluralistic image completion by exploring the distribution of possible completions instead of generating fixed predictions. This is achieved through our novel application of spatial dropout on the completion network during inference time only, which requires no additional training cost and is effective at generating diverse completions. We further propose minimum completion distance (MCD), a new metric for detecting anomalies, thanks to these stochastic completions. We provide theoretical as well as empirical support for the superiority over existing methods of using the proposed method for anomaly localization. On the DBT dataset, our model outperforms other state-of-the-art methods by at least 10\% AUROC for pixel-level detection. | 翻訳日:2024-07-24 23:43:00 公開日:2024-07-22 |
# 不均一テーブルからのスキーマ駆動型情報抽出
Schema-Driven Information Extraction from Heterogeneous Tables ( http://arxiv.org/abs/2305.14336v4 ) ライセンス: Link先を確認 | Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Mark Dredze, Alan Ritter, | (参考訳) 本稿では,大規模言語モデルがテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。
人為的なスキーマに従って、表形式のデータを構造化されたレコードに変換する新しいタスクである、スキーマ駆動情報抽出を導入する。
本研究は, 機械学習論文, 化学文献, 物質科学雑誌, ウェブページの4分野を対象に, 各種LCMの能力評価を行う。
このアノテートテーブルのコレクションを用いて、オープンソースおよびAPIベースの言語モデルを用いて、さまざまなドメインやデータフォーマットをカバーするテーブルから情報を抽出する能力を評価する。
我々の実験は、タスク固有のパイプラインやラベルを必要とせず、74.2から96.1までのF1スコアを達成し、コスト効率を維持しながら、驚くほどの競争性能を達成できることを示した。
さらに, 細部にわたるアブレーション研究と分析を通じて, モデル成功に寄与する要因について検討し, 小型蒸留モデルの実用性を検証し, API依存度を低減した。
In this paper, we explore the question of whether large language models can support cost-efficient information extraction from tables. We introduce schema-driven information extraction, a new task that transforms tabular data into structured records following a human-authored schema. To assess various LLM's capabilities on this task, we present a benchmark comprised of tables from four diverse domains: machine learning papers, chemistry literature, material science journals, and webpages. We use this collection of annotated tables to evaluate the ability of open-source and API-based language models to extract information from tables covering diverse domains and data formats. Our experiments demonstrate that surprisingly competitive performance can be achieved without requiring task-specific pipelines or labels, achieving F1 scores ranging from 74.2 to 96.1, while maintaining cost efficiency. Moreover, through detailed ablation studies and analyses, we investigate the factors contributing to model success and validate the practicality of distilling compact models to reduce API reliance. | 翻訳日:2024-07-24 23:43:00 公開日:2024-07-22 |
# マッチングにおけるシャープ収束率
Sharp Convergence Rates for Matching Pursuit ( http://arxiv.org/abs/2307.07679v3 ) ライセンス: Link先を確認 | Jason M. Klusowski, Jonathan W. Siegel, | (参考訳) 目的関数を辞書から$f_n$ of $n$要素で近似するために,マッチング探索の基本的限界,すなわち純粋欲求アルゴリズムについて検討する。
対象関数が辞書に対応する変分空間に含まれるとき、過去数十年の多くの印象的な研究は、マッチング追従の誤差$\|f-f_n\|$の上下境界を得たが、それらは一致しない。
本論文の主な貢献は、このギャップを閉じ、一致する追従の崩壊率$n^{-\alpha}$を鋭く特徴づけることである。
具体的には,既存の最上界を著しく改善できないことを示す最悪の事例辞書を構築した。
最適率$n^{-1/2}$で収束する他のグリーディアルゴリズムの変種とは異なり、収束率$n^{-\alpha}$は準最適であることが判明した。
ここで、$\alpha \approx 0.182$は、ある非線型方程式の解によって決定される。
We study the fundamental limits of matching pursuit, or the pure greedy algorithm, for approximating a target function $ f $ by a linear combination $f_n$ of $n$ elements from a dictionary. When the target function is contained in the variation space corresponding to the dictionary, many impressive works over the past few decades have obtained upper and lower bounds on the error $\|f-f_n\|$ of matching pursuit, but they do not match. The main contribution of this paper is to close this gap and obtain a sharp characterization of the decay rate, $n^{-\alpha}$, of matching pursuit. Specifically, we construct a worst case dictionary which shows that the existing best upper bound cannot be significantly improved. It turns out that, unlike other greedy algorithm variants which converge at the optimal rate $ n^{-1/2}$, the convergence rate $n^{-\alpha}$ is suboptimal. Here, $\alpha \approx 0.182$ is determined by the solution to a certain non-linear equation. | 翻訳日:2024-07-24 23:33:02 公開日:2024-07-22 |
# トポロジカルフロケ共鳴による量子放出の増強
Enhanced quantum emission from a topological Floquet resonance ( http://arxiv.org/abs/2308.11451v2 ) ライセンス: Link先を確認 | Shirin Afzal, Tyler J. Zimmerling, Mahdi Rizvandi, Majid Taghavi, Leili Esmaeilifar, Taras Hrushevskyi, Manpreet Kaur, Vien Van, Shabir Barzanjeh, | (参考訳) 絡み合いは量子情報技術において貴重な資源である。
絡み合った光子源の実践的な実装は、物理的システムに固有の欠陥や欠陥から障害に直面し、絡み合いの喪失または悪化をもたらす。
しかし、トポロジカルフォトニック絶縁体は有望な候補として現れ、欠陥誘起散乱に抵抗する異常な能力を示し、堅牢な絡み合った源の開発を可能にした。
その固有の利点にもかかわらず、プログラム可能なトポロジカルに保護された絡み合ったソースを構築することは、複雑なデバイス設計と弱い材料非線形性のために難しいままである。
ここでは、光自発4光波混合プロセスを利用して、非磁性および可変なフロック絶縁体によって達成される絡み合った光子対の生成について述べる。
トポロジカルシステムによって生成された光子の非古典性と時間エネルギーの絡み合いを検証する。
本実験は,位相的エッジ状態のみに依存するデバイスと比較して,非古典的な光子対生成の大幅な向上を示す。
我々の結果は、量子技術に応用可能なレジリエントな量子源の開発に繋がる可能性がある。
Entanglement is a valuable resource in quantum information technologies. The practical implementation of entangled photon sources faces obstacles from imperfections and defects inherent in physical systems, resulting in a loss or degradation of entanglement. The topological photonic insulators, however, have emerged as promising candidates, demonstrating an exceptional capability to resist defect-induced scattering, thus enabling the development of robust entangled sources. Despite their inherent advantages, building programmable topologically protected entangled sources remains challenging due to complex device designs and weak material nonlinearity. Here we present a development in entangled photon pair generation achieved through a non-magnetic and tunable anomalous Floquet insulator, utilizing an optical spontaneous four-wave mixing process. We verify the non-classicality and time-energy entanglement of the photons generated by our topological system. Our experiment demonstrates a substantial enhancement in nonclassical photon pair generation compared to devices reliant only on topological edge states. Our result could lead to the development of resilient quantum sources with potential applications in quantum technology. | 翻訳日:2024-07-24 23:33:02 公開日:2024-07-22 |
# 電力系統イベント同定のための半監督的アプローチ
A Semi-Supervised Approach for Power System Event Identification ( http://arxiv.org/abs/2309.10095v2 ) ライセンス: Link先を確認 | Nima Taghipourbazargani, Lalitha Sankar, Oliver Kosut, | (参考訳) イベント識別は、電力システムの信頼性、安全性、安定性を高めるためにますます重要視されている。
Phasor Measurement Units(PMU)の展開とデータサイエンスの進歩により、機械学習の分類技術を通じて、データ駆動のイベント識別を探求する有望な機会がある。
しかし、その労働集約性やイベントタイプ(クラス)に関する不確実性から、正確なラベル付き事象PMUデータサンプルの取得は依然として困難である。
したがって、ラベル付きサンプルとラベルなしサンプルの両方を利用する半教師付き学習技術を使うことは自然である。
% 既存の事象識別手法を強化するために,未ラベルの事象検出サンプルを組み込むことの有効性を評価するための,新しい半教師付きフレームワークを提案する。
古典的半教師ありアプローチの3つのカテゴリを評価する。
(一)自習、
(ii)トランスダクティブサポートベクターマシン(TSVM)、及び
(iii)グラフベースのラベル拡散法(LS)。
提案手法は,合成事象PMUデータのモーダル解析から抽出した物理的解釈可能な特徴を用いた事象の特徴付けである。
特に,グリッド操作に欠かせない4つのイベントクラスの識別に着目する。
半教師付き手法を用いて,データ生成,特徴抽出,限定ラベルによるイベント識別という3つの側面からなる包括的イベント識別パッケージを開発し,公開している。
本パッケージを用いて,サウスカロライナの合成ネットワークにおけるPMUデータの生成と評価を行う。
我々の評価は、グラフベースのLSが、考慮すべき他の2つの半教師付き手法よりも優れており、少数のラベル付きサンプルしか持たない設定に対して、イベント識別性能を顕著に向上させることができることを一貫して示している。
Event identification is increasingly recognized as crucial for enhancing the reliability, security, and stability of the electric power system. With the growing deployment of Phasor Measurement Units (PMUs) and advancements in data science, there are promising opportunities to explore data-driven event identification via machine learning classification techniques. However, obtaining accurately-labeled eventful PMU data samples remains challenging due to its labor-intensive nature and uncertainty about the event type (class) in real-time. Thus, it is natural to use semi-supervised learning techniques, which make use of both labeled and unlabeled samples. %We propose a novel semi-supervised framework to assess the effectiveness of incorporating unlabeled eventful samples to enhance existing event identification methodologies. We evaluate three categories of classical semi-supervised approaches: (i) self-training, (ii) transductive support vector machines (TSVM), and (iii) graph-based label spreading (LS) method. Our approach characterizes events using physically interpretable features extracted from modal analysis of synthetic eventful PMU data. In particular, we focus on the identification of four event classes whose identification is crucial for grid operations. We have developed and publicly shared a comprehensive Event Identification package which consists of three aspects: data generation, feature extraction, and event identification with limited labels using semi-supervised methodologies. Using this package, we generate and evaluate eventful PMU data for the South Carolina synthetic network. Our evaluation consistently demonstrates that graph-based LS outperforms the other two semi-supervised methods that we consider, and can noticeably improve event identification performance relative to the setting with only a small number of labeled samples. | 翻訳日:2024-07-24 23:33:02 公開日:2024-07-22 |
# 結合部分空間推定によるニューラルネットワーク表現からの余剰概念の除去
Removing Spurious Concepts from Neural Network Representations via Joint Subspace Estimation ( http://arxiv.org/abs/2310.11991v2 ) ライセンス: Link先を確認 | Floris Holstege, Bram Wouters, Noud van Giersbergen, Cees Diks, | (参考訳) ニューラルネットワークにおけるアウト・オブ・ディストリビューションの一般化は、しばしば素早い相関によって妨げられる。
一般的な戦略は、データのニューラルネットワーク表現から突発的な概念を取り除き、これを緩和することである。
既存の概念除去手法は、モデルの主要なタスクに関連する機能を不注意に排除し、モデル性能を損なう傾向にある。
本稿では,ニューラルネットワーク表現における2つの低次元直交部分空間を共同で同定することにより,主タスク概念から突発性を分離する反復アルゴリズムを提案する。
コンピュータビジョン (Waterbirds, CelebA) と自然言語処理 (MultiNLI) のベンチマークデータセット上でのアルゴリズムの評価を行い, 既存の概念除去手法よりも優れていることを示す。
Out-of-distribution generalization in neural networks is often hampered by spurious correlations. A common strategy is to mitigate this by removing spurious concepts from the neural network representation of the data. Existing concept-removal methods tend to be overzealous by inadvertently eliminating features associated with the main task of the model, thereby harming model performance. We propose an iterative algorithm that separates spurious from main-task concepts by jointly identifying two low-dimensional orthogonal subspaces in the neural network representation. We evaluate the algorithm on benchmark datasets for computer vision (Waterbirds, CelebA) and natural language processing (MultiNLI), and show that it outperforms existing concept removal methods | 翻訳日:2024-07-24 23:23:10 公開日:2024-07-22 |
# 大気量子チャネルにおける時間相関
Time correlations in atmospheric quantum channels ( http://arxiv.org/abs/2311.07730v3 ) ライセンス: Link先を確認 | M. Klen, D. Vasylyev, W. Vogel, A. A. Semenov, | (参考訳) リモートパーティ間での量子情報の効率的な転送は、大気チャネル上での量子通信にとって重要な課題である。
チャネル透過率のランダム変動は、その実践上の大きな障害要因である。
本研究では,異なるタイミングでチャネル透過率の相関について検討し,二つの伝送プロトコルに着目した。
1つ目は、時間分離光パルス間の離散的および連続的可変な絡み合いの堅牢性に関連しており、ヒルベルト空間の有効次元を拡大する可能性を示している。
2つ目は、明るい古典的なパルスと量子光でそれらをテストすることで、高透過事象の選択に対処する。
以上の結果から,大気中の光の量子状態を符号化し,伝送するための時間コヒーレンス資源の容量が高いことが示された。
Efficient transfer of quantum information between remote parties is a crucial challenge for quantum communication over atmospheric channels. Random fluctuations of the channel transmittance are a major disturbing factor for its practical implementation. We study correlations between channel transmittances at different moments of time and focus on two transmission protocols. The first is related to the robustness of both discrete- and continuous-variable entanglement between time-separated light pulses, showing a possibility to enlarge the effective dimension of the Hilbert space. The second addresses a selection of high-transmittance events by testing them with bright classical pulses followed by quantum light. Our results show a high capacity of the time-coherence resource for encoding and transferring quantum states of light in atmospheric channels. | 翻訳日:2024-07-24 23:23:10 公開日:2024-07-22 |
# Webフォームテスト生成のためのセマンティック制約推論
Semantic Constraint Inference for Web Form Test Generation ( http://arxiv.org/abs/2402.00950v2 ) ライセンス: Link先を確認 | Parsa Alian, Noor Nashid, Mobina Shahbandeh, Ali Mesbah, | (参考訳) Webフォームの自動テスト生成は、フォームの本質的な人間中心の設計とその複雑でデバイスに依存しない構造によって、長年にわたる課題である。
テキストコンテンツ,DOMツリー構造,視覚的近接性を利用して,個々のフォーム要素とそれらの関係から意味的な洞察を導出することを強調する。
収集された洞察は、マシンフレンドリなセマンティック情報抽出を提供する新しい概念グラフであるForm Entity Relation Graph(FERG)に変換される。
LLMを活用して、FormNexusは、リアルタイムのフォーム入力応答に基づいて入力制約の生成と精錬を行うフィードバック駆動のメカニズムを採用する。
このアプローチの成果は堅牢なテストケースのセットで、それぞれが制約を体系的に無効にし、Webフォームの包括的なテストシナリオを確実にすることで実現されます。
この研究は、LLMの機能と高度なセマンティック推論手法を連動させることによって、Webフォームの自動テストにおける既存のギャップを埋める。
GPT-4 と FormNexus が組み合わさって 89% のカバレッジを達成できることを示す。
この結果は、最高のベースラインモデルの性能を25%上回る結果となった。
Automated test generation for web forms has been a longstanding challenge, exacerbated by the intrinsic human-centric design of forms and their complex, device-agnostic structures. We introduce an innovative approach, called FormNexus, for automated web form test generation, which emphasizes deriving semantic insights from individual form elements and relations among them, utilizing textual content, DOM tree structures, and visual proximity. The insights gathered are transformed into a new conceptual graph, the Form Entity Relation Graph (FERG), which offers machine-friendly semantic information extraction. Leveraging LLMs, FormNexus adopts a feedback-driven mechanism for generating and refining input constraints based on real-time form submission responses. The culmination of this approach is a robust set of test cases, each produced by methodically invalidating constraints, ensuring comprehensive testing scenarios for web forms. This work bridges the existing gap in automated web form testing by intertwining the capabilities of LLMs with advanced semantic inference methods. Our evaluation demonstrates that FormNexus combined with GPT-4 achieves 89% coverage in form submission states. This outcome significantly outstrips the performance of the best baseline model by a margin of 25%. | 翻訳日:2024-07-24 23:03:22 公開日:2024-07-22 |
# 分類のための非次元サンプリングコアセット
No Dimensional Sampling Coresets for Classification ( http://arxiv.org/abs/2402.05280v2 ) ライセンス: Link先を確認 | Meysam Alishahi, Jeff M. Phillips, | (参考訳) 我々は、感度サンプリングフレームワークを用いて、分類問題に対するコアセットについて知られていることを洗練し、一般化する。
このようなコアセットは入力データの最小部分集合を求めるため、コアセット上の損失関数を最適化し、元のデータに対する近似を保証することができる。
我々の分析は、最初の非次元コアセットを提供するので、サイズは次元に依存しない。
さらに,本研究の結果は一般に分布入力に適用され,iidサンプルを使用でき,サンプルの複雑性境界を提供し,様々な損失関数に作用する。
私たちが開発している重要なツールは、主要な感度サンプリングアプローチのRadamacher複雑性バージョンです。
We refine and generalize what is known about coresets for classification problems via the sensitivity sampling framework. Such coresets seek the smallest possible subsets of input data, so one can optimize a loss function on the coreset and ensure approximation guarantees with respect to the original data. Our analysis provides the first no dimensional coresets, so the size does not depend on the dimension. Moreover, our results are general, apply for distributional input and can use iid samples, so provide sample complexity bounds, and work for a variety of loss functions. A key tool we develop is a Radamacher complexity version of the main sensitivity sampling approach, which can be of independent interest. | 翻訳日:2024-07-24 23:03:22 公開日:2024-07-22 |
# Honeybee: ブロックチェーンデータシャーディングのための検証可能なランダムウォークを備えた分散ピアサンプリング
Honeybee: Decentralized Peer Sampling with Verifiable Random Walks for Blockchain Data Sharding ( http://arxiv.org/abs/2402.16201v2 ) ライセンス: Link先を確認 | Yunqi Zhang, Shaileshh Bojja Venkatakrishnan, | (参考訳) データシャーディング$\unicode{x2013}$in ブロックデータをシャーディングせずにシャーディングする$\unicode{x2013}$is 現時点ではEthereumや他の一般的なブロックチェーンをスケールするための好まれるアプローチである。
データシャーディングを実装する上で重要な課題は、ブロックのデータ全体がネットワーク(シャード全体)で利用可能かどうかを検証することだ。
この検証を行うために提案される中心的な手法は、消去符号化ブロックを使用し、データアベイラビリティーサンプリング(DAS)と呼ばれる。
DASの高レベルプロトコルの詳細はコミュニティでよく議論されているが、このようなプロトコルがピアツーピア層でどのように実装されるかは議論されていない。
我々は、DASを実行するために必要な基本的プリミティブとしてノードのランダムサンプリングと、検証可能なランダムウォークを用いたノードのサンプリングのための分散アルゴリズムであるHoneybeeを同定する。
Honeybeeは、多数のビザンチンノード(ネットワークの50%など)が存在する場合でも、攻撃に対して安全である。
我々はハチを実験により評価し、ハチによる採集の質が最先端技術と比較して著しく良いことを示した。
提案アルゴリズムは全ノードと軽ノードの両方においてDAS関数に影響を及ぼす。
Data sharding$\unicode{x2013}$in which block data is sharded without sharding compute$\unicode{x2013}$is at the present the favored approach for scaling Ethereum and other popular blockchains. A key challenge toward implementing data sharding is verifying whether the entirety of a block's data is available in the network (across its shards). A central technique proposed to conduct this verification uses erasure-coded blocks and is called data availability sampling (DAS). While the high-level protocol details of DAS have been well discussed in the community, discussions around how such a protocol will be implemented at the peer-to-peer layer are lacking. We identify random sampling of nodes as a fundamental primitive necessary to carry out DAS and present Honeybee, a decentralized algorithm for sampling nodes that uses verifiable random walks. Honeybee is secure against attacks even in the presence of a large number of Byzantine nodes (e.g., 50% of the network). We evaluate Honeybee through experiments and show that the quality of sampling achieved by Honeybee is significantly better compared to the state-of-the-art. Our proposed algorithm has implications for DAS functions in both full nodes and light nodes. | 翻訳日:2024-07-24 22:53:21 公開日:2024-07-22 |
# EVD4UAV:UAVにおける車両検出の高感度ベンチマーク
EVD4UAV: An Altitude-Sensitive Benchmark to Evade Vehicle Detection in UAV ( http://arxiv.org/abs/2403.05422v2 ) ライセンス: Link先を確認 | Huiming Sun, Jiacheng Guo, Zibo Meng, Tianyun Zhang, Jianwu Fang, Yuewei Lin, Hongkai Yu, | (参考訳) 無人航空機(UAV)の撮影画像における車両検出は、航空写真やリモートセンシングに広く応用されている。
UAV画像の車両検出と追跡のために、多くの公開ベンチマークデータセットが提案されている。
近年の研究では、オブジェクトに敵のパッチを加えることで、よく訓練されたディープニューラルネットワークベースのオブジェクト検出器を騙し、下流のタスクにセキュリティ上の懸念を生じさせることが示されている。
しかし、現在のUAVデータセットは、様々な高度、車両特性、細かいインスタンスレベルのアノテーションを、ぼやけた車両屋根の側面で無視する可能性があるため、敵のパッチベースの車両検知攻撃問題を研究するのに良いものはない。
本稿では6,284枚の画像と90,886枚の微粒化アノテート車両を用いたUAVにおける車両検出を回避するための高度感度ベンチマークとしてEVD4UAVという新しいデータセットを提案する。
EVD4UAVデータセットは、さまざまな高度(50m、70m、90m)、車両属性(色、型)、細粒度アノテーション(水平および回転するバウンディングボックス、インスタンスレベルのマスク)を、車両の屋根が透明である。
1つのホワイトボックスと2つのブラックボックスパッチベースの攻撃方法は、EVD4UAV上の3つの古典的なディープニューラルネットワークベースのオブジェクト検出器を攻撃するために実装されている。
実験結果から,これらの代表的な攻撃方法は高高度無感な攻撃性能が得られないことが示唆された。
Vehicle detection in Unmanned Aerial Vehicle (UAV) captured images has wide applications in aerial photography and remote sensing. There are many public benchmark datasets proposed for the vehicle detection and tracking in UAV images. Recent studies show that adding an adversarial patch on objects can fool the well-trained deep neural networks based object detectors, posing security concerns to the downstream tasks. However, the current public UAV datasets might ignore the diverse altitudes, vehicle attributes, fine-grained instance-level annotation in mostly side view with blurred vehicle roof, so none of them is good to study the adversarial patch based vehicle detection attack problem. In this paper, we propose a new dataset named EVD4UAV as an altitude-sensitive benchmark to evade vehicle detection in UAV with 6,284 images and 90,886 fine-grained annotated vehicles. The EVD4UAV dataset has diverse altitudes (50m, 70m, 90m), vehicle attributes (color, type), fine-grained annotation (horizontal and rotated bounding boxes, instance-level mask) in top view with clear vehicle roof. One white-box and two black-box patch based attack methods are implemented to attack three classic deep neural networks based object detectors on EVD4UAV. The experimental results show that these representative attack methods could not achieve the robust altitude-insensitive attack performance. | 翻訳日:2024-07-24 22:53:21 公開日:2024-07-22 |
# SyllabusQA: データセットに回答するコースの論理的質問
SyllabusQA: A Course Logistics Question Answering Dataset ( http://arxiv.org/abs/2403.14666v2 ) ライセンス: Link先を確認 | Nigel Fernandez, Alexander Scarlatos, Andrew Lan, | (参考訳) 自動教示アシスタントとチャットボットは、特に物流関連質問応答において、人間のインストラクターの作業量を減少させる大きな可能性を秘めている。
しかし、プライバシー上の懸念から、公開データセットが不足している。
今回紹介するSyllabusQAは,36のメジャーを対象とする63のリアルコースサイラビを持つオープンソースデータセットで,質問タイプと回答形式の両方で多種多様である5,078のオープンエンドコース関連質問応答ペアを含む。
多くの物流関連質問には、試験の日付などの重要な情報が含まれているため、回答の事実性を評価することが重要である。
我々は,大規模言語モデルから検索拡張生成まで,このタスクのいくつかの強力なベースラインをベンチマークする。
我々は,予測された回答の事実性を評価するために,LLM(GPT-4)評価指標であるFact-QAを紹介する。
従来のテキスト類似性の指標で人間に近づいたとしても、事実の正確さという点では、自動化アプローチと人間の間には大きなギャップが残っていることが分かっています。
Automated teaching assistants and chatbots have significant potential to reduce the workload of human instructors, especially for logistics-related question answering, which is important to students yet repetitive for instructors. However, due to privacy concerns, there is a lack of publicly available datasets. We introduce SyllabusQA, an open-source dataset with 63 real course syllabi covering 36 majors, containing 5,078 open-ended course logistics-related question-answer pairs that are diverse in both question types and answer formats. Since many logistics-related questions contain critical information like the date of an exam, it is important to evaluate the factuality of answers. We benchmark several strong baselines on this task, from large language model prompting to retrieval-augmented generation. We introduce Fact-QA, an LLM-based (GPT-4) evaluation metric to evaluate the factuality of predicted answers. We find that despite performing close to humans on traditional metrics of textual similarity, there remains a significant gap between automated approaches and humans in terms of fact precision. | 翻訳日:2024-07-24 22:43:37 公開日:2024-07-22 |
# PropTest: 改善されたビジュアルプログラミングのための自動プロパティテスト
PropTest: Automatic Property Testing for Improved Visual Programming ( http://arxiv.org/abs/2403.16921v2 ) ライセンス: Link先を確認 | Jaywon Koo, Ziyan Yang, Paola Cascante-Bonilla, Baishakhi Ray, Vicente Ordonez, | (参考訳) Visual Programmingは最近、エンドツーエンドのビジュアル推論モデルの代替として登場した。
この方式は、LLM(Large Language Models)を利用して、与えられた問題を解決する実行可能なコンピュータプログラムのソースコードを生成する。
この戦略は解釈可能な推論パスを提供することの利点があり、タスク固有のデータでモデルを微調整する必要がない。
提案手法の最初のラウンドで,LLMを用いて視覚特性をテストするコードを生成することで,視覚プログラミングを改善する汎用戦略であるPropTestを提案する。
提案手法は,データ型整合性,出力構文,セマンティックプロパティのテストを生成する。
PropTestは、公開されているLLMを使用しながら、最先端のメソッドに匹敵する結果を得る。
これは視覚的質問応答と表現理解の参照に関する様々なベンチマークで実証されている。
特にPropTestは、Llama3-8BでGQAで46.1\%(+6.0\%)、CodeLlama-34BでRefCOCO+で59.5\%(+8.1\%)の精度でViperGPTを改善する。
Visual Programming has recently emerged as an alternative to end-to-end black-box visual reasoning models. This type of method leverages Large Language Models (LLMs) to generate the source code for an executable computer program that solves a given problem. This strategy has the advantage of offering an interpretable reasoning path and does not require finetuning a model with task-specific data. We propose PropTest, a general strategy that improves visual programming by further using an LLM to generate code that tests for visual properties in an initial round of proposed solutions. Our method generates tests for data-type consistency, output syntax, and semantic properties. PropTest achieves comparable results to state-of-the-art methods while using publicly available LLMs. This is demonstrated across different benchmarks on visual question answering and referring expression comprehension. Particularly, PropTest improves ViperGPT by obtaining 46.1\% accuracy (+6.0\%) on GQA using Llama3-8B and 59.5\% (+8.1\%) on RefCOCO+ using CodeLlama-34B. | 翻訳日:2024-07-24 22:43:37 公開日:2024-07-22 |
# EgoLifter:エゴセントリックな知覚のためのオープンワールド3Dセグメンテーション
EgoLifter: Open-world 3D Segmentation for Egocentric Perception ( http://arxiv.org/abs/2403.18118v2 ) ライセンス: Link先を確認 | Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney, | (参考訳) 本稿では,エゴセントリックセンサーから撮影したシーンを自動的に分割して,個々の3Dオブジェクトの完全な分解を行う新しいシステムであるEgoLifterを提案する。
このシステムはエゴセントリックなデータに特化して設計されており、シーンには自然(非走査)の動きから数百の物体が写っている。
EgoLifterは3Dガウスアンを3Dシーンとオブジェクトの基本的な表現として採用し、Segment Anything Model(SAM)のセグメンテーションマスクを弱い監督力として使用して、任意の特定のオブジェクト分類のないオブジェクトインスタンスの柔軟で迅速な定義を学習する。
エゴ中心のビデオにおける動的オブジェクトの課題に対処するため、我々は3D再構成における動的オブジェクトのフィルタリングを学習する過渡予測モジュールを設計した。
その結果、完全に自動化されたパイプラインで、3Dオブジェクトインスタンスを全体を構成する3Dガウスアンのコレクションとして再構築することができる。
我々は、Aria Digital Twinデータセットに新しいベンチマークを作成し、自然の自我中心の入力から、オープンワールドの3Dセグメンテーションにおける最先端のパフォーマンスを定量的に示す。
EgoLifterを様々なエゴセントリックな活動データセット上で実行し、大規模に3Dエゴセントリックな知覚を実現する方法の約束を示す。
In this paper we present EgoLifter, a novel system that can automatically segment scenes captured from egocentric sensors into a complete decomposition of individual 3D objects. The system is specifically designed for egocentric data where scenes contain hundreds of objects captured from natural (non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying representation of 3D scenes and objects and uses segmentation masks from the Segment Anything Model (SAM) as weak supervision to learn flexible and promptable definitions of object instances free of any specific object taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we design a transient prediction module that learns to filter out dynamic objects in the 3D reconstruction. The result is a fully automatic pipeline that is able to reconstruct 3D object instances as collections of 3D Gaussians that collectively compose the entire scene. We created a new benchmark on the Aria Digital Twin dataset that quantitatively demonstrates its state-of-the-art performance in open-world 3D segmentation from natural egocentric input. We run EgoLifter on various egocentric activity datasets which shows the promise of the method for 3D egocentric perception at scale. | 翻訳日:2024-07-24 22:43:37 公開日:2024-07-22 |
# MACM:複雑数理問題の解法における条件マイニングのためのマルチエージェントシステムの利用
MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems ( http://arxiv.org/abs/2404.04735v2 ) ライセンス: Link先を確認 | Bin Lei, Yi Zhang, Shan Zuo, Ali Payani, Caiwen Ding, | (参考訳) GPT-4のような大規模言語モデルの最近の進歩は、標準クエリの処理において顕著な能力を示している。
これらの進歩にもかかわらず、それらの性能は複雑で多段階の論理的推論を必要とする数学的な問題において著しく低下する。
彼らの推論能力を高めるために、現在の研究は、思考のツリーや思考のグラフといった方法論によって実証された「textit{prompting engineering}」へと発展してきた。
それでも、既存のアプローチには2つの大きな制限がある。
第一に、複雑な数学的問題に対処するそれらの効果は、幾らか制約されている。
第二に、個々の問題に対して異なるプロンプトを設計する必要性は、その一般化可能性を損なう。
これらの制約に対応するために、条件マイニングのための \textit{Multi-Agent System (\textbf{MACM}) プロンプト法を提案する。
複雑な数学的問題を解くだけでなく、様々な数学的文脈にまたがる強力な一般化能力を示す。
MACMの助けを借りて、GPT-4 TurboのMATHデータセットにおける最も難しい5つの数学的問題に対する精度は、$\mathbf{54.68\%} \text{to } \mathbf{76.73\%}$から上昇する。
コードは \url{https://github.com/bin123apple/MACM} で入手できる。
Recent advancements in large language models, such as GPT-4, have demonstrated remarkable capabilities in processing standard queries. Despite these advancements, their performance substantially declines in \textbf{advanced mathematical problems requiring complex, multi-step logical reasoning}. To enhance their inferential capabilities, current research has delved into \textit{prompting engineering}, exemplified by methodologies such as the Tree of Thought and Graph of Thought. Nonetheless, these existing approaches encounter two significant limitations. Firstly, their effectiveness in tackling complex mathematical problems is somewhat constrained. Secondly, the necessity to design distinct prompts for individual problems hampers their generalizability. In response to these limitations, this paper introduces the \textit{Multi-Agent System for conditional Mining} (\textbf{MACM}) prompting method. It not only resolves intricate mathematical problems but also demonstrates strong generalization capabilities across various mathematical contexts. With the assistance of MACM, the accuracy of GPT-4 Turbo on the most challenging level five mathematical problems in the MATH dataset increase from $\mathbf{54.68\%} \text{ to } \mathbf{76.73\%}$. The code is available in \url{https://github.com/bin123apple/MACM}. | 翻訳日:2024-07-24 22:33:53 公開日:2024-07-22 |
# Pythonベースの化学フレームワークシミュレーションにおけるGPUアクセラレーションの強化
Enhancing GPU-acceleration in the Python-based Simulations of Chemistry Framework ( http://arxiv.org/abs/2404.09452v2 ) ライセンス: Link先を確認 | Xiaojie Wu, Qiming Sun, Zhichen Pu, Tianze Zheng, Wenzhi Ma, Wen Yan, Xia Yu, Zhengxiao Wu, Mian Huo, Xiang Li, Weiluo Ren, Sheng Gong, Yumin Zhang, Weihao Gao, | (参考訳) 我々は、GPUを加速するPython量子化学パッケージである既存のオープンソースGPU4PySCFプロジェクト(https: //github.com/pyscf/gpu4pyscf)への産業的利害関係者として、私たちの貢献を述べています。
我々はGPUアクセラレーションを、密度汎関数理論(DFT)、幾何最適化、周波数解析、溶媒モデル、密度適合技術を含む他のPySCF機能に統合した。
これらのコントリビューションを通じて、GPU4PySCF v1.0は、さまざまなテストを通じてこの研究を実演する、完全に機能的で産業的に関係のあるプラットフォームとみなすことができる。
最新のGPUプラットフォームでDFT計算を行う場合、GPU4PySCFは32コアのCPUノード上で30倍のスピードアップを実現し、ほとんどのDFTタスクで約90%のコスト削減を実現している。
性能上の利点と生産性の向上は、ポテンシャルエネルギー表面の生成、分子特性の分析、溶解自由エネルギーの計算、リチウムイオン電池の化学反応の同定、ニューラルネットワークの高速化など、複数の産業用途で見出されている。
PythonとPySCFのエコシステムとの統合を容易にする設計の改善により、GPU4PySCFは自然選択となり、多くの産業量子化学アプリケーションに推奨できるようになりました。
We describe our contribution as industrial stakeholders to the existing open-source GPU4PySCF project (https: //github.com/pyscf/gpu4pyscf), a GPU-accelerated Python quantum chemistry package. We have integrated GPU acceleration into other PySCF functionality including Density Functional Theory (DFT), geometry optimization, frequency analysis, solvent models, and density fitting technique. Through these contributions, GPU4PySCF v1.0 can now be regarded as a fully functional and industrially relevant platform which we demonstrate in this work through a range of tests. When performing DFT calculations on modern GPU platforms, GPU4PySCF delivers 30 times speedup over a 32-core CPU node, resulting in approximately 90% cost savings for most DFT tasks. The performance advantages and productivity improvements have been found in multiple industrial applications, such as generating potential energy surfaces, analyzing molecular properties, calculating solvation free energy, identifying chemical reactions in lithium-ion batteries, and accelerating neural-network methods. With the improved design that makes it easy to integrate with the Python and PySCF ecosystem, GPU4PySCF is natural choice that we can now recommend for many industrial quantum chemistry applications. | 翻訳日:2024-07-24 22:33:53 公開日:2024-07-22 |
# 大規模言語モデルを用いた複雑なオントロジーアライメントを目指して
Towards Complex Ontology Alignment using Large Language Models ( http://arxiv.org/abs/2404.10329v2 ) ライセンス: Link先を確認 | Reihaneh Amini, Sanaz Saki Norouzi, Pascal Hitzler, Reza Amini, | (参考訳) 異なるオントロジー間の関係を検出するセマンティックウェブにおける重要なプロセスであるオントロジーアライメントは、伝統的に、クラスラベルとプロパティ比較を通じていわゆる「単純な」1対1の関係を特定することに重点を置いてきた。
より実用的に有用な、より複雑なアライメントの探索は、自動化するのが難しい問題であり、ほとんどの場合、アプリケーションの実践では、オントロジーやドメインの専門家が手作業で行う。
近年,Large Language Models(LLMs)の進歩にともなう自然言語処理(NLP)能力の急上昇は,オントロジーアライメントタスクを含むオントロジー工学の実践を強化する新たな機会を提供する。
本稿では,LLM技術の複雑なオントロジーアライメント問題への応用について検討する。
プロンプトベースのアプローチを活用して、いわゆるモジュールと呼ばれるリッチなオントロジーコンテンツを統合することは、複雑なアライメントタスクを自動化するための大きな進歩となります。
Ontology alignment, a critical process in the Semantic Web for detecting relationships between different ontologies, has traditionally focused on identifying so-called "simple" 1-to-1 relationships through class labels and properties comparison. The more practically useful exploration of more complex alignments remains a hard problem to automate, and as such is largely underexplored, i.e. in application practice it is usually done manually by ontology and domain experts. Recently, the surge in Natural Language Processing (NLP) capabilities, driven by advancements in Large Language Models (LLMs), presents new opportunities for enhancing ontology engineering practices, including ontology alignment tasks. This paper investigates the application of LLM technologies to tackle the complex ontology alignment challenge. Leveraging a prompt-based approach and integrating rich ontology content so-called modules our work constitutes a significant advance towards automating the complex alignment task. | 翻訳日:2024-07-24 22:33:53 公開日:2024-07-22 |
# 非平衡バイアスからの有限温度における広範囲な長距離絡み合い
Extensive Long-Range Entanglement at Finite Temperatures from a Nonequilibrium Bias ( http://arxiv.org/abs/2404.10822v2 ) ライセンス: Link先を確認 | Shachar Fraenkel, Moshe Goldstein, | (参考訳) 局所量子多体系の熱平衡状態は、その空間的に崩壊する相関で有名であり、有限温度で観測される多体絡み構造のタイプに厳しい制限を与える。
しかしながら、これらの制限は、不平衡な定常状態が代わりに考慮されるときに無効にすることができる。
本稿では, 一般電荷およびエネルギー保存不純物を含む1次元格子上の自由フェルミオンの絡み合い特性について検討し, 平衡エネルギー分布の異なる2つの貯水池にその端で接続する。
これらの分布は温度、化学的ポテンシャル、またはその両方で異なり、したがって外部バイアスを引き起こす。
我々は、不純物の反対側に位置する2つのサブシステム間の相関と絡み合いを定量化する、いくつかの量子情報測度(相互情報、R'enyiの一般化、フェルミオン負性)の正確な漸近式を解析的に導出した。
これらの測度は、各サブシステム間の距離とは無関係に、一方のサブシステムと他方のミラー画像との重なり合い(後者は不純物に関する鏡像を反映したもの)に線形にスケールすることを示します。
負性率とR'enyi版の相互情報の単純な比例関係はゼロ温度で保持することが観察されるが、有限温度で分解され、これらの量が異なる起源の強い長距離相関を示すことが示唆される。
以上の結果から,0温度での化学ポテンシャルバイアスの場合に限る以前の知見を一般化し,長距離容積法の影響が有限温度で頑健であることの厳密な証明を行った。
Thermal equilibrium states of local quantum many-body systems are notorious for their spatially decaying correlations, which place severe restrictions on the types of many-body entanglement structures that may be observed at finite temperatures. These restrictions may however be defied when an out-of-equilibrium steady state is considered instead. In this paper, we study the entanglement properties of free fermions on a one-dimensional lattice that contains a generic charge- and energy-conserving noninteracting impurity, and that is connected at its edges to two reservoirs with different equilibrium energy distributions. These distributions may differ in either temperature, chemical potential, or both, thereby inducing an external bias. We analytically derive exact asymptotic expressions for several quantum information measures -- the mutual information, its R\'enyi generalizations, and the fermionic negativity -- that quantify the correlation and entanglement between two subsystems located on opposite sides of the impurity. We show that all these measures scale (to a leading order) linearly with the overlap between one subsystem and the mirror image of the other (upon reflection of the latter about the impurity), independently of the distance between the subsystems. While a simple proportionality relation between the negativity and R\'enyi versions of the mutual information is observed to hold at zero temperature, it breaks down at finite temperatures, suggesting that these quantities represent strong long-range correlations of different origins. Our results generalize previous findings that were limited to the case of a chemical-potential bias at zero temperature, rigorously demonstrating that the effect of long-range volume-law entanglement is robust at finite temperatures. | 翻訳日:2024-07-24 22:33:53 公開日:2024-07-22 |
# 条件付きスパース・トゥ・スパーサ・スキームに基づく分散個人化フェデレーションラーニング
Decentralized Personalized Federated Learning based on a Conditional Sparse-to-Sparser Scheme ( http://arxiv.org/abs/2404.15943v3 ) ライセンス: Link先を確認 | Qianyu Long, Qiyuan Wang, Christos Anagnostopoulos, Daning Bi, | (参考訳) 分散連邦学習(DFL)は、その堅牢性と集中的調整の回避によって人気を博している。
このパラダイムでは、クライアントは、ネットワーク化された隣人とモデルを交換することで、トレーニングを積極的に行う。
しかし、DFLはトレーニングやコミュニケーションの面でコストを増大させる。
既存の方法は、訓練効率とデータの異質性を見越して、コミュニケーションを最小化することに焦点を当てている。
このギャップに対処するために,新しい「textit{sparse-to-sparser}」トレーニングスキーム,DA-DPFLを提案する。
DA-DPFL はモデルパラメータのサブセットで初期化され、これは textit{dynamic aggregate} を通じてトレーニング中に徐々に減少し、臨界学習期間中に適切な情報を保持しながらかなりのエネルギー節約につながる。
実験の結果, DA-DPFLはDFLのベースラインの精度を大幅に上回り, エネルギーコストの最大5ドル削減を実現していることがわかった。
分散学習およびパーソナライズ学習におけるDA-DPFLの適用性を固めることにより,DA-DPFLの収束を理論的に分析する。
コードは、https://github.com/EricLoong/da-dpflで入手できる。
Decentralized Federated Learning (DFL) has become popular due to its robustness and avoidance of centralized coordination. In this paradigm, clients actively engage in training by exchanging models with their networked neighbors. However, DFL introduces increased costs in terms of training and communication. Existing methods focus on minimizing communication often overlooking training efficiency and data heterogeneity. To address this gap, we propose a novel \textit{sparse-to-sparser} training scheme: DA-DPFL. DA-DPFL initializes with a subset of model parameters, which progressively reduces during training via \textit{dynamic aggregation} and leads to substantial energy savings while retaining adequate information during critical learning periods. Our experiments showcase that DA-DPFL substantially outperforms DFL baselines in test accuracy, while achieving up to $5$ times reduction in energy costs. We provide a theoretical analysis of DA-DPFL's convergence by solidifying its applicability in decentralized and personalized learning. The code is available at:https://github.com/EricLoong/da-dpfl | 翻訳日:2024-07-24 22:33:53 公開日:2024-07-22 |
# 量子力学的に放射されるブラックホールの熱力学の普遍性
Universality of the thermodynamics of a quantum-mechanically radiating black hole departing from thermality ( http://arxiv.org/abs/2404.18128v2 ) ライセンス: Link先を確認 | Christian Corda, Carlo Cafaro, | (参考訳) マチュールとメフタは2023年の重力研究財団エッセイコンペティションでブラックホール熱力学の普遍性を証明した3等賞を受賞した。
具体的には、ECO(Extremely Compact Object)は、ECOが事象の地平線を持つかどうかに関わらず、同じBH熱力学特性を持つ必要があることを示した。
結果は目覚ましいが、BH放射スペクトルが正確に熱特性を持つ近似の下で得られた。
実際、エネルギー保存とBHバック反応に基づく強い議論は、ホーキング放射のスペクトルが正確には熱ではないことを示唆している。
この研究では、マチュールとメフタの結果は、BH力学状態の概念を用いて放射スペクトルが正確に熱的でない場合に拡張される。
Mathur and Mehta won the third prize in the 2023 Gravity Research Foundation Essay Competition for proving the universality of black hole (BH) thermodynamics. Specifically, they demonstrated that any Extremely Compact Object (ECO) must have the same BH thermodynamic properties regardless of whether or not the ECO possesses an event horizon. The result is remarkable, but it was obtained under the approximation according to which the BH emission spectrum has an exactly thermal character. In fact, strong arguments based on energy conservation and BH back reaction imply that the spectrum of the Hawking radiation cannot be exactly thermal. In this work the result of Mathur and Mehta will be extended to the case where the radiation spectrum is not exactly thermal using the concept of BH dynamical state. | 翻訳日:2024-07-24 22:24:07 公開日:2024-07-22 |
# UQA:ウルドゥー質問応答のコーパス
UQA: Corpus for Urdu Question Answering ( http://arxiv.org/abs/2405.01458v2 ) ライセンス: Link先を確認 | Samee Arif, Sualeha Farid, Awais Athar, Agha Ali Raza, | (参考訳) 本稿では,7000万人以上の母語話者を持つ低リソース言語であるUrduにおける質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、EATS(Enclose to Anchor, Translate, Seek)と呼ばれる、翻訳された文脈の段落にまたがる回答を保存する技術を使用して、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering Dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
また、mBERT、XLM-RoBERTa、mT5など、UQA上の最先端多言語QAモデルをベンチマークし、有望な結果を報告する。
XLM-RoBERTa-XLの場合、F1スコアは85.99と74.56 EMである。
UQAは、Urduのための多言語NLPシステムの開発とテスト、および既存のモデルの言語間転送性を高めるための貴重なリソースである。
さらに,他の言語やドメインに対して高品質なデータセットを作成するためのEATSの有効性を示す。
UQAデータセットとコードはwww.github.com/sameearif/UQAで公開されている。
This paper introduces UQA, a novel dataset for question answering and text comprehension in Urdu, a low-resource language with over 70 million native speakers. UQA is generated by translating the Stanford Question Answering Dataset (SQuAD2.0), a large-scale English QA dataset, using a technique called EATS (Enclose to Anchor, Translate, Seek), which preserves the answer spans in the translated context paragraphs. The paper describes the process of selecting and evaluating the best translation model among two candidates: Google Translator and Seamless M4T. The paper also benchmarks several state-of-the-art multilingual QA models on UQA, including mBERT, XLM-RoBERTa, and mT5, and reports promising results. For XLM-RoBERTa-XL, we have an F1 score of 85.99 and 74.56 EM. UQA is a valuable resource for developing and testing multilingual NLP systems for Urdu and for enhancing the cross-lingual transferability of existing models. Further, the paper demonstrates the effectiveness of EATS for creating high-quality datasets for other languages and domains. The UQA dataset and the code are publicly available at www.github.com/sameearif/UQA. | 翻訳日:2024-07-24 22:24:07 公開日:2024-07-22 |
# CNNにおけるバイアス補正のためのニューロシンボリックフレームワーク
A Neurosymbolic Framework for Bias Correction in CNNs ( http://arxiv.org/abs/2405.15886v2 ) ライセンス: Link先を確認 | Parth Padalkar, Natalia Ślusarz, Ekaterina Komendantskaya, Gopal Gupta, | (参考訳) 畳み込みニューラルネットワーク(CNN)の最近の取り組みは、CNNフィルタの活性化を階層化されたAnswer Set Programming(ASP)ルールセットに変換することに焦点を当てている。
CNNフィルタは高レベルのイメージ概念をキャプチャすることで知られており、ルールセットの述語は、対応するフィルタが表現する概念にマッピングされる。
したがって、ルールセットは、任意の画像分類タスクで学習する概念の観点から、CNNの決定過程を効果的に例示する。
これらのルールセットは、CNNのバイアスを公開し、理解するのに役立ちます。
我々は、訓練されたCNNにおいて、バイアス補正のためのNeSyBiCorと呼ばれるニューロシンボリックフレームワークを導入する。
CNN が ASP 制約として表現されるようなシンボリックな概念を考えると、望ましくない概念と望ましい概念を対応するベクトル表現に変換する。
そして、CNNは我々の新しい意味的類似性損失を用いて再訓練され、フィルタが望ましくない概念の表現から遠ざけ、望ましい概念に近づける。
再トレーニング後に得られた最後のASPルールセットは、制約を高いレベルまで満たし、画像分類タスクに対するCNNの知識の見直しを示す。
我々のNeSyBiCorフレームワークは、PlacesデータセットのサブセットでトレーニングされたCNNのバイアスを、最終的なバイアス補正ルールセットw.r.t.t.の値を大幅に減らし、最小限の精度を犠牲にしつつ、解釈可能性を向上させることに成功している。
Recent efforts in interpreting Convolutional Neural Networks (CNNs) focus on translating the activation of CNN filters into stratified Answer Set Programming (ASP) rule-sets. The CNN filters are known to capture high-level image concepts, thus the predicates in the rule-set are mapped to the concept that their corresponding filter represents. Hence, the rule-set effectively exemplifies the decision-making process of the CNN in terms of the concepts that it learns for any image classification task. These rule-sets help expose and understand the biases in CNNs, although correcting the biases effectively remains a challenge. We introduce a neurosymbolic framework called NeSyBiCor for bias correction in a trained CNN. Given symbolic concepts that the CNN is biased towards, expressed as ASP constraints, we convert the undesirable and desirable concepts to their corresponding vector representations. Then, the CNN is retrained using our novel semantic similarity loss that pushes the filters away from the representations of concepts that are undesirable while pushing them closer to the concepts that are desirable. The final ASP rule-set obtained after retraining, satisfies the constraints to a high degree, thus showing the revision in the knowledge of the CNN for the image classification task. We demonstrate that our NeSyBiCor framework successfully corrects the biases of CNNs trained with subsets of classes from the Places dataset while sacrificing minimal accuracy and improving interpretability, by greatly decreasing the size of the final bias-corrected rule-set w.r.t. the initial rule-set. | 翻訳日:2024-07-24 22:24:06 公開日:2024-07-22 |
# 127キュービットゲートモデルIBM量子コンピュータを用いた量子最適化は、非自明なバイナリ最適化問題に対して量子アニールより優れている。
Quantum optimization using a 127-qubit gate-model IBM quantum computer can outperform quantum annealers for nontrivial binary optimization problems ( http://arxiv.org/abs/2406.01743v3 ) ライセンス: Link先を確認 | Natasha Sachdeva, Gavin S. Hartnett, Smarak Maity, Samuel Marsh, Yulun Wang, Adam Winick, Ryan Dougherty, Daniel Canuto, You Quan Chong, Michael Hush, Pranav S. Mundada, Christopher D. B. Bentley, Michael J. Biercuk, Yuval Baum, | (参考訳) ゲートモデル量子コンピュータにおける二項組合せ最適化問題に対する包括的量子解法を導入する。
内部ワークフローの概要として、カスタマイズされたアンサッツと変分パラメータ更新戦略の統合、ハードウェア実行におけるエラーの効率的な抑制、ビットフリップエラーの修正のためのオーバーヘッドのない後処理について述べる。
我々は、この問題をIBMの量子コンピュータにベンチマークし、古典的な非自明なバイナリ最適化問題をいくつか行ない、古典的なシミュレーションやソリューションの事前知識を使わずに、ハードウェア上で最適化を行う。
まず、最大120キュービットの密度を持つランダムな正規グラフに対して、そのグラフトポロジがデバイス接続と一致しないようなランダムな正規グラフに対して、Max-Cutのインスタンスを正しく解く能力を示す。
次に, 線形, 二次, 立方体相互作用項を持つ127キュービットスピングラスモデルの高次二乗最適化に適用し, 基底状態エネルギーの探索に成功した。
この新しい量子解法は、DWaveアニールラーを用いて公表された結果と比較して最大$\sim1500\times$で最小エネルギーを見つける可能性を高め、アニールラーが故障した場合に正しい解を見つけることができる。
さらに、どちらの問題にも、Q-CTRLソルバは、追求された問題の相対的難易度を示すために用いられるヒューリスティック局所解器よりも優れる。
全体として、これらの結果はハードウェア上での解決に成功している最大の量子最適化であり、ゲートモデル量子コンピュータが二進最適化のクラスにおいてアニールを初めて上回ったことを実証している。
We introduce a comprehensive quantum solver for binary combinatorial optimization problems on gate-model quantum computers that outperforms any published alternative and consistently delivers correct solutions for problems with up to 127 qubits. We provide an overview of the internal workflow, describing the integration of a customized ansatz and variational parameter update strategy, efficient error suppression in hardware execution, and overhead-free post-processing to correct for bit-flip errors. We benchmark this solver on IBM quantum computers for several classically nontrivial unconstrained binary optimization problems -- the entire optimization is conducted on hardware with no use of classical simulation or prior knowledge of the solution. First, we demonstrate the ability to correctly solve Max-Cut instances for random regular graphs with a variety of densities using up to 120 qubits, where the graph topologies are not matched to device connectivity. Next, we apply the solver to higher-order binary optimization and successfully search for the ground state energy of a 127-qubit spin-glass model with linear, quadratic, and cubic interaction terms. Use of this new quantum solver increases the likelihood of finding the minimum energy by up to $\sim1,500\times$ relative to published results using a DWave annealer, and it can find the correct solution when the annealer fails. Furthermore, for both problem types, the Q-CTRL solver outperforms a heuristic local solver used to indicate the relative difficulty of the problems pursued. Overall, these results represent the largest quantum optimizations successfully solved on hardware to date, and demonstrate the first time a gate-model quantum computer has been able to outperform an annealer for a class of binary optimization problems. | 翻訳日:2024-07-24 22:24:06 公開日:2024-07-22 |
# IG-CFAT: 実世界の超解像における変圧器を効果的に爆発させるための改良されたGANベースのフレームワーク
IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution ( http://arxiv.org/abs/2406.13815v2 ) ライセンス: Link先を確認 | Alireza Aghelan, Ali Amiryan, Abolfazl Zarghani, Behnoush Hatami, Modjtaba Rouhani, | (参考訳) 単一画像超解像(SISR)の分野では、トランスフォーマーベースモデルが大きな進歩を見せている。
しかし、実世界の画像超解像のような応用分野におけるこれらのモデルの可能性や効率は、あまり注目されず、改善の機会もかなりある。
近年,複合核融合アテンショントランス (CFAT) は,従来のSOTAモデルよりも高画質である。
本稿では,実世界の画像超解像における変換器の性能を効果的に活用するために,IG-CFATと呼ばれる改良型GANモデルにCFATモデルを拡張した。
IG-CFATはセマンティック・アウェア・ディスクリミネーターを組み込んで細部をより正確に再構築する。
さらに,本モデルでは,適応的劣化モデルを用いて実世界の劣化をシミュレートする。
提案手法は,GANを用いた超解像モデルにおける従来の損失関数にウェーブレット損失を加え,より効率的に高周波の詳細を復元する。
実験の結果、IG-CFATは実世界の画像の超解像に新しいベンチマークを設定し、量的および定性的な指標でSOTAモデルを上回る結果を得た。
In the field of single image super-resolution (SISR), transformer-based models, have demonstrated significant advancements. However, the potential and efficiency of these models in applied fields such as real-world image super-resolution have been less noticed and there are substantial opportunities for improvement. Recently, composite fusion attention transformer (CFAT), outperformed previous state-of-the-art (SOTA) models in classic image super-resolution. This paper extends the CFAT model to an improved GAN-based model called IG-CFAT to effectively exploit the performance of transformers in real-world image super-resolution. IG-CFAT incorporates a semantic-aware discriminator to reconstruct fine details more accurately. Moreover, our model utilizes an adaptive degradation model to better simulate real-world degradations. Our methodology adds wavelet loss to conventional loss functions of GAN-based super-resolution models to recover high-frequency details more efficiently. Empirical results demonstrate that IG-CFAT sets new benchmarks in real-world image super-resolution, outperforming SOTA models in quantitative and qualitative metrics. | 翻訳日:2024-07-24 22:14:13 公開日:2024-07-22 |
# 局所化フレームによる連続体におけるリーブ・ロビンソン境界
Lieb-Robinson bounds in the continuum via localized frames ( http://arxiv.org/abs/2406.15670v2 ) ライセンス: Link先を確認 | Sven Bachmann, Giuseppe De Nittis, | (参考訳) 連続体における相互作用するフェルミオンのダイナミクスについて検討する。
我々のアプローチは格子局在化フレームの概念を用いており、ここで紹介する。
まず、局所相互作用の一般クラスに有効であるリーブ・ロビンソン境界を証明し、CAR代数のレベルでのダイナミクスの存在を示唆する。
次に、電子-電子相互作用を付加できる準自由第二量子化ランダウハミルトニアン(英語版)の量子ホール効果に関連する物理的状況に目を向ける。
We study the dynamics of interacting fermions in the continuum. Our approach uses the concept of lattice-localized frames, which we introduce here. We first prove a Lieb-Robinson bound that is valid for a general class of local interactions, which implies the existence of the dynamics at the level of the CAR algebra. We then turn to the physical situation relevant to the (fractional) quantum Hall effect, namely the quasi-free second quantized Landau Hamiltonian to which electron-electron interactions can be added. | 翻訳日:2024-07-24 22:14:13 公開日:2024-07-22 |
# 説明可能なAIを用いた脳波を用いた低分子量モンタージュ新生児静注検出
Using Explainable AI for EEG-based Reduced Montage Neonatal Seizure Detection ( http://arxiv.org/abs/2406.16908v2 ) ライセンス: Link先を確認 | Dinuka Sandun Udayantha, Kavindu Weerasinghe, Nima Wickramasinghe, Akila Abeyratne, Kithmin Wickremasinghe, Jithangi Wanigasinghe, Anjula De Silva, Chamira U. S. Edussooriya, | (参考訳) 新生児期は発作発生の最も脆弱な時期である。
未熟な脳の青斑は有害な結果をもたらすため、早期診断が必要である。
現在、新生児発作検出のゴールドスタンダードは、新生児集中治療室(NICU)内でのリアルタイムビデオモニタリングと並行して、多チャンネル脳波(EEG)を記録することを含む、連続的なビデオEEGモニタリングに依存している。
しかし、ビデオEEGモニタリング技術は臨床専門知識を必要としており、技術的に高度で資源に富んだ設定に限られることが多い。
費用対効果の高い新しい技術は、医療の友愛会が正確な診断を行い、遅滞なく治療を提唱するのに役立つ。
本研究では, 畳み込み網, グラフアテンション層, および完全連結層を用いて, 脳波モンタージュを低減した新生児発作検出プロセスを自動化する新しいディープラーニングモデルを提案する。
モンタージュを減らしてリアルタイムに発作を検出する能力に加えて、このモデルはリアルタイムの解釈可能性の独特な利点を提供する。
10倍のクロスバリデーションでZenodoデータセットの性能を評価することにより,曲線下面積(AUC)とリコールにおける絶対的な改善率8.31%と42.86%を達成した。
The neonatal period is the most vulnerable time for the development of seizures. Seizures in the immature brain lead to detrimental consequences, therefore require early diagnosis. The gold-standard for neonatal seizure detection currently relies on continuous video-EEG monitoring; which involves recording multi-channel electroencephalogram (EEG) alongside real-time video monitoring within a neonatal intensive care unit (NICU). However, video-EEG monitoring technology requires clinical expertise and is often limited to technologically advanced and resourceful settings. Cost-effective new techniques could help the medical fraternity make an accurate diagnosis and advocate treatment without delay. In this work, a novel explainable deep learning model to automate the neonatal seizure detection process with a reduced EEG montage is proposed, which employs convolutional nets, graph attention layers, and fully connected layers. Beyond its ability to detect seizures in real-time with a reduced montage, this model offers the unique advantage of real-time interpretability. By evaluating the performance on the Zenodo dataset with 10-fold cross-validation, the presented model achieves an absolute improvement of 8.31% and 42.86% in area under curve (AUC) and recall, respectively. | 翻訳日:2024-07-24 22:14:13 公開日:2024-07-22 |
# 言語モデルを用いたコードリンティング
Code Linting using Language Models ( http://arxiv.org/abs/2406.19508v2 ) ライセンス: Link先を確認 | Darren Holden, Nafiseh Kahani, | (参考訳) コードリンタは、システムのソースコードの潜在的な問題(例えば、メモリリーク)を検出することによって、高品質なソフトウェアシステムの開発において重要な役割を果たす。
それらの利点にもかかわらず、コードリンタは言語固有のもので、特定の種類の問題に焦点を合わせ、スピードの利害で偽陽性になる傾向がある。
本稿では,大規模言語モデルを用いて,より汎用的なコードlinterを開発できるかどうかについて検討する。
このようなlinterは言語に依存しず、さまざまなイシュータイプをカバーし、高速を維持することが期待されている。
これを実現するために、コードスニペットの大規模なデータセットと関連する問題を収集しました。
次に、収集したデータセットに基づいて、言語モデルを選択し、2つの分類器を訓練した。
1つはバイナリ分類器で、コードが問題があるかどうかを検知し、もう1つは問題の種類を特定するマルチラベル分類器である。
広範にわたる実験により, 大規模言語モデルに基づくlinterは, バイナリ分類器では84.9%, マルチラベル分類器では83.6%の精度が得られることを示した。
Code linters play a crucial role in developing high-quality software systems by detecting potential problems (e.g., memory leaks) in the source code of systems. Despite their benefits, code linters are often language-specific, focused on certain types of issues, and prone to false positives in the interest of speed. This paper investigates whether large language models can be used to develop a more versatile code linter. Such a linter is expected to be language-independent, cover a variety of issue types, and maintain high speed. To achieve this, we collected a large dataset of code snippets and their associated issues. We then selected a language model and trained two classifiers based on the collected datasets. The first is a binary classifier that detects if the code has issues, and the second is a multi-label classifier that identifies the types of issues. Through extensive experimental studies, we demonstrated that the developed large language model-based linter can achieve an accuracy of 84.9% for the binary classifier and 83.6% for the multi-label classifier. | 翻訳日:2024-07-24 22:14:13 公開日:2024-07-22 |
# Lynx: オープンソースの幻覚評価モデル
Lynx: An Open Source Hallucination Evaluation Model ( http://arxiv.org/abs/2407.08488v2 ) ライセンス: Link先を確認 | Selvan Sunitha Ravi, Bartosz Mielczarek, Anand Kannappan, Douwe Kiela, Rebecca Qian, | (参考訳) Retrieval Augmented Generation (RAG)技術は、Large Language Models (LLM)における幻覚を緩和することを目的としている。
しかし、LLMは検索された文脈に反する情報を生成することができる。
我々は,現実の幻覚に挑戦するシナリオについて,高度な推論が可能な SOTA 幻覚検出 LLM であるLYNX を紹介する。
LYNXを評価するために,様々な現実世界のドメインから得られた15kサンプルからなる総合幻覚評価ベンチマークHaluBenchを提案する。
実験の結果, LYNX は GPT-4o, Claude-3-Sonnet, およびHaluBench 上でのオープンソース LLM-as-a-judge モデルより優れていた。
LYNX、HaluBench、およびパブリックアクセスのための評価コードをリリースする。
Retrieval Augmented Generation (RAG) techniques aim to mitigate hallucinations in Large Language Models (LLMs). However, LLMs can still produce information that is unsupported or contradictory to the retrieved contexts. We introduce LYNX, a SOTA hallucination detection LLM that is capable of advanced reasoning on challenging real-world hallucination scenarios. To evaluate LYNX, we present HaluBench, a comprehensive hallucination evaluation benchmark, consisting of 15k samples sourced from various real-world domains. Our experiment results show that LYNX outperforms GPT-4o, Claude-3-Sonnet, and closed and open-source LLM-as-a-judge models on HaluBench. We release LYNX, HaluBench and our evaluation code for public access. | 翻訳日:2024-07-24 22:04:29 公開日:2024-07-22 |
# 甲状腺疾患 : シンチグラフィー画像からの甲状腺疾患の分離と分類のための自動パイプライン
Thyroidiomics: An Automated Pipeline for Segmentation and Classification of Thyroid Pathologies from Scintigraphy Images ( http://arxiv.org/abs/2407.10336v2 ) ライセンス: Link先を確認 | Maziar Sabouri, Shadab Ahamed, Azin Asadzadeh, Atlas Haddadi Avval, Soroush Bagheri, Mohsen Arabi, Seyed Rasoul Zakavi, Emran Askari, Ali Rasouli, Atena Aghaee, Mohaddese Sehati, Fereshteh Yousefirizi, Carlos Uribe, Ghasem Hajianfar, Habib Zaidi, Arman Rahmim, | (参考訳) 本研究の目的は,甲状腺シンチグラフィー画像を用いた甲状腺疾患分類を向上し,評価時間を短縮し,診断精度を向上する自動パイプラインを開発することである。
2,643人の甲状腺シンチグラフィー画像を収集し,臨床報告に基づいてDG,MNG,甲状腺炎に分類し,鑑別を行った。
ResUNetモデルは自動セグメンテーションを実行するために訓練された。
専門医 (scenario 1) と ResUNet セグメンテーション (scenario2) の両方から放射線学的特徴を抽出し, スピアマン相関とXGBoost をコアとした再帰的特徴除去 (RFE) による特徴選択を除外した。
すべてのモデルはLOCOCV(Leave-one-center-out cross-validation)スキームでトレーニングされ、アルゴリズムの9つのインスタンスが8つのセンターのデータに基づいて反復的にトレーニングされ、それぞれ別々にテストされた。
セグメンテーション性能はDice類似度係数(DSC)を用いて評価され、分類性能は精度、リコール、F1スコア、精度、受信器動作特性(ROC AUC)の領域、精度-リコール曲線(PRC AUC)の領域などを用いて評価された。
ResUNet は、それぞれ MNG と TH と DG に対して 0.84$\pm$0.03 と 0.71$\pm$0.06 と 0.86$\pm$0.02 の DSC 値を達成した。
シナリオ1の分類は0.76$\pm$0.04、ROC AUCは0.92$\pm$0.02、シナリオ2の分類は0.74$\pm$0.05、ROC AUCは0.90$\pm$0.02である。
自動パイプラインは、異なるクラスにわたるいくつかの分類基準で医師のセグメンテーションに匹敵する性能を示し、高い診断精度を維持しながら評価時間を効果的に短縮した。
コードは、https://github.com/ahxmeds/thyroidiomics.git.comで入手できる。
The objective of this study was to develop an automated pipeline that enhances thyroid disease classification using thyroid scintigraphy images, aiming to decrease assessment time and increase diagnostic accuracy. Anterior thyroid scintigraphy images from 2,643 patients were collected and categorized into diffuse goiter (DG), multinodal goiter (MNG), and thyroiditis (TH) based on clinical reports, and then segmented by an expert. A ResUNet model was trained to perform auto-segmentation. Radiomic features were extracted from both physician (scenario 1) and ResUNet segmentations (scenario 2), followed by omitting highly correlated features using Spearman's correlation, and feature selection using Recursive Feature Elimination (RFE) with XGBoost as the core. All models were trained under leave-one-center-out cross-validation (LOCOCV) scheme, where nine instances of algorithms were iteratively trained and validated on data from eight centers and tested on the ninth for both scenarios separately. Segmentation performance was assessed using the Dice similarity coefficient (DSC), while classification performance was assessed using metrics, such as precision, recall, F1-score, accuracy, area under the Receiver Operating Characteristic (ROC AUC), and area under the precision-recall curve (PRC AUC). ResUNet achieved DSC values of 0.84$\pm$0.03, 0.71$\pm$0.06, and 0.86$\pm$0.02 for MNG, TH, and DG, respectively. Classification in scenario 1 achieved an accuracy of 0.76$\pm$0.04 and a ROC AUC of 0.92$\pm$0.02 while in scenario 2, classification yielded an accuracy of 0.74$\pm$0.05 and a ROC AUC of 0.90$\pm$0.02. The automated pipeline demonstrated comparable performance to physician segmentations on several classification metrics across different classes, effectively reducing assessment time while maintaining high diagnostic accuracy. Code available at: https://github.com/ahxmeds/thyroidiomics.git. | 翻訳日:2024-07-24 21:54:39 公開日:2024-07-22 |
# Fisher-Rao Gradient Flow:測地的凸性と関数的不等式
Fisher-Rao Gradient Flow: Geodesic Convexity and Functional Inequalities ( http://arxiv.org/abs/2407.15693v1 ) ライセンス: Link先を確認 | José A. Carrillo, Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Dongyi Wei, | (参考訳) 確率密度関数のダイナミクスは、物理現象を理解しアルゴリズム設計を促進するために、科学と工学で広く研究されている。
特に興味深いのは、ワッサーシュタイン計量の下でエネルギー汎函数の勾配流として定式化できる力学である。
対数ソボレフの不等式のような機能的不等式の発展は、これらのダイナミクスの収束を分析する上で重要な役割を果たす。
本研究の目的は,Fisher-Rao 計量の下での勾配流である動力学において,エネルギー汎関数として様々な$f$-divergences を用いる機能的不等式を用いた手法の成功を並列化することである。
そのような力学は非局所微分方程式の形をとり、既存の解析は特別な場合において明示的な解公式を使うことに批判的に依存する。
最小の仮定の下でのフィッシャー・ラオ勾配流の関数的不等式とそれに関連する測地的凸性について包括的に研究する。
得られた機能的不等式の特徴は、ターゲット分布の対数凹度や対数ソボレフ定数に依存しない点である。
したがって、(十分に仮定された場合)力学の収束速度は一般目標分布全体にわたって均一であり、ベイズ予想における後続サンプリング応用には潜在的に望ましいダイナミクスとなる。
The dynamics of probability density functions has been extensively studied in science and engineering to understand physical phenomena and facilitate algorithmic design. Of particular interest are dynamics that can be formulated as gradient flows of energy functionals under the Wasserstein metric. The development of functional inequalities, such as the log-Sobolev inequality, plays a pivotal role in analyzing the convergence of these dynamics. The goal of this paper is to parallel the success of techniques using functional inequalities, for dynamics that are gradient flows under the Fisher-Rao metric, with various $f$-divergences as energy functionals. Such dynamics take the form of a nonlocal differential equation, for which existing analysis critically relies on using the explicit solution formula in special cases. We provide a comprehensive study on functional inequalities and the relevant geodesic convexity for Fisher-Rao gradient flows under minimal assumptions. A notable feature of the obtained functional inequalities is that they do not depend on the log-concavity or log-Sobolev constants of the target distribution. Consequently, the convergence rate of the dynamics (assuming well-posed) is uniform across general target distributions, making them potentially desirable dynamics for posterior sampling applications in Bayesian inference. | 翻訳日:2024-07-24 21:54:39 公開日:2024-07-22 |
# 実時間出現型ループクロージャ検出のためのメモリ管理
Memory Management for Real-Time Appearance-Based Loop Closure Detection ( http://arxiv.org/abs/2407.15890v1 ) ライセンス: Link先を確認 | Mathieu Labbé, François Michaud, | (参考訳) ループクロージャ検出(Loop Closure Detection)は、SLAMの現在の場所と以前に訪れた場所の一致を見つけるためのプロセスである。
時間とともに、新しい観測を処理するのに必要な時間量は、内部マップのサイズとともに増加し、これはリアルタイム処理に影響を与える可能性がある。
本稿では,大規模・長期SLAMのための新しいリアルタイムループ閉鎖検出手法を提案する。
提案手法は,新しい観測の計算時間を一定時間内に保持するメモリ管理手法に基づいている。
結果は、標準的な4つのデータセットを使用して、アプローチの適応性とスケーラビリティを実証する。
Loop closure detection is the process involved when trying to find a match between the current and a previously visited locations in SLAM. Over time, the amount of time required to process new observations increases with the size of the internal map, which may influence real-time processing. In this paper, we present a novel real-time loop closure detection approach for large-scale and long-term SLAM. Our approach is based on a memory management method that keeps computation time for each new observation under a fixed limit. Results demonstrate the approach's adaptability and scalability using four standard data sets. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# RazorAttention: 検索ヘッドによる効率的なKVキャッシュ圧縮
RazorAttention: Efficient KV Cache Compression Through Retrieval Heads ( http://arxiv.org/abs/2407.15891v1 ) ライセンス: Link先を確認 | Hanlin Tang, Yang Lin, Jing Lin, Qingsen Han, Shikuan Hong, Yiwu Yao, Gongyi Wang, | (参考訳) キーバリュー(KV)キャッシュのメモリと計算要求は、長期コンテキスト言語モデルをデプロイする上で重要な課題である。
従来のアプローチでは、トークンを選択的にドロップすることでこの問題を緩和しようとしており、将来のクエリに必要な重要な情報を不可逆的に消去する。
本稿では,トークン情報を全て保存するKVキャッシュのための新しい圧縮手法を提案する。
我々の調査は、こう明らかにしている。
一 殆どの注意は、主に現地の文脈に向けられる。
二 すべての入力トークンに基本的に注意を払うことができるのは、検索ヘッダとして表される少数の頭だけです。
これらの重要な観察は、注意を向けるために別個のキャッシュ戦略を使うことを動機付けます。
そこで本研究では,これらの重要な検索ヘッドのフルキャッシュを維持し,非検索ヘッドでリモートトークンを破棄する,トレーニング不要なKVキャッシュ圧縮アルゴリズムであるRazorAttentionを提案する。
さらに、「補償トークン」を含む新しいメカニズムを導入し、ドロップしたトークンの情報をさらに復元する。
多様な大規模言語モデル(LLM)に対する広範な評価は、RazorAttentionがパフォーマンスに顕著な影響を与えずに、KVキャッシュサイズを70%以上削減したことを示している。
さらに、RazorAttentionはFlashAttentionと互換性があり、元のモデルのオーバーヘッドや再トレーニングなしにLSM推論効率を向上させる、効率的でプラグイン・アンド・プレイのソリューションである。
The memory and computational demands of Key-Value (KV) cache present significant challenges for deploying long-context language models. Previous approaches attempt to mitigate this issue by selectively dropping tokens, which irreversibly erases critical information that might be needed for future queries. In this paper, we propose a novel compression technique for KV cache that preserves all token information. Our investigation reveals that: i) Most attention heads primarily focus on the local context; ii) Only a few heads, denoted as retrieval heads, can essentially pay attention to all input tokens. These key observations motivate us to use separate caching strategy for attention heads. Therefore, we propose RazorAttention, a training-free KV cache compression algorithm, which maintains a full cache for these crucial retrieval heads and discards the remote tokens in non-retrieval heads. Furthermore, we introduce a novel mechanism involving a "compensation token" to further recover the information in the dropped tokens. Extensive evaluations across a diverse set of large language models (LLMs) demonstrate that RazorAttention achieves a reduction in KV cache size by over 70% without noticeable impacts on performance. Additionally, RazorAttention is compatible with FlashAttention, rendering it an efficient and plug-and-play solution that enhances LLM inference efficiency without overhead or retraining of the original model. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# MINIシーケンス変換器:長期トレーニングにおける中間記憶の最適化
MINI-SEQUENCE TRANSFORMER: Optimizing Intermediate Memory for Long Sequences Training ( http://arxiv.org/abs/2407.15892v1 ) ライセンス: Link先を確認 | Cheng Luo, Jiawei Zhao, Zhuoming Chen, Beidi Chen, Anima Anandkumar, | (参考訳) 超高速かつ高精度なLLM学習法であるMini-Sequence Transformer (MsT)を導入する。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
アクティベーション再計算と統合され、前方パスと後方パスの両方で大きなメモリ節約を可能にする。
MsTを用いたLlama3-8Bモデルによる実験では、注意深いメモリ最適化により、標準実装よりも12倍長いシーケンスでもスループットや収束の劣化は測定されない。
MsTは完全に汎用的で実装に依存しないため、既存のLLMトレーニングフレームワークとの統合には最小限のコード変更が必要である。
We introduce Mini-Sequence Transformer (MsT), a simple and effective methodology for highly efficient and accurate LLM training with extremely long sequences. MsT partitions input sequences and iteratively processes mini-sequences to reduce intermediate memory usage. Integrated with activation recomputation, it enables significant memory savings in both forward and backward passes. In experiments with the Llama3-8B model, with MsT, we measure no degradation in throughput or convergence even with 12x longer sequences than standard implementations due to our careful memory optimizations. MsT is fully general, implementation-agnostic, and requires minimal code changes to integrate with existing LLM training frameworks. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# ファジィ決定系における分離性と整合性による2段階特徴クラスタリングと選択
Cascaded two-stage feature clustering and selection via separability and consistency in fuzzy decision systems ( http://arxiv.org/abs/2407.15893v1 ) ライセンス: Link先を確認 | Yuepeng Chen, Weiping Ding, Hengrong Ju, Jiashuang Huang, Tao Yin, | (参考訳) 特徴選択は、計算複雑性を減らし、モデルパフォーマンスを改善し、オーバーフィッティングのリスクを軽減することができるため、機械学習において重要なテクニックである。
しかし、データセットの複雑さと次元性の増大は、特徴の選択に重大な課題をもたらす。
これらの課題に焦点をあて,ファジィ意思決定システムのための2段階特徴クラスタリングと選択アルゴリズムを提案する。
第1段階では,関連する特徴をクラスタリングし,機能間冗長性に対処することにより,探索空間を縮小する。
第2段階では、データの大域的および局所的な構造を探索するクラスタリングに基づくシーケンシャルな前方選択法を示す。
本稿では,グローバルな分離性と局所的な一貫性を両立させる特徴の意義を評価するための新しい指標を提案する。
グローバルセパビリティはファジィメンバシップに基づくクラス内凝集度とクラス間分離度を測定し、データセパビリティの包括的な理解を提供する。
一方、局所的な一貫性はファジィ近傍粗設定モデルを利用して、データの不確実性とファジィ性を捉える。
提案アルゴリズムの有効性を18の公開データセットと現実世界の統合失調症データセットを用いて評価した。
実験結果は,分類精度と選択した特徴数の両方において,ベンチマークアルゴリズムよりもアルゴリズムの方が優れていることを示す。
Feature selection is a vital technique in machine learning, as it can reduce computational complexity, improve model performance, and mitigate the risk of overfitting. However, the increasing complexity and dimensionality of datasets pose significant challenges in the selection of features. Focusing on these challenges, this paper proposes a cascaded two-stage feature clustering and selection algorithm for fuzzy decision systems. In the first stage, we reduce the search space by clustering relevant features and addressing inter-feature redundancy. In the second stage, a clustering-based sequentially forward selection method that explores the global and local structure of data is presented. We propose a novel metric for assessing the significance of features, which considers both global separability and local consistency. Global separability measures the degree of intra-class cohesion and inter-class separation based on fuzzy membership, providing a comprehensive understanding of data separability. Meanwhile, local consistency leverages the fuzzy neighborhood rough set model to capture uncertainty and fuzziness in the data. The effectiveness of our proposed algorithm is evaluated through experiments conducted on 18 public datasets and a real-world schizophrenia dataset. The experiment results demonstrate our algorithm's superiority over benchmarking algorithms in both classification accuracy and the number of selected features. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# Craft: プロンプトチューニングのロバスト性を改善するクロスモーダルアライメント機能
Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning ( http://arxiv.org/abs/2407.15894v1 ) ライセンス: Link先を確認 | Jingchen Sun, Rohan Sharma, Vishnu Suresh Lokhande, Changyou Chen, | (参考訳) Prompt Tuningは、様々な下流タスクに視覚言語モデルを適用するための顕著な研究パラダイムとして登場した。
しかし、最近の研究では、訓練サンプルが限られているため、迅速なチューニングが過度に適合することが多いことが示唆されている。
本稿では、この問題に対処するために、 \textbf{Cr}oss-modal \textbf{a}ligned \textbf{f}eature \textbf{t}uning (\textbf{Craft})法を提案する。
クロスモーダルアライメントは、まず代替ドメインからアンカーを選択し、選択されたアンカーに対する埋め込みの相対表現を導出することによって行われる。
アンカーアライメントされたテキストと画像のモダリティに対する特徴アライメント損失の最適化は、より統一されたテキストイメージの共通スペースを生成する。
即時チューニングにおけるオーバーフィッティングは、アウト・オブ・ディストリビューション・サンプルのモデル性能を低下させる。
そこで本研究では, ドメインシフトを軽減するために, アンカー整列した特徴空間上での最大平均離散性(MMD)を最小化することを提案する。
4つの異なるプロンプトチューニング構造に対する実験は、Base-to-Novelの一般化タスクで最大6.1\%、グループロバストネスタスクで5.8\%、アウト・オブ・ディストリビューションタスクで2.7\%、という方法の改善を一貫して示している。
コードは \href{https://github.com/Jingchensun/Craft} で公開される。
Prompt Tuning has emerged as a prominent research paradigm for adapting vision-language models to various downstream tasks. However, recent research indicates that prompt tuning methods often lead to overfitting due to limited training samples. In this paper, we propose a \textbf{Cr}oss-modal \textbf{a}ligned \textbf{f}eature \textbf{t}uning (\textbf{Craft}) method to address this issue. Cross-modal alignment is conducted by first selecting anchors from the alternative domain and deriving relative representations of the embeddings for the selected anchors. Optimizing for a feature alignment loss over anchor-aligned text and image modalities creates a more unified text-image common space. Overfitting in prompt tuning also deteriorates model performance on out-of-distribution samples. To further improve the prompt model's robustness, we propose minimizing Maximum Mean Discrepancy (MMD) over the anchor-aligned feature spaces to mitigate domain shift. The experiment on four different prompt tuning structures consistently shows the improvement of our method, with increases of up to $6.1\%$ in the Base-to-Novel generalization task, $5.8\%$ in the group robustness task, and $2.7\%$ in the out-of-distribution tasks. The code will be available at \href{https://github.com/Jingchensun/Craft} | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# シュロディンガー化による物理境界条件を持つ熱方程式の量子回路
Quantum Circuits for the heat equation with physical boundary conditions via Schrodingerisation ( http://arxiv.org/abs/2407.15895v1 ) ライセンス: Link先を確認 | Jin Shi, Liu Nana, Yu Yue, | (参考訳) 本稿では、物理境界条件を持つ偏微分方程式(PDE)の量子シミュレーションのための量子回路の明示的設計について検討する。
これらの方程式やそれらの離散化された形式は、通常はユニタリ力学によって進化しないので、量子シミュレーションには適さない。
境界条件(時間依存または独立)は、問題をより難しくする。
この課題に取り組むためにシュロディンガー化法は、線形偏微分方程式と非単体力学の常微分方程式をシュロディンガー型方程式の系に変換する、いわゆるワープ位相変換を用いて、方程式を1つの高次元にマッピングする。
シュロディンジェライゼーション技術の進歩にもかかわらず、一般のPDE(特に物理境界条件)を解くための量子回路の明示的な実装は未開発のままである。
時間依存的物理的境界条件から生じる不均一項を扱うための2つの方法を提案する。
1つのアプローチはデュハメルの原理を利用して解を積分形式で表現し、整合状態の準備にユニタリ(LCU)の線形結合を用いる。
別の方法は、不均一な問題を均質な問題に変換するために拡張を適用する。
次に、[CJL23]から量子シミュレーション手法を適用し、結果の非自律系を1次元の自律系に変換する。
本稿では,これら2つの手法の詳細な実装と,時間進化入力オラクルに対するクエリの観点からの包括的複雑性解析を行う。
This paper explores the explicit design of quantum circuits for quantum simulation of partial differential equations (PDEs) with physical boundary conditions. These equations and/or their discretized forms usually do not evolve via unitary dynamics, thus are not suitable for quantum simulation. Boundary conditions (either time-dependent or independent) make the problem more difficult. To tackle this challenge, the Schrodingerisation method can be employed, which converts linear partial and ordinary differential equations with non-unitary dynamics into systems of Schrodinger-type equations, via the so-called warped phase transformation that maps the equation into one higher dimension. Despite advancements in Schrodingerisation techniques, the explicit implementation of quantum circuits for solving general PDEs, especially with physical boundary conditions, remains underdeveloped. We present two methods for handling the inhomogeneous terms arising from time-dependent physical boundary conditions. One approach utilizes Duhamel's principle to express the solution in integral form and employs linear combination of unitaries (LCU) for coherent state preparation. Another method applies an augmentation to transform the inhomogeneous problem into a homogeneous one. We then apply the quantum simulation technique from [CJL23] to transform the resulting non-autonomous system to an autonomous system in one higher dimension. We provide detailed implementations of these two methods and conduct a comprehensive complexity analysis in terms of queries to the time evolution input oracle. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト事前学習
Spatial-Temporal Cross-View Contrastive Pre-training for Check-in Sequence Representation Learning ( http://arxiv.org/abs/2407.15899v1 ) ライセンス: Link先を確認 | Letian Gong, Huaiyu Wan, Shengnan Guo, Xiucheng Li, Yan Lin, Erwen Zheng, Tianyi Wang, Zeyu Zhou, Youfang Lin, | (参考訳) 位置情報サービス(LBS)の急速な成長は、人間の移動性に関する膨大なデータを生み出している。
ユーザ生成したチェックインシーケンスに対する意味のある表現を効果的に抽出することは、さまざまなダウンストリームサービスを容易にする上で重要である。
しかし、ユーザ生成チェックインデータは、周囲の客観的状況とユーザの主観的意図に同時に影響される。
具体的には、チェックインデータに現れる時間的不確実性と空間的多様性は、ユーザのマクロな空間的時間的パターンを捉え、ユーザのモビリティ活動の意味を理解するのを困難にしている。
さらに、チェックインシーケンスにおける時間的・空間的な情報の異なる特徴は、これらの2種類の情報を効果的に融合する方法を要求する。
本稿では,チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト表現(STCCR)フレームワークを提案する。
具体的には、STCCRは「空間的話題」と「時間的意図」の視点から自己スーパービジョンを取り入れ、意味レベルでの空間的情報と時間的情報を効果的に融合させることによって、上記の課題に対処する。
さらに、STCCRはコントラッシブクラスタリングを活用し、多様なモビリティ活動からユーザの共有空間トピックを明らかにすると同時に、時間的不確実性やノイズの影響を軽減するために、角度運動量を利用する。
実世界の3つのデータセット上でSTCCRを広範囲に評価し、3つの下流タスクにおいて優れた性能を示す。
The rapid growth of location-based services (LBS) has yielded massive amounts of data on human mobility. Effectively extracting meaningful representations for user-generated check-in sequences is pivotal for facilitating various downstream services. However, the user-generated check-in data are simultaneously influenced by the surrounding objective circumstances and the user's subjective intention. Specifically, the temporal uncertainty and spatial diversity exhibited in check-in data make it difficult to capture the macroscopic spatial-temporal patterns of users and to understand the semantics of user mobility activities. Furthermore, the distinct characteristics of the temporal and spatial information in check-in sequences call for an effective fusion method to incorporate these two types of information. In this paper, we propose a novel Spatial-Temporal Cross-view Contrastive Representation (STCCR) framework for check-in sequence representation learning. Specifically, STCCR addresses the above challenges by employing self-supervision from "spatial topic" and "temporal intention" views, facilitating effective fusion of spatial and temporal information at the semantic level. Besides, STCCR leverages contrastive clustering to uncover users' shared spatial topics from diverse mobility activities, while employing angular momentum contrast to mitigate the impact of temporal uncertainty and noise. We extensively evaluate STCCR on three real-world datasets and demonstrate its superior performance across three downstream tasks. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# 重み付きスコアリングルールを用いた統計的後処理モデルの訓練による極端風速の確率的予測の改善
Improving probabilistic forecasts of extreme wind speeds by training statistical post-processing models with weighted scoring rules ( http://arxiv.org/abs/2407.15900v1 ) ライセンス: Link先を確認 | Jakob Benjamin Wessel, Christopher A. T. Ferro, Gavin R. Evans, Frank Kwasniok, | (参考訳) 極端な風速の正確な予測は多くの応用において非常に重要である。
このような予測は通常、数値天気予報(NWP)モデルのアンサンブルによって生成されるが、バイアスがあり、分散の誤差があり、統計的後処理技術を適用する必要がある。
本研究では,極端風速の確率論的予測のための統計的後処理モデルの改善を目的とする。
我々は、アンサンブルモデル出力統計(EMOS)モデルに適合させる訓練手順を調整し、しきい値の予測に特に重点を置く適切なスコアルールである閾値重み付き連続ランク確率スコア(twCRPS)を用いてパラメータを推定することを提案する。
twCRPSを用いたトレーニングにより,様々なしきい値に対する後処理モデルの極端なイベント性能が向上することを示す。
極端事象の確率論的予測の性能が向上し,分布物体の予測性能が低下する分布体テールトレードオフが発見された。
しかし,重み付きトレーニングと線形プールに基づいて,このトレードオフを緩和する戦略を導入する。
最後に,twCRPSの学習効果を説明するための合成実験と,複数の分布に対するtwCRPSのクローズドフォーム表現の導出について考察する。
その結果、研究者や実践者は、極端や他の関心事に対する確率的予測モデルの性能を向上させることができる。
Accurate forecasts of extreme wind speeds are of high importance for many applications. Such forecasts are usually generated by ensembles of numerical weather prediction (NWP) models, which however can be biased and have errors in dispersion, thus necessitating the application of statistical post-processing techniques. In this work we aim to improve statistical post-processing models for probabilistic predictions of extreme wind speeds. We do this by adjusting the training procedure used to fit ensemble model output statistics (EMOS) models - a commonly applied post-processing technique - and propose estimating parameters using the so-called threshold-weighted continuous ranked probability score (twCRPS), a proper scoring rule that places special emphasis on predictions over a threshold. We show that training using the twCRPS leads to improved extreme event performance of post-processing models for a variety of thresholds. We find a distribution body-tail trade-off where improved performance for probabilistic predictions of extreme events comes with worse performance for predictions of the distribution body. However, we introduce strategies to mitigate this trade-off based on weighted training and linear pooling. Finally, we consider some synthetic experiments to explain the training impact of the twCRPS and derive closed-form expressions of the twCRPS for a number of distributions, giving the first such collection in the literature. The results will enable researchers and practitioners alike to improve the performance of probabilistic forecasting models for extremes and other events of interest. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# fNIRSデータ解析のための統合LSTM層とCNNを用いた認知負荷分類の強化
Enhancing Cognitive Workload Classification Using Integrated LSTM Layers and CNNs for fNIRS Data Analysis ( http://arxiv.org/abs/2407.15901v1 ) ライセンス: Link先を確認 | Mehshan Ahmed Khan, Houshyar Asadi, Mohammad Reza Chalak Qazani, Adetokunbo Arogbonlo, Siamak Pedrammehr, Adnan Anwar, Asim Bhatti, Saeid Nahavandi, Chee Peng Lim, | (参考訳) 機能近赤外分光法(fNIRS)は、酸素化ヘモグロビン(HbO)と脱酸素化ヘモグロビン(HbR)の濃度の変化を捉え、機能的脳活動を監視する非侵襲的方法として用いられる。
認知状態を識別するために様々な機械学習分類技術が用いられている。
しかし、従来の機械学習手法は実装が簡単であるが、ネットワークトレーニングの前に複雑な前処理フェーズを実行し、不適切なデータ前処理による精度の低下を示す。
さらに、fNIRSを用いたコグニティブ負荷評価の以前の研究は、主に2段階のメンタルワークロードの異なるサイズ化に焦点を当ててきた。
これらの研究は主に、認知負荷の低レベルと高レベルを分類することや、簡単なタスクと難しいタスクを区別することを目的としている。
本稿では,これらの制限に対処するため,深層学習モデルにおける畳み込みニューラルネットワーク(CNN)の有効性について,Long Short-Term Memory(LSTM)層を包括的に探索する。
本研究は,CNNにおける空間的特徴の過度な適合とテンポラル依存の欠如に関連する問題に対処することを目的とする。
LSTMレイヤを統合することで、モデルがfNIRSデータ内の時間的依存関係をキャプチャし、認知状態をより包括的に理解することが可能になる。
第一の目的は、LSTMレイヤの導入によってCNNの性能が向上するかを評価することである。
本稿では,LSTM層と畳み込み層を統合することで,ディープラーニングモデルの精度が97.40%から97.92%に向上することを示す。
Functional near-infrared spectroscopy (fNIRS) is employed as a non-invasive method to monitor functional brain activation by capturing changes in the concentrations of oxygenated haemoglobin (HbO) and deoxygenated haemo-globin (HbR). Various machine learning classification techniques have been utilized to distinguish cognitive states. However, conventional machine learning methods, although simpler to implement, undergo a complex pre-processing phase before network training and demonstrate reduced accuracy due to inadequate data preprocessing. Additionally, previous research in cog-nitive load assessment using fNIRS has predominantly focused on differ-sizeentiating between two levels of mental workload. These studies mainly aim to classify low and high levels of cognitive load or distinguish between easy and difficult tasks. To address these limitations associated with conven-tional methods, this paper conducts a comprehensive exploration of the im-pact of Long Short-Term Memory (LSTM) layers on the effectiveness of Convolutional Neural Networks (CNNs) within deep learning models. This is to address the issues related to spatial features overfitting and lack of tem-poral dependencies in CNN in the previous studies. By integrating LSTM layers, the model can capture temporal dependencies in the fNIRS data, al-lowing for a more comprehensive understanding of cognitive states. The primary objective is to assess how incorporating LSTM layers enhances the performance of CNNs. The experimental results presented in this paper demonstrate that the integration of LSTM layers with Convolutional layers results in an increase in the accuracy of deep learning models from 97.40% to 97.92%. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# サーキットブレーカのロバストアライメントの再検討
Revisiting the Robust Alignment of Circuit Breakers ( http://arxiv.org/abs/2407.15902v1 ) ライセンス: Link先を確認 | Leo Schwinn, Simon Geisler, | (参考訳) 過去10年間で、敵の攻撃に対するモデル堅牢性を高める数少ない信頼性の高い方法(Szegedy et al , 2014 Madry et al , 2018, Xhonneux et al , 2024)の1つとして、敵の訓練が登場した。
近年,LLMの整合性を示す新たな防御機構として,回路ブレーカー(Zou et al , 2024)が提案されている。
本報告では,入力トークンの埋め込み空間における非拘束的連続攻撃に対する「回路ブレーカーによるアライメントとロバスト性の向上」のロバスト性は過大評価される可能性があることを示す(Zou et al , 2024]。
具体的には、スペースアタック(Schwinn et al , 2024a, b]にいくつかの簡単な変更を加えることで、サーキットブレーカモデルに対する100%アタック成功率(ASR)を達成できることを実証する。
それ以上のハイパーパラメータチューニングを行なわなければ、これらの調整は元の評価と比べてASRを80%以上増加させる。
https://github.com/SchwinnL/circuit-breakers-eval
Over the past decade, adversarial training has emerged as one of the few reliable methods for enhancing model robustness against adversarial attacks [Szegedy et al., 2014, Madry et al., 2018, Xhonneux et al., 2024], while many alternative approaches have failed to withstand rigorous subsequent evaluations. Recently, an alternative defense mechanism, namely "circuit breakers" [Zou et al., 2024], has shown promising results for aligning LLMs. In this report, we show that the robustness claims of "Improving Alignment and Robustness with Circuit Breakers" against unconstraint continuous attacks in the embedding space of the input tokens may be overestimated [Zou et al., 2024]. Specifically, we demonstrate that by implementing a few simple changes to embedding space attacks [Schwinn et al., 2024a,b], we achieve 100% attack success rate (ASR) against circuit breaker models. Without conducting any further hyperparameter tuning, these adjustments increase the ASR by more than 80% compared to the original evaluation. Code is accessible at: https://github.com/SchwinnL/circuit-breakers-eval | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# モデル圧縮の性能評価と最適化に関する総合的研究--従来のディープラーニングモデルと大規模言語モデルを組み合わせる
Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models ( http://arxiv.org/abs/2407.15904v1 ) ライセンス: Link先を確認 | Aayush Saxena, Arit Kumar Bishwas, Ayush Ashok Mishra, Ryan Armstrong, | (参考訳) 近年、深層学習モデルは多くの産業で大きな成功を収めている。
これらのモデルの進化により、モデルのサイズとエネルギー要求が増加し、低消費電力のデバイスで本番環境にデプロイすることが困難になった。
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。
ウェイト量子化、パラメータ・プルーニング、ネットワーク・プルーニング、低ランク表現、ウェイト・シェアリング、ニューラル・アーキテクチャ・サーチ、知識蒸留などである。
本研究では,量子化法とプルーニング法を用いて圧縮した各種訓練深層学習モデルの性能への影響について検討する。
画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
また、量子化および低階適応後の様々な大規模言語モデル(LLM)の性能についても検討した。
我々は、関連するすべての問題ステートメントに対して、標準評価指標(モデルのサイズ、精度、推測時間)を使用し、課題と今後の作業について議論して、この論文を締め括った。
Deep learning models have achieved tremendous success in most of the industries in recent years. The evolution of these models has also led to an increase in the model size and energy requirement, making it difficult to deploy in production on low compute devices. An increase in the number of connected devices around the world warrants compressed models that can be easily deployed at the local devices with low compute capacity and power accessibility. A wide range of solutions have been proposed by different researchers to reduce the size and complexity of such models, prominent among them are, Weight Quantization, Parameter Pruning, Network Pruning, low-rank representation, weights sharing, neural architecture search, knowledge distillation etc. In this research work, we investigate the performance impacts on various trained deep learning models, compressed using quantization and pruning techniques. We implemented both, quantization and pruning, compression techniques on popular deep learning models used in the image classification, object detection, language models and generative models-based problem statements. We also explored performance of various large language models (LLMs) after quantization and low rank adaptation. We used the standard evaluation metrics (model's size, accuracy, and inference time) for all the related problem statements and concluded this paper by discussing the challenges and future work. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# Kinetica-Graphを用いた一般知識グラフのアドホックグラフノードベクトル埋め込みアルゴリズム
An Ad-hoc graph node vector embedding algorithm for general knowledge graphs using Kinetica-Graph ( http://arxiv.org/abs/2407.15906v1 ) ライセンス: Link先を確認 | B. Kaan Karamete, Eli Glaser, | (参考訳) 本稿では,知識グラフ表現から一般的なグラフノードの埋め込みを生成する方法について論じる。
埋め込み空間は、局所親和性とリモート構造関連性の両方を模倣するいくつかのサブ機能から構成される。
これらのサブフィーチャー次元は、ホップベースのトポロジカルパターン、重なり合うラベルの数、遷移確率(マルコフ連鎖確率)、再帰的スペクトル二分法(RSB)アルゴリズムによって計算されたクラスタ指標など、いくつかの指標によって定義される。
これらの測度は1次元のベクトル空間上でそれぞれの部分成分範囲に平坦化され、ベクトル類似関数全体の集合が類似ノードを見つけるのに使用できる。
この誤差は、仮定された埋め込みと基底真理推定とのランダムに選択されたグラフノードのサンプルの対角差の和によって定義される。
基礎的な真実は、ペアワイズ・ジャカードの類似性と重なり合うラベルの数の組み合わせであると推定される。
最後に,多変量確率勾配勾配(SGD)アルゴリズムを用いて,ベクトル空間間の重み付け係数を計算し,ランダムサンプリング論理を用いて平均誤差を最小化する。
This paper discusses how to generate general graph node embeddings from knowledge graph representations. The embedded space is composed of a number of sub-features to mimic both local affinity and remote structural relevance. These sub-feature dimensions are defined by several indicators that we speculate to catch nodal similarities, such as hop-based topological patterns, the number of overlapping labels, the transitional probabilities (markov-chain probabilities), and the cluster indices computed by our recursive spectral bisection (RSB) algorithm. These measures are flattened over the one dimensional vector space into their respective sub-component ranges such that the entire set of vector similarity functions could be used for finding similar nodes. The error is defined by the sum of pairwise square differences across a randomly selected sample of graph nodes between the assumed embeddings and the ground truth estimates as our novel loss function. The ground truth is estimated to be a combination of pairwise Jaccard similarity and the number of overlapping labels. Finally, we demonstrate a multi-variate stochastic gradient descent (SGD) algorithm to compute the weighing factors among sub-vector spaces to minimize the average error using a random sampling logic. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# 人間とプログラミング言語の学習に関する考察
Thoughts on Learning Human and Programming Languages ( http://arxiv.org/abs/2407.15907v1 ) ライセンス: Link先を確認 | Daniel S. Katz, Jeffrey C. Carver, | (参考訳) Jeffrey C. Carver氏とDaniel S. Katz氏による、人々がプログラミング言語を学ぶ方法についての仮想対話である。
これはJeff氏が最初のUS-RSEカンファレンス(US-RSE'23)で行った講演に基づいている。
Dan氏はカンファレンスでJeff氏と議論し、この議論は非同期であり、このコラムは議論の記録である。
This is a virtual dialog between Jeffrey C. Carver and Daniel S. Katz on how people learn programming languages. It's based on a talk Jeff gave at the first US-RSE Conference (US-RSE'23), which led Dan to think about human languages versus computer languages. Dan discussed this with Jeff at the conference, and this discussion continued asynchronous, with this column being a record of the discussion. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# 金融時系列予測における説明可能な人工知能(XAI)の検討
A Survey of Explainable Artificial Intelligence (XAI) in Financial Time Series Forecasting ( http://arxiv.org/abs/2407.15909v1 ) ライセンス: Link先を確認 | Pierre-Daniel Arsenault, Shengrui Wang, Jean-Marc Patenande, | (参考訳) 人工知能(AI)モデルは非常に高い精度に達している。
優れたパフォーマンスは大きな利益をもたらすが、その固有の複雑さは、しばしば人間の信頼を低下させ、金融のようなリスクの高い意思決定領域への適用を遅らせる。
eXplainable AI(XAI)の分野は、AIモデルをより理解しやすくすることを目的として、このギャップを埋めようとしている。
この調査は過去5年間の成果を中心に、金融時系列を予測するXAIアプローチを分類している。
本稿では,これらの概念を個別に扱う必要性を強調し,説明可能性と解釈可能性の区別を行う。
明確な定義、XAIアプローチの厳密な分類、補完的な特徴、金融業界におけるXAIの適用例を通じて、本論文は、金融におけるXAIの現在の役割を包括的に考察する。
また、将来のアプリケーションに最適なXAIアプローチを選択するためのガイドとしても機能する。
Artificial Intelligence (AI) models have reached a very significant level of accuracy. While their superior performance offers considerable benefits, their inherent complexity often decreases human trust, which slows their application in high-risk decision-making domains, such as finance. The field of eXplainable AI (XAI) seeks to bridge this gap, aiming to make AI models more understandable. This survey, focusing on published work from the past five years, categorizes XAI approaches that predict financial time series. In this paper, explainability and interpretability are distinguished, emphasizing the need to treat these concepts separately as they are not applied the same way in practice. Through clear definitions, a rigorous taxonomy of XAI approaches, a complementary characterization, and examples of XAI's application in the finance industry, this paper provides a comprehensive view of XAI's current role in finance. It can also serve as a guide for selecting the most appropriate XAI approach for future applications. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# ダークネットネットワークトラフィックを用いた決定木とブースティングアルゴリズムを用いた多段階機械学習分類器の開発
Development of Multistage Machine Learning Classifier using Decision Trees and Boosting Algorithms over Darknet Network Traffic ( http://arxiv.org/abs/2407.15910v1 ) ライセンス: Link先を確認 | Anjali Sureshkumar Nair, Dr. Prashant Nitnaware, | (参考訳) 近年,ダークネット活動の密接な性質は,サイバーセキュリティの取り組みにエスカレートする課題をもたらし,これらの隠蔽活動に関連するネットワークトラフィックの検出と分類を行うための高度な手法を必要としている。
このシステムは、悪質なトラフィックが少数派を構成するダークネットトラフィックデータセット内のクラス不均衡の重大な課題に対処し、正常な行動と悪意のある行動の効果的な識別を妨げる。
AdaBoostやGradient Boostingといったブースティングアルゴリズムを決定木と組み合わせることで,ネットワークトラフィック分類のための堅牢なソリューションを提案する。
アルゴリズムの強化 学習はエラーを反復的に修正し、決定木の階層構造によって補完される少数クラスのインスタンスにより高い重みを割り当てる。
情報ゲインメトリクスを利用した事前処理手法であるFeature Selection、Fisher's Score、および機能のためのChi-Squareテスト選択を採用する。
多様なDarknetトラフィックデータセットを用いた厳密な実験は、提案した多段階分類器の有効性を検証し、精度、精度、リコール、F1スコアなどの様々なパフォーマンス指標を用いて評価し、Darknetアクティビティの正確な検出と分類のための包括的なソリューションを提供する。
In recent years, the clandestine nature of darknet activities has presented an escalating challenge to cybersecurity efforts, necessitating sophisticated methods for the detection and classification of network traffic associated with these covert operations. The system addresses the significant challenge of class imbalance within Darknet traffic datasets, where malicious traffic constitutes a minority, hindering effective discrimination between normal and malicious behavior. By leveraging boosting algorithms like AdaBoost and Gradient Boosting coupled with decision trees, this study proposes a robust solution for network traffic classification. Boosting algorithms ensemble learning corrects errors iteratively and assigns higher weights to minority class instances, complemented by the hierarchical structure of decision trees. The additional Feature Selection which is a preprocessing method by utilizing Information Gain metrics, Fisher's Score, and Chi-Square test selection for features is employed. Rigorous experimentation with diverse Darknet traffic datasets validates the efficacy of the proposed multistage classifier, evaluated through various performance metrics such as accuracy, precision, recall, and F1-score, offering a comprehensive solution for accurate detection and classification of Darknet activities. | 翻訳日:2024-07-24 21:34:58 公開日:2024-07-22 |
# 詐欺の影:AIによるソーシャルエンジニアリングの新たな脅威とその可能性
The Shadow of Fraud: The Emerging Danger of AI-powered Social Engineering and its Possible Cure ( http://arxiv.org/abs/2407.15912v1 ) ライセンス: Link先を確認 | Jingru Yu, Yi Yu, Xuhong Wang, Yilun Lin, Manzhi Yang, Yu Qiao, Fei-Yue Wang, | (参考訳) 社会工学(SE)攻撃は個人と組織双方にとって重大な脅威である。
拡散モデルや大言語モデル(LLM)を含む人工知能(AI)の進歩は、よりパーソナライズされ説得力のある攻撃を可能にすることによって、これらの脅威を強化する可能性がある。
本研究は、SE攻撃機構を分類し、その進化を分析し、これらの脅威を測定する方法を探る。
AIに強化されたSE攻撃のリスクに対する認識を高める上での課題を強調し、積極的で適応可能な防衛戦略の開発に関する洞察を提供する。
さらに、我々は、AIを活用した社会工学攻撃の進化する性質を「3Eフェーズ」に分類する: 拡大、デジタルメディアの活用による攻撃の規模の拡大、新しい攻撃ベクトルやテクニックの強化、そして新しい脅威や手法の出現を象徴する創発。
さらに、AIによるSE攻撃のリスクを評価するための堅牢なフレームワークの必要性を強調した。
既存の研究のギャップを特定し、対処することで、我々は将来の研究をガイドし、AIによる社会工学の脅威の増大に対するより効果的な防御の開発を促進することを目指している。
Social engineering (SE) attacks remain a significant threat to both individuals and organizations. The advancement of Artificial Intelligence (AI), including diffusion models and large language models (LLMs), has potentially intensified these threats by enabling more personalized and convincing attacks. This survey paper categorizes SE attack mechanisms, analyzes their evolution, and explores methods for measuring these threats. It highlights the challenges in raising awareness about the risks of AI-enhanced SE attacks and offers insights into developing proactive and adaptable defense strategies. Additionally, we introduce a categorization of the evolving nature of AI-powered social engineering attacks into "3E phases": Enlarging, wherein the magnitude of attacks expands through the leverage of digital media; Enriching, introducing novel attack vectors and techniques; and Emerging, signifying the advent of novel threats and methods. Moreover, we emphasize the necessity for a robust framework to assess the risk of AI-powered SE attacks. By identifying and addressing gaps in existing research, we aim to guide future studies and encourage the development of more effective defenses against the growing threat of AI-powered social engineering. | 翻訳日:2024-07-24 21:25:10 公開日:2024-07-22 |
# ビジョンランゲージモデルのゼロショット一般化のための信頼度最大化によるテスト時間低ランク適応
Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models ( http://arxiv.org/abs/2407.15913v1 ) ライセンス: Link先を確認 | Raza Imam, Hanan Gani, Muhammad Huzaifa, Karthik Nandakumar, | (参考訳) テスト時間中に事前訓練された視覚言語モデル(VLM)を適応するための従来のモードオペラディは、学習可能なプロンプト、すなわちテスト時間プロンプトチューニングを含む。
本稿では,大規模VLMのゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、効率よく微調整できる大規模言語モデルの最近の進歩からインスピレーションを得て、予測信頼度を最大化してトランスフォーマーエンコーダの注意重みを更新するテスト時間パラメータ効率適応アプローチを提供する。
自己監督的信頼度最大化目的は、強化サンプルの予測の一貫性を強制する重み付きエントロピー損失を用いて規定される。
TTLは、プロンプトとバックボーンの凍結を維持しながら、モデル空間における低ランクアダプタのトレーニング可能なパラメータをわずかに導入する。
様々な自然分布とクロスドメインタスクに関する大規模な実験により、TTLは厳密なゼロショット設定でVLMのテスト時間最適化の他の手法よりも優れていることが示された。
具体的には、TTLは平均よりも大幅に改善され、テスト時のプロンプトチューニングベースラインを上回っている。
私たちのコードはhttps://github.com/Razaimam45/TTL-Test-Time-Low-Rank-Adaptationで利用可能です。
The conventional modus operandi for adapting pre-trained vision-language models (VLMs) during test-time involves tuning learnable prompts, ie, test-time prompt tuning. This paper introduces Test-Time Low-rank adaptation (TTL) as an alternative to prompt tuning for zero-shot generalization of large-scale VLMs. Taking inspiration from recent advancements in efficiently fine-tuning large language models, TTL offers a test-time parameter-efficient adaptation approach that updates the attention weights of the transformer encoder by maximizing prediction confidence. The self-supervised confidence maximization objective is specified using a weighted entropy loss that enforces consistency among predictions of augmented samples. TTL introduces only a small amount of trainable parameters for low-rank adapters in the model space while keeping the prompts and backbone frozen. Extensive experiments on a variety of natural distribution and cross-domain tasks show that TTL can outperform other techniques for test-time optimization of VLMs in strict zero-shot settings. Specifically, TTL outperforms test-time prompt tuning baselines with a significant improvement on average. Our code is available at at https://github.com/Razaimam45/TTL-Test-Time-Low-Rank-Adaptation. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# 計測専用回路におけるマジック遷移
Magic transition in measurement-only circuits ( http://arxiv.org/abs/2407.15939v1 ) ライセンス: Link先を確認 | Poetri Sonya Tarabunga, Emanuele Tirrito, | (参考訳) 非安定化器性(nonstabilizerness)とも呼ばれるマジック(Magic)は、量子状態から安定化器状態の集合までの距離を定量化し、古典的計算よりも量子的優位性を持つ可能性のあるリソースとして機能する。
本研究では,CiffordとNon-Ciffordの測定を競合するタイプのCiffordとNon-Cifford測定を併用した,測定専用量子回路におけるマジックについて検討する。
この回路は、効率的にシミュレートできる古典的なモデルにマッピングすることができ、マジックは、単一量子状態のテンソル積に対して加法的である任意のマジック測度を用いて特徴づけることができる。
この観測を生かして、我々は大規模な数値シミュレーションを用いて、この回路の魔法の遷移を研究する。
本研究は,相互魔法が対数的スケーリングを示す臨界点によって分離された,広範囲なマジックスケーリングを持つ2つの相間のマジック遷移の存在を実証するものである。
さらに、これらの2つの異なる位相は、トポロジカルマジックによって区別可能であることを示す。
異なる体制では、非クリフォード測定の消滅率により、魔法が両方の相で飽和していることが分かる。
我々の研究は、量子回路における魔法の挙動とその線形結合に光を当て、真の魔法の測度を用いている。
Magic, also known as nonstabilizerness, quantifies the distance of a quantum state to the set of stabilizer states, and it serves as a necessary resource for potential quantum advantage over classical computing. In this work, we study magic in a measurement-only quantum circuit with competing types of Clifford and non-Clifford measurements, where magic is injected through the non-Clifford measurements. This circuit can be mapped to a classical model that can be simulated efficiently, and the magic can be characterized using any magic measure that is additive for tensor product of single-qubit states. Leveraging this observation, we study the magic transition in this circuit using large-scale numerical simulations. Our results demonstrate the presence of a magic transition between two different phases with extensive magic scaling, separated by a critical point in which the mutual magic exhibits logarithmic scaling. We further show that these two distinct phases can be distinguished by the topological magic. In a different regime, with vanishing rate of non-Clifford measurements, we find that the magic saturates in both phases. Our work sheds light on the behavior of magic and its linear combinations in quantum circuits, employing genuine magic measures. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# 量子チャネルの無限絡み合い
Unextendible entanglement of quantum channels ( http://arxiv.org/abs/2407.15944v1 ) ライセンス: Link先を確認 | Vishal Singh, Mark M. Wilde, | (参考訳) 量子通信は情報交換のための高品質な量子チャネルの存在に依存している。
しかし、実際には、すべての通信リンクは環境からのノイズによって影響を受ける。
ここでは、量子チャネルが量子通信タスクを行う能力について、参加者が利用可能な量子チャネルとともに、ローカル操作と一方通行の古典的通信(一方通行のLOCC)のみを使用することを制限して検討する。
特に、チャネルは2つの間の非常に絡み合った状態の蒸留に使用することができ、量子通信やプライベート通信が可能である。
本研究では,超チャネルの枠組みを用いて,最大絡み合う状態やプライベート状態などの資源豊富な量子状態の蒸留を,ポイントツーポイント量子チャネルの複数インスタンスを用いて検討する。
我々は、k$-extendibilityというアイデアを用いて、一方通行のLOCCスーパーチャネルの集合を半確定的に緩和し、そのようなスーパーチャネルの下で単調に減少する量子チャネルのエンタングルメントのクラスを定義する。
次に、2部超チャネルに対して$k$-extendibilityの形式を一般化し、2つの拡張可能な超チャネルの下で単調な関数を得る。
これにより、資源に富んだ量子チャネルを使用する場合、両部状態からエビットまたは秘密鍵ビットの確率的蒸留を分析することができる。
さらに,これらの量を評価するための半定値プログラムを提案し,資源蒸留のための量子チャネルの比較方法を提案する。
Quantum communication relies on the existence of high quality quantum channels to exchange information. In practice, however, all communication links are affected by noise from the environment. Here we investigate the ability of quantum channels to perform quantum communication tasks by restricting the participants to use only local operations and one-way classical communication (one-way LOCC) along with the available quantum channel. In particular, a channel can be used to distill a highly entangled state between two parties, which further enables quantum or private communication. In this work, we invoke the framework of superchannels to study the distillation of a resourceful quantum state, such as a maximally entangled state or a private state, using multiple instances of a point-to-point quantum channel. We use the idea of $k$-extendibility to obtain a semidefinite relaxation of the set of one-way LOCC superchannels and define a class of entanglement measures for quantum channels that decrease monotonically under such superchannels; therefore these measures, dubbed collectively the ``unextendible entanglement of a channel'', yield upper bounds on several communication-theoretic quantities of interest in the regimes of resource distillation and zero error. We then generalize the formalism of $k$-extendibility to bipartite superchannels, thus obtaining functions that are monotone under two-extendible superchannels. This allows us to analyze probabilistic distillation of ebits or secret key bits from a bipartite state when using a resourceful quantum channel. Moreover, we propose semidefinite programs to evaluate several of these quantities, providing a computationally feasible method of comparison between quantum channels for resource distillation. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# 残像速度は多体非局在化を誘導する
Residue imaginary velocity induces many-body delocalization ( http://arxiv.org/abs/2407.15954v1 ) ライセンス: Link先を確認 | Shi-Xin Hu, Yong-Xu Fu, Yi Zhang, | (参考訳) 局在化と非局在化は、量子物理学と凝縮物質物理学の中心となる歴史的トピックである。
我々は、周期境界条件下での非エルミート量子系の基底状態や低温状態に対して実現可能な、残像(一部)速度$\operatorname{Im}(v)$に起因する新しい非局在化機構を発見する。
興味深いことに、$\operatorname{Im}(v)$ に寄与する障害体は、アンダーソン局所化に対して $\operatorname{Im}(v)$ が優勢であるとき、強い非順序極限の非局在化を許す。
このような非局在化は、相関や絡み合いの挙動とともに、その多体の性質と有限温度と相互作用への一般化性を示す。
したがって、$\operatorname{Im}(v)$ の非自明な物理学は、非局在化の理解を著しく豊かにし、量子断熱過程において有用な応用を育む。
Localization and delocalization are historic topics central to quantum and condensed matter physics. We discover a new delocalization mechanism attributed to a residue imaginary (part of) velocity $\operatorname{Im}(v)$, feasible for ground states or low-temperature states of non-Hermitian quantum systems under periodic boundary conditions. Interestingly, a disorder field contributing to $\operatorname{Im}(v)$ may allow strong-disorder-limit delocalization when $\operatorname{Im}(v)$ prevails over the Anderson localization. We demonstrate such delocalization with correlation and entanglement behaviors, as well as its many-body nature and generalizability to finite temperatures and interactions. Thus, the nontrivial physics of $\operatorname{Im}(v)$ significantly enriches our understanding of delocalization and breeds useful applications, e.g., in quantum adiabatic processes. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# ガウス過程回帰のための量子忠実カーネルのベンチマーク
Benchmarking of quantum fidelity kernels for Gaussian process regression ( http://arxiv.org/abs/2407.15961v1 ) ライセンス: Link先を確認 | Xuyang Guo, Jun Dai, Roman V. Krems, | (参考訳) 量子コンピューティングアルゴリズムは、機械学習の分類問題に対して性能の高い量子カーネルを生成することが示されている。
本稿では,現実的関心事の回帰問題に対する量子カーネルの性能について検討する。
量子カーネルのバイアスのないベンチマークを行うには、古典的カーネルの最も最適な機能形式と、各データセットに対して最も最適な量子カーネルを構築する必要がある。
ガウス過程モデルに対して量子カーネルを推定するために用いられる量子ゲートの列を最適化するために,ベイズ情報規準のアナログを用いたアルゴリズムを開発した。
このアルゴリズムは、結果のカーネルの性能を改善しながら、量子回路の複雑さを漸進的に増加させ、固定された量子回路のアンサッツよりも少ない量子ゲートでモデル精度を得ることを示した。
得られた量子核は、多原子分子に対する大域ポテンシャルエネルギー表面(PES)の正確なモデルを構築するのに利用できることを示す。
2000 個のエネルギー点のランダム分布で得られる6次元 PES の平均補間誤差は、H$_3$O$^+$, 15 cm$^{-1}$ for H$_2$CO, 88 cm$^{-1}$ for HNO$_2$である。
ガウス過程回帰に対する古典的カーネルの構成最適化は同じ誤差に収束することを示す。
このことは、量子カーネルが回帰問題に対して古典的なカーネルと同じ表現性が得られることを示唆している。
Quantum computing algorithms have been shown to produce performant quantum kernels for machine-learning classification problems. Here, we examine the performance of quantum kernels for regression problems of practical interest. For an unbiased benchmarking of quantum kernels, it is necessary to construct the most optimal functional form of the classical kernels and the most optimal quantum kernels for each given data set. We develop an algorithm that uses an analog of the Bayesian information criterion to optimize the sequence of quantum gates used to estimate quantum kernels for Gaussian process models. The algorithm increases the complexity of the quantum circuits incrementally, while improving the performance of the resulting kernels, and is shown to yield much higher model accuracy with fewer quantum gates than a fixed quantum circuit ansatz. We demonstrate that quantum kernels thus obtained can be used to build accurate models of global potential energy surfaces (PES) for polyatomic molecules. The average interpolation error of the six-dimensional PES obtained with a random distribution of 2000 energy points is 16 cm$^{-1}$ for H$_3$O$^+$, 15 cm$^{-1}$ for H$_2$CO and 88 cm$^{-1}$ for HNO$_2$. We show that a compositional optimization of classical kernels for Gaussian process regression converges to the same errors. This indicates that quantum kernels can achieve the same, though not better, expressivity as classical kernels for regression problems. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# FDWST:ウェーブレット型転送を用いた指紋劣化
FDWST: Fingerphoto Deblurring using Wavelet Style Transfer ( http://arxiv.org/abs/2407.15964v1 ) ライセンス: Link先を確認 | David Keaton, Amol S. Joshi, Jeremy Dawson, Nasser M. Nasrabadi, | (参考訳) コンピュータビジョンの領域では、指紋画像の劣化や、特定のぼやけた画像から鋭い指紋を生成するという課題が大きな問題となっている。
この問題を解決するために,Wavelet Style Transfer (FDWST) を用いたフィンガーフォトデブロアリング(Fingerphoto Deblurring) と呼ばれるフィンガーフォトデブロアリングアーキテクチャを提案する。
さらに、離散ウェーブレット変換(DWT)を、画像を異なる周波数帯域に分割する機能に組み込む。
これら2つの手法を組み合わせることで、ワイドウェーブレット周波数帯域上でスタイル転送を行うことができ、シャープ画像からぼやけた画像へ転送されるシャープネス情報の品質と多様性を高めることができる。
この手法を用いて,本モデルでは,生成した指紋の画質を原画像と比較して劇的に向上させ,そのシャープな指紋とのマッチングを行う場合のピークマッチング精度0.9907を達成し,他の複数の最先端のデブロアリングやスタイル転送技術よりも優れていた。
The challenge of deblurring fingerphoto images, or generating a sharp fingerphoto from a given blurry one, is a significant problem in the realm of computer vision. To address this problem, we propose a fingerphoto deblurring architecture referred to as Fingerphoto Deblurring using Wavelet Style Transfer (FDWST), which aims to utilize the information transmission of Style Transfer techniques to deblur fingerphotos. Additionally, we incorporate the Discrete Wavelet Transform (DWT) for its ability to split images into different frequency bands. By combining these two techniques, we can perform Style Transfer over a wide array of wavelet frequency bands, thereby increasing the quality and variety of sharpness information transferred from sharp to blurry images. Using this technique, our model was able to drastically increase the quality of the generated fingerphotos compared to their originals, and achieve a peak matching accuracy of 0.9907 when tasked with matching a deblurred fingerphoto to its sharp counterpart, outperforming multiple other state-of-the-art deblurring and style transfer techniques. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# EthstractorによるEthereumスマートコントラクトにおけるソフトウェア品質指標と自己許容技術的負債のバージョニング分析
Versioned Analysis of Software Quality Indicators and Self-admitted Technical Debt in Ethereum Smart Contracts with Ethstractor ( http://arxiv.org/abs/2407.15967v1 ) ライセンス: Link先を確認 | Khalid Hassan, Saeed Moradi, Shaiful Chowdhury, Sara Rouhani, | (参考訳) 分散アプリケーション(dApps)の台頭により、スマートコントラクトはブロックチェーン技術の必須コンポーネントとなった。
多くのスマートコントラクトが金融取引を処理するため、そのセキュリティは最重要である。
さらに、ブロックチェーンの不変性によって、スマートコントラクトの脆弱性は特に難しくなります。
本稿では、バージョン管理されたスマートコントラクトのデータセットを収集する最初のスマートコントラクト収集ツールであるEthstractorを提案する。
収集されたデータセットは、スマートコントラクトの脆弱性の指標として、コードメトリクスの信頼性を評価するために使用される。
この結果から,コードメトリクスは脆弱性の存在を知らせるのに有効ではないことが示唆された。
さらに、スマートコントラクトの新バージョンの脆弱性が軽減されているかどうかを調べ、時間とともに脆弱性の数が一貫していることを確認する。
最後に、契約における自己保証の技術的負債の除去を調べ、導入した負債の大部分がその後取り除かれていないことを明らかにする。
The rise of decentralized applications (dApps) has made smart contracts imperative components of blockchain technology. As many smart contracts process financial transactions, their security is paramount. Moreover, the immutability of blockchains makes vulnerabilities in smart contracts particularly challenging because it requires deploying a new version of the contract at a different address, incurring substantial fees paid in Ether. This paper proposes Ethstractor, the first smart contract collection tool for gathering a dataset of versioned smart contracts. The collected dataset is then used to evaluate the reliability of code metrics as indicators of vulnerabilities in smart contracts. Our findings indicate that code metrics are ineffective in signalling the presence of vulnerabilities. Furthermore, we investigate whether vulnerabilities in newer versions of smart contracts are mitigated and identify that the number of vulnerabilities remains consistent over time. Finally, we examine the removal of self-admitted technical debt in contracts and uncover that most of the introduced debt has never been subsequently removed. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# 多言語微粒ニュースヘッドラインの幻覚検出
Multilingual Fine-Grained News Headline Hallucination Detection ( http://arxiv.org/abs/2407.15975v1 ) ライセンス: Link先を確認 | Jiaming Shen, Tianqi Liu, Jialu Liu, Zhen Qin, Jay Pavagadhi, Simon Baumgartner, Michael Bendersky, | (参考訳) 自動ニュース見出し生成の人気は、事前訓練された言語モデルの発展とともに高まっている。
しかしながら、これらのモデルは、生成した見出しがソース記事によって完全にサポートされない‘hallucination’問題に悩まされることが多い。
この問題に対処する努力は主に英語に焦点が当てられ、暗黙の幻覚のタイプを見渡す、過度に単純化された分類スキームを用いている。
本研究では,5言語で1万1千組以上を含む,多言語できめ細かなニュースヘッドライン幻覚検出データセットについて紹介する。
このデータセットを2つの設定で広範囲に実験する。
まず、教師付き微調整アプローチを準備ソリューションとして実装し、このデータセットの課題とユーティリティを実証する。
第2に,多種多様な大規模言語モデルの文脈内学習能力を検証し,言語に依存した実演選択と粗い擬似プロンプトという2つの新しい手法を提案する。
我々はこのデータセットを公開し、多言語・微粒なヘッドライン幻覚検出のさらなる研究を促進する。
The popularity of automated news headline generation has surged with advancements in pre-trained language models. However, these models often suffer from the ``hallucination'' problem, where the generated headline is not fully supported by its source article. Efforts to address this issue have predominantly focused on English, using over-simplistic classification schemes that overlook nuanced hallucination types. In this study, we introduce the first multilingual, fine-grained news headline hallucination detection dataset that contains over 11 thousand pairs in 5 languages, each annotated with detailed hallucination types by experts. We conduct extensive experiments on this dataset under two settings. First, we implement several supervised fine-tuning approaches as preparatory solutions and demonstrate this dataset's challenges and utilities. Second, we test various large language models' in-context learning abilities and propose two novel techniques, language-dependent demonstration selection and coarse-to-fine prompting, to boost the few-shot hallucination detection performance in terms of the example-F1 metric. We release this dataset to foster further research in multilingual, fine-grained headline hallucination detection. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# アジャイルマインド、イノベーティブソリューション、産学連携:リーンR&Dはソフトウェア工学教育における問題ベースの学習と出会う
Agile Minds, Innovative Solutions, and Industry-Academia Collaboration: Lean R&D Meets Problem-Based Learning in Software Engineering Education ( http://arxiv.org/abs/2407.15982v1 ) ライセンス: Link先を確認 | Lucas Romao, Marcos Kalinowski, Clarissa Barbosa, Allysson Allex Araújo, Simone D. J. Barbosa, Helio Lopes, | (参考訳) [文脈]ソフトウェア工学(SE)教育は、問題ベースラーニング(PBL)のようなアクティブな学習手法が普及し、学術的知識と産業的要求のギャップを埋めようとしている。
これらの努力にもかかわらず、最近の卒業生は、業界のニーズとスキルの整合に苦慮している。
産学連携(IAC)の関連性を認識したLean R&Dは、ビジネスとソフトウェア開発の相乗効果を強調する、アジャイルベースの研究開発アプローチの成功として登場した。
[目標]ブラジルの大手小売企業であるAmericanas S.A.のためにExACTa PUC- Rioが設計した教育プログラムにおいて、リーンR&DをPBL原則で拡張することを目的としている。
[方法]実問題やコーディネータ,メンター,産業プロジェクトにおける企業の利害関係者等に取り組みながら,40人の非常勤学生が講義や指導を受けていた。
事例研究を通じて,TAM(Technology Acceptance Model)に基づく構造化質問紙を用いた経験的評価を行った。
結果] ステークホルダーは問題解決のためにリーンR&D PBLに満足しました。
学生は知識能力の向上を報告し、実際の問題に取り組むことは学習に最も貢献していると認識した。
[結論]この研究は、リーンR&D PBLをIACの教育的アプローチとして共有することで、学界に寄与します。
産業において,本提案の実施について検討し,人材育成と革新的解決を促進するIACプログラムについて論じる。
[Context] Software Engineering (SE) education constantly seeks to bridge the gap between academic knowledge and industry demands, with active learning methods like Problem-Based Learning (PBL) gaining prominence. Despite these efforts, recent graduates struggle to align skills with industry needs. Recognizing the relevance of Industry-Academia Collaboration (IAC), Lean R&D has emerged as a successful agile-based research and development approach, emphasizing business and software development synergy. [Goal] This paper aims to extend Lean R&D with PBL principles, evaluating its application in an educational program designed by ExACTa PUC- Rio for Americanas S.A., a large Brazilian retail company. [Method] The educational program engaged 40 part-time students receiving lectures and mentoring while working on real problems, coordinators and mentors, and company stakeholders in industry projects. Empirical evaluation, through a case study approach, utilized structured questionnaires based on the Technology Acceptance Model (TAM). [Results] Stakeholders were satisfied with Lean R&D PBL for problem-solving. Students reported increased knowledge proficiency and perceived working on real problems as contributing the most to their learning. [Conclusion] This research contributes to academia by sharing Lean R&D PBL as an educational IAC approach. For industry, we discuss the implementation of this proposal in an IAC program that promotes workforce skill development and innovative solutions. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# バーチャルリアリティと拡張現実セキュリティ:リコネッサンスと脆弱性評価アプローチ
Virtual Reality and Augmented Reality Security: A Reconnaissance and Vulnerability Assessment Approach ( http://arxiv.org/abs/2407.15984v1 ) ライセンス: Link先を確認 | Sarina Dastgerdy, | (参考訳) 様々な業界が、生産性とユーザエクスペリエンスを向上させるために、VR(Virtual Reality)とAR(Augmented Reality)テクノロジーを広く採用している。
しかし、その統合には重大なセキュリティ上の課題が伴う。
この系統的な文献レビューは、ARおよびVR技術で使用されるデバイスを特定し、特に侵入テストにおける重要なステップである偵察フェーズと脆弱性評価において、関連する脆弱性を特定することに重点を置いている。
キッチェンハムとチャーターズのガイドラインに従って,初等研究を体系的に選定し,分析した。
偵察フェーズでは、ARとVRシステムに関する詳細な情報を集め、潜在的な攻撃ベクトルを特定する。
脆弱性評価フェーズでは、これらのベクターは悪意のあるアクターが悪用できる弱点を特定するために分析される。
私たちの調査によると、ARやVRデバイス、例えばヘッドセット(例えばHTC Vive、Oculus Quest)、開発プラットフォーム(例えばUnity Framework、Google Cardboard SDK)、アプリケーション(例えばBigscreen VR、VRChat)は、リモートコード実行、クロスサイトスクリプティング(XSS)、eavesdropping、man-in-the-room攻撃など、さまざまな攻撃を受けやすい。
具体的には、Bigscreen VRアプリケーションは'Application.OpenURL' API経由のリモートコード実行(RCE)、ユーザ入力のXSS、ボットネットの伝搬といった深刻な脆弱性を示した。
同様に、Oculus Questはサイドチャネル攻撃やランサムウェアへの感受性を示した。
本稿では、特定のデバイス脆弱性の詳細な概要を提供し、ARおよびVRシステムのセキュリティ脆弱性を特定するために、侵入テストにおける初期ステップの重要性を強調する。
これらの脆弱性を強調して、これらのセキュリティ課題の探索と緩和を支援し、さまざまな分野におけるARおよびVRテクノロジの安全な展開と使用を保証することを目的としています。
Various industries have widely adopted Virtual Reality (VR) and Augmented Reality (AR) technologies to enhance productivity and user experiences. However, their integration introduces significant security challenges. This systematic literature review focuses on identifying devices used in AR and VR technologies and specifies the associated vulnerabilities, particularly during the reconnaissance phase and vulnerability assessment, which are critical steps in penetration testing. Following Kitchenham and Charters' guidelines, we systematically selected and analyzed primary studies. The reconnaissance phase involves gathering detailed information about AR and VR systems to identify potential attack vectors. In the vulnerability assessment phase, these vectors are analyzed to pinpoint weaknesses that malicious actors could exploit. Our findings reveal that AR and VR devices, such as headsets (e.g., HTC Vive, Oculus Quest), development platforms (e.g., Unity Framework, Google Cardboard SDK), and applications (e.g., Bigscreen VR, VRChat), are susceptible to various attacks, including remote code execution, cross-site scripting (XSS), eavesdropping, and man-in-the-room attacks. Specifically, the Bigscreen VR application exhibited severe vulnerabilities like remote code execution (RCE) via the 'Application.OpenURL' API, XSS in user inputs, and botnet propagation. Similarly, the Oculus Quest demonstrated susceptibility to side-channel attacks and ransomware. This paper provides a detailed overview of specific device vulnerabilities and emphasizes the importance of the initial steps in penetration testing to identify security weaknesses in AR and VR systems. By highlighting these vulnerabilities, we aim to assist researchers in exploring and mitigating these security challenges, ensuring the safe deployment and use of AR and VR technologies across various sectors. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# ハンドボールのためのAI: ディープラーニングと大規模言語モデルによる2024年のオリンピック大会の予測と説明
AI for Handball: predicting and explaining the 2024 Olympic Games tournament with Deep Learning and Large Language Models ( http://arxiv.org/abs/2407.15987v1 ) ライセンス: Link先を確認 | Florian Felice, | (参考訳) 2024年夏、世界はパリを見て、好きな選手がオリンピックの金メダルを獲得することを奨励する。
ハンドボールでは、フランスやデンマークの男性やフランス、ノルウェーの女性の勝利を予言する憶測で、貴金属を勝ち取るために激しく戦う国は少ない。
しかし、この競技の最終結果を予測する科学的手法は今のところ提案されていない。
本研究では,2024年オリンピックハンドボールトーナメントの結果を予測するために,深層学習モデルを活用する。
このモデルは、説明可能なAI(xAI)技術と組み合わせて、各マッチの結果に影響を与える主要な要因に関する洞察力のある情報を抽出することができる。
特にxAIは、スポーツの専門家が、マッチ情報や個人アスリートのパフォーマンスなどの要因が予測にどのように貢献するかを理解するのに役立つ。
さらに、Large Language Models (LLMs) を統合して、マッチ結果に影響を及ぼす最も重要な要因を浮き彫りにする人間フレンドリーな説明を生成する。
人間の中心的な説明を提供することで、私たちのアプローチはAI予測をより深く理解し、コーチやアナリストにとってより実用的なものにします。
Over summer 2024, the world will be looking at Paris to encourage their favorite athletes win the Olympic gold medal. In handball, few nations will fight hard to win the precious metal with speculations predicting the victory for France or Denmark for men and France or Norway for women. However, there is so far no scientific method proposed to predict the final results of the competition. In this work, we leverage a deep learning model to predict the results of the handball tournament of the 2024 Olympic Games. This model, coupled with explainable AI (xAI) techniques, allows us to extract insightful information about the main factors influencing the outcome of each match. Notably, xAI helps sports experts understand how factors like match information or individual athlete performance contribute to the predictions. Furthermore, we integrate Large Language Models (LLMs) to generate human-friendly explanations that highlight the most important factors impacting the match results. By providing human-centric explanations, our approach offers a deeper understanding of the AI predictions, making them more actionable for coaches and analysts. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# Breadth-first graph traversal union-find decoder
Breadth-first graph traversal union-find decoder ( http://arxiv.org/abs/2407.15988v1 ) ライセンス: Link先を確認 | Matthias C. Löbl, Susan X. Chen, Stefano Paesani, Anders S. Sørensen, | (参考訳) 高速復号アルゴリズムは、実時間量子誤り訂正と誤り訂正符号の特性解析に決定的である。
本稿では,その実装を簡略化し,復号化速度の利点を期待できるUnion-findデコーダの変種を開発する。
さらに、これらの手法が非位相量子低密度パリティチェック(qLDPC)符号のデコードにどのように適用できるかを示す。
開発されているデコーダはすべて、デコードステップでキュービット消去とパウリエラーの両方を直接含み、フォトニック量子コンピューティングにおける支配的なノイズ機構に対処することができる。
異なるデコーダのバリエーションの長所と短所を調査し、その速度としきい値エラー率を複数のコードでベンチマークし、使用済みのソースコードを提供する。
Fast decoding algorithms are decisive for real-time quantum error correction and for analyzing properties of error correction codes. Here, we develop variants of the union-find decoder that simplify its implementation and provide potential decoding speed advantages. Furthermore, we show how these methods can be adapted to decode non-topological quantum low-density-parity-check (qLDPC) codes. All the developed decoders can directly include both qubit erasures and Pauli errors in the decoding step, thus addressing the dominant noise mechanisms for photonic quantum computing. We investigate the strengths and weaknesses of the different decoder variants, benchmark their speed and threshold error rates on several codes, and provide the used source code. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# SU(3$)フェルミオンとスカラーボソンの混合状態
Ground state of a mixture of SU($3$) fermions and scalar bosons ( http://arxiv.org/abs/2407.15991v1 ) ライセンス: Link先を確認 | J. Silva-Valencia, J. J. Mendoza-Arenas, | (参考訳) 一次元のスカラーボソンとSU($3$)フェルミオンからなる系を探索する。
局所的な種内相互作用と種間相互作用のみを考慮すると、この系は密度行列再正規化群法を用いて研究されるボース・フェルミ・ハバード・ハミルトンによって記述される。
一般のムット絶縁体相と混合モット絶縁体相に加えて, ボソンがフェルミオンの香味を混合する未知の隙間状態も同定した。
ボソンが1つまたは2つのフレーバーフェルミオンのみと結合する絶縁体状態と共存する反復性フェルミオンを特徴とする異なるフレーバー選択状態を明らかにした。
ここで報告された状態は、コールド原子実験で実装される可能性がある。
We explore a system composed of scalar bosons and SU($3$) fermions in one dimension. Considering only local intra- and interspecies interactions, the system is described by the Bose-Fermi-Hubbard Hamiltonian, which is studied using the density matrix renormalization group method. In addition to the common gapless and mixed Mott insulator phases, we identify unknown gapped states, in which bosons couple with some or all flavors of fermions. We unveil different flavor-selective states characterized by itinerant fermions that coexist with an insulator state where the bosons tie with only one- or two-flavor fermions. The states reported here could be implemented in cold-atoms experiments. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# ベイズ的学習モデルを用いたマルチモーダル入力
Multimodal Input Aids a Bayesian Model of Phonetic Learning ( http://arxiv.org/abs/2407.15992v1 ) ライセンス: Link先を確認 | Sophia Zhi, Roger P. Levy, Stephan C. Meylan, | (参考訳) 一般的に発達している児童言語学習者の直面する課題の1つは、母国語の単語を構成する独特の音を区別することである。
本稿では,音声学習の計算モデルとしてマルチモーダル情報,特に成人音声と話者の顔の映像フレームが組み合わされているかを検討する。
本稿では,既存の音声コーパスのための高品質な音声合成ビデオを作成する方法を提案する。
学習モデルでは,音声のみの入力でトレーニングおよびテストを行った場合,音素識別バッテリに対して最大8.1%の相対的な改善が達成される。
また、オーディオのみのデータでテストされた場合、最大3.9%の音響モデルよりも優れており、視覚情報が音響的区別の獲得を促進することを示唆している。
視覚情報はノイズの多い環境において特に有益であり、ノイズのない環境と比較して音響モデルの識別性能の損失の67%をオーディオ視覚モデルが閉じている。
これらの結果は、視覚情報が理想的な学習者に利益をもたらすことを示し、子どもが音声を識別する学習において視覚的手がかりを活用できる方法をいくつか示している。
One of the many tasks facing the typically-developing child language learner is learning to discriminate between the distinctive sounds that make up words in their native language. Here we investigate whether multimodal information--specifically adult speech coupled with video frames of speakers' faces--benefits a computational model of phonetic learning. We introduce a method for creating high-quality synthetic videos of speakers' faces for an existing audio corpus. Our learning model, when both trained and tested on audiovisual inputs, achieves up to a 8.1% relative improvement on a phoneme discrimination battery compared to a model trained and tested on audio-only input. It also outperforms the audio model by up to 3.9% when both are tested on audio-only data, suggesting that visual information facilitates the acquisition of acoustic distinctions. Visual information is especially beneficial in noisy audio environments, where an audiovisual model closes 67% of the loss in discrimination performance of the audio model in noise relative to a non-noisy environment. These results demonstrate that visual information benefits an ideal learner and illustrate some of the ways that children might be able to leverage visual cues when learning to discriminate speech sounds. | 翻訳日:2024-07-24 21:25:09 公開日:2024-07-22 |
# AIの公的な認識: 感覚と機会
Public Perception of AI: Sentiment and Opportunity ( http://arxiv.org/abs/2407.15998v1 ) ライセンス: Link先を確認 | Jayshree Seth, | (参考訳) 人工知能(AI)が社会の様々な側面に影響を及ぼすにつれ、その潜在的な利益とリスクに対する大衆の関心が高まっている。
本稿では,世界4大陸10カ国にまたがる1万人の回答者を対象に,AIに関する世論調査の結果を報告する。
その結果、現在AIが世界を変えると信じている回答者の同じ割合が、私たちが知っているように、AIを厳しく規制する必要があると信じていることがわかった。
しかし、私たちの調査結果は、AIが労働者を置き換えるという世界の一般大衆の感情にもかかわらず、もし会社がAIを使って生活を改善するなら、人々は会社を高く評価し、その会社から購入し、その会社での仕事に興味を持つ可能性が高いことを示唆している。
我々の結果は、世界の一般大衆がAIを問題解決のツールとみなしていることも明らかにしている。
これらのニュアンスのある結果は、一般大衆が科学や技術ベースのイノベーションに対処したいという課題に向け、AIの重要性を浮き彫りにしている。
我々は、科学に対する大衆の認識を多年にわたって研究し、公共が解決すべき重要な問題と捉えているものについて、さらなる文脈を提供する。
As Artificial Intelligence (AI) increasingly influences various aspects of society, there is growing public interest in its potential benefits and risks. In this paper we present results of public perception of AI from a survey conducted with 10,000 respondents spanning ten countries in four continents around the world. The results show that currently an equal percentage of respondents who believe AI will change the world as we know it, also believe AI needs to be heavily regulated. However, our findings also indicate that despite the general sentiment among the global public that AI will replace workers, if a company were to use AI to innovate to improve lives, the public would be more likely to think highly of the company, purchase from them and even be interested in a job in that company. Our results further reveal that the global public largely views AI as a tool for problem solving. These nuanced results underscore the importance of AI directed towards challenges that the public would like science and technology-based innovations to address. We draw on a multi-year 3M study of public perception of science to provide further context on what the public perceives as important problems to be solved. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# EfficientCD:バイテンポラル層交換による変化検出のための新しい戦略
EfficientCD: A New Strategy For Change Detection Based With Bi-temporal Layers Exchanged ( http://arxiv.org/abs/2407.15999v1 ) ライセンス: Link先を確認 | Sijun Dong, Yuwei Zhu, Geng Chen, Xiaoliang Meng, | (参考訳) 環境モニタリングにおけるリモートセンシング技術の普及に伴い、自然環境に対する効率的かつ正確なリモートセンシング画像変化検出(CD)の需要が高まっている。
本稿では,リモートセンシング画像変化検出に特化して設計されたEfficientCDという新しいディープラーニングフレームワークを提案する。
このフレームワークは機能抽出のバックボーンネットワークとしてEfficientNetを使用している。
両時間画像特徴マップ間の情報交換を強化するため,リモートセンシングによる変化検出を目的とした新しい特徴ピラミッドネットワークモジュールであるChangeFPNを設計した。
さらに,復号段階におけるマルチレベル特徴写像をフル活用するために,復号段階における特徴融合と再構成を改善するために,ユークリッド距離と組み合わせた層間特徴写像モジュールを開発した。
効率的なCDは、LEVIR-CD、SYSU-CD、CLCD、WHUCDの4つのリモートセンシングデータセットで実験的に検証されている。
実験の結果,効率の良いCDは変化検出精度に優れた性能を示すことがわかった。
コードと事前訓練されたモデルはhttps://github.com/dyzy41/mmrscd.comでリリースされる。
With the widespread application of remote sensing technology in environmental monitoring, the demand for efficient and accurate remote sensing image change detection (CD) for natural environments is growing. We propose a novel deep learning framework named EfficientCD, specifically designed for remote sensing image change detection. The framework employs EfficientNet as its backbone network for feature extraction. To enhance the information exchange between bi-temporal image feature maps, we have designed a new Feature Pyramid Network module targeted at remote sensing change detection, named ChangeFPN. Additionally, to make full use of the multi-level feature maps in the decoding stage, we have developed a layer-by-layer feature upsampling module combined with Euclidean distance to improve feature fusion and reconstruction during the decoding stage. The EfficientCD has been experimentally validated on four remote sensing datasets: LEVIR-CD, SYSU-CD, CLCD, and WHUCD. The experimental results demonstrate that EfficientCD exhibits outstanding performance in change detection accuracy. The code and pretrained models will be released at https://github.com/dyzy41/mmrscd. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# ImPress: 不正なRow-Press緩和によるデータ障害エラーに対するDRAMのセキュア化
ImPress: Securing DRAM Against Data-Disturbance Errors via Implicit Row-Press Mitigation ( http://arxiv.org/abs/2407.16006v1 ) ライセンス: Link先を確認 | Moinuddin Qureshi, Anish Saxena, Aamer Jaleel, | (参考訳) DRAMセルはDDE(Data-Disturbance Errors)の影響を受けやすい。
Rowhammerは、行が繰り返しアクティベートされたときに発生するよく知られたDDE脆弱性である。
Rowhammer は DRAM (-DRAM) 内または Memory Controller (MC) で攻撃列を追跡することで緩和することができる。
Row-Press(RP)は、行を長時間開いているときに発生する新しいDDE脆弱性である。
RPはエラーを引き起こすのに必要なアクティベーション数を著しく減らし、既存のRHソリューションを壊す。
Explicit Row-Pressの緩和に関する以前の作業であるExPressでは、最大行のオープンタイムを制限するメモリコントローラを必要とし、Rowhammer閾値を下げた既存のRowhammerソリューションを再設計する必要がある。
残念ながら、ExPressは大幅なパフォーマンスとストレージのオーバーヘッドを発生させ、メモリコントローラベースのソリューションであるため、DRAMトラッカーと互換性がない。
本稿では,行オープンタイムを制限せず,メモリコントローラやインDRAMソリューションと互換性があり,許容Rowhammer閾値を下げることができないImPress(ImPress)を提案する。
ImPressは、特定の時間開いている行をアクティベーションに相当するものとして扱う。
我々は、任意のパターンに対してRowhammerとRow-Pressのネット効果を組み合わせた統一電荷損失モデルを構築し、ImPressを設計する。
コントローラベース (Graphene と PARA) とインDRAMトラッカー (Mithril と MINT) の両方を解析する。
我々は、ImPressがRowhammerのしきい値に影響を与えることなく、透過的にRow-Pressに耐性を持たせることを示す。
DRAM cells are susceptible to Data-Disturbance Errors (DDE), which can be exploited by an attacker to compromise system security. Rowhammer is a well-known DDE vulnerability that occurs when a row is repeatedly activated. Rowhammer can be mitigated by tracking aggressor rows inside DRAM (in-DRAM) or at the Memory Controller (MC). Row-Press (RP) is a new DDE vulnerability that occurs when a row is kept open for a long time. RP significantly reduces the number of activations required to induce an error, thus breaking existing RH solutions. Prior work on Explicit Row-Press mitigation, ExPress, requires the memory controller to limit the maximum row-open-time, and redesign existing Rowhammer solutions with reduced Rowhammer threshold. Unfortunately, ExPress incurs significant performance and storage overheads, and being a memory controller-based solution, it is incompatible with in-DRAM trackers. In this paper, we propose Implicit Row-Press mitigation (ImPress), which does not restrict row-open-time, is compatible with memory controller-based and in-DRAM solutions and does not reduce the tolerated Rowhammer threshold. ImPress treats a row open for a specified time as equivalent to an activation. We design ImPress by developing a Unified Charge-Loss Model, which combines the net effect of both Rowhammer and Row-Press for arbitrary patterns. We analyze both controller-based (Graphene and PARA) and in-DRAM trackers (Mithril and MINT). We show that ImPress makes Rowhammer solutions resilient to Row-Press transparently, without affecting the Rowhammer threshold. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# SocialQuotes: Web上でのソーシャルメディア記事の文脈的役割の学習
SocialQuotes: Learning Contextual Roles of Social Media Quotes on the Web ( http://arxiv.org/abs/2407.16007v1 ) ライセンス: Link先を確認 | John Palowitch, Hamidreza Alvari, Mehran Kazemi, Tanvir Amin, Filip Radlinski, | (参考訳) Webの作者は、しばしばソーシャルメディアを埋め込んでコンテンツをサポートし、豊かにするため、より効果的なソーシャルメディア検索システムとより豊かな科学的分析を可能にする、Webベースのクロスプラットフォームなソーシャルメディア表現を導出する可能性を生み出している。
そこで本稿では,ソーシャルメディアが組み込みWebコンテキストで果たす役割の自動アノテーションを可能にする,新たな言語モデリングフレームワークを提案する。
関連するコミュニケーション理論を用いて、ソーシャルメディアの埋め込みを引用に用い、ページコンテキストを構造化された自然言語信号として形式化し、ページコンテキスト内の引用に対する役割の分類を同定する。
われわれはSocialQuotesをリリースした。SocialQuotesは3200万以上のソーシャル引用と8.3kのクラウドソースによる引用アノテーションからなるCommon Crawlから構築された新しいデータセットだ。
SocialQuotesとそれに伴うアノテーションを用いて、ロール分類ケーススタディを提供し、現代のLLMで合理的なパフォーマンスを示し、ページコンテンツアブリゲーションを通じてフレームワークの説明可能な側面を明らかにする。
また、アノテーションのない大量の引用を分類し、Web上の興味深いクロスドメイン、クロスプラットフォームロールの分布を明らかにします。
Web authors frequently embed social media to support and enrich their content, creating the potential to derive web-based, cross-platform social media representations that can enable more effective social media retrieval systems and richer scientific analyses. As step toward such capabilities, we introduce a novel language modeling framework that enables automatic annotation of roles that social media entities play in their embedded web context. Using related communication theory, we liken social media embeddings to quotes, formalize the page context as structured natural language signals, and identify a taxonomy of roles for quotes within the page context. We release SocialQuotes, a new data set built from the Common Crawl of over 32 million social quotes, 8.3k of them with crowdsourced quote annotations. Using SocialQuotes and the accompanying annotations, we provide a role classification case study, showing reasonable performance with modern-day LLMs, and exposing explainable aspects of our framework via page content ablations. We also classify a large batch of un-annotated quotes, revealing interesting cross-domain, cross-platform role distributions on the web. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# 主観的マルチアスペクト合成データ生成を用いたブースティング・リワードモデル
Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation ( http://arxiv.org/abs/2407.16008v1 ) ライセンス: Link先を確認 | Jiaming Shen, Ran Xu, Yennie Jun, Zhen Qin, Tianqi Liu, Carl Yang, Yi Liang, Simon Baumgartner, Michael Bendersky, | (参考訳) リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合に不可欠である。
それぞれのサンプルは1つのインプットプロンプト、2つのレスポンス、選好ラベルで構成されている。
高品質なラベル付き嗜好データセットのキュレーションには時間と費用がかかるため、人々はしばしば、選好ラベルの生成に既存の強力なLCMに頼る。
これはノイズを発生させ、RMトレーニングを阻害する可能性がある。
本稿では、報酬モデルの品質を高めるための新しい合成選好データ生成パラダイムRMBoostを提案する。
嗜好ラベルを得る前に2つの応答を生成する従来の方法とは異なり、RMBoostはまず1つの応答を生成して選好ラベルを選択する。
このアプローチには2つの大きな利点があります。
まず、RMBoostは優先ペアが意図的に構築されているため、ラベリングノイズを低減する。
第2に、RMBoostは様々な品質の側面(例えば、助け、妥当性、完全性)をプロンプトに組み込むことで、より多様なレスポンスの作成を容易にする。
我々は3つの多様なデータセットにわたる広範な実験を行い、RMBoostが他の合成選好データ生成技術より優れており、4つの異なる報奨モデルの性能を大幅に向上させることを示した。
Reward models (RMs) are crucial for aligning large language models (LLMs) with human preferences. They are trained using preference datasets where each example consists of one input prompt, two responses, and a preference label. As curating a high-quality human labeled preference dataset is both time-consuming and expensive, people often rely on existing powerful LLMs for preference label generation. This can potentially introduce noise and impede RM training. In this work, we present RMBoost, a novel synthetic preference data generation paradigm to boost reward model quality. Unlike traditional methods, which generate two responses before obtaining the preference label, RMBoost first generates one response and selects a preference label, followed by generating the second more (or less) preferred response conditioned on the pre-selected preference label and the first response. This approach offers two main advantages. First, RMBoost reduces labeling noise since preference pairs are constructed intentionally. Second, RMBoost facilitates the creation of more diverse responses by incorporating various quality aspects (e.g., helpfulness, relevance, completeness) into the prompts. We conduct extensive experiments across three diverse datasets and demonstrate that RMBoost outperforms other synthetic preference data generation techniques and significantly boosts the performance of four distinct reward models. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# AIDE: アンチテーゼ, インテントベース, 異種事例ベース説明
AIDE: Antithetical, Intent-based, and Diverse Example-Based Explanations ( http://arxiv.org/abs/2407.16010v1 ) ライセンス: Link先を確認 | Ikhtiyor Nematov, Dimitris Sacharidis, Tomer Sagi, Katja Hose, | (参考訳) 多くのユースケースにおいて、最も影響力のあるトレーニングデータサンプルを特定することにより、ブラックボックスモデルの予測を説明することが重要であることが多い。
既存のアプローチでは、ユーザ意図のカスタマイズが欠如しており、しばしば同質な説明サンプルを提供しており、異なる角度からモデルの推論を明らかにすることができなかった。
本稿では,不透明で複雑なモデルに対して,アンチテティカルな(対照的な)意図に基づく多種多様な説明を提供するアプローチであるAIDEを提案する。
AIDEは、正しい解釈、間違った調査、曖昧な予測の3つのタイプを区別する。
それぞれの意図に対して、AIDEは、直接または対照的に予測を支持したり、反対したりする、影響力のあるトレーニングサンプルの適切なセットを選択する。
AIDEは、多様性を意識したサンプリングを使用して、冗長性を避け、トレーニングデータのカバレッジを向上させる簡潔な要約を提供する。
画像とテキストの分類作業におけるAIDEの有効性を, 定量的に, 正確性と連続性を評価し, 定性的に, AIDEや他のサンプルベースアプローチからの逸話的証拠を比較し, ユーザスタディにより, AIDEの複数の側面を定量的に評価する。
その結果、AIDEは既存の手法の限界に対処し、説明可能性法に望ましい特性を示すことがわかった。
For many use-cases, it is often important to explain the prediction of a black-box model by identifying the most influential training data samples. Existing approaches lack customization for user intent and often provide a homogeneous set of explanation samples, failing to reveal the model's reasoning from different angles. In this paper, we propose AIDE, an approach for providing antithetical (i.e., contrastive), intent-based, diverse explanations for opaque and complex models. AIDE distinguishes three types of explainability intents: interpreting a correct, investigating a wrong, and clarifying an ambiguous prediction. For each intent, AIDE selects an appropriate set of influential training samples that support or oppose the prediction either directly or by contrast. To provide a succinct summary, AIDE uses diversity-aware sampling to avoid redundancy and increase coverage of the training data. We demonstrate the effectiveness of AIDE on image and text classification tasks, in three ways: quantitatively, assessing correctness and continuity; qualitatively, comparing anecdotal evidence from AIDE and other example-based approaches; and via a user study, evaluating multiple aspects of AIDE. The results show that AIDE addresses the limitations of existing methods and exhibits desirable traits for an explainability method. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# 量子ギースワークにおけるデータ処理の不平等
Data Processing Inequality for The Quantum Guesswork ( http://arxiv.org/abs/2407.16012v1 ) ライセンス: Link先を確認 | Ilyass Mejdoub, Julien Béguinot, Olivier Rioul, | (参考訳) 非直交量子状態は、絶対的確実性で区別できないため、量子情報処理において根本的な課題となる。
従来、量子状態判別タスクにおけるエラー確率の最小化に焦点が当てられていた。
しかし、量子推測(quantum guesswork)として知られる別の基準は、状態列を問うことができれば、非直交量子状態の区別可能性を評価する上で重要な尺度として現れる。
本稿では,推測問題に関係のある古典的設定において,よく知られた特性を一般化する。
具体的には、データ処理の不平等の前と後を定めます。
また、量子予想に基づくより洗練された下界も導き出す。
Non-orthogonal quantum states pose a fundamental challenge in quantum information processing, as they cannot be distinguished with absolute certainty. Conventionally, the focus has been on minimizing error probability in quantum state discrimination tasks. However, another criterion known as quantum guesswork has emerged as a crucial measure in assessing the distinguishability of non-orthogonal quantum states, when we are allowed to query a sequence of states. In this paper, we generalize well known properties in the classical setting that are relevant for the guessing problem. Specifically, we establish the pre and post Data Processing Inequalities. We also derive a more refined lower bound on quantum guesswork. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# Wallcamera: 車輪の再発明?
Wallcamera: Reinventing the Wheel? ( http://arxiv.org/abs/2407.16015v1 ) ライセンス: Link先を確認 | Aurélien Bourquard, Jeff Yan, | (参考訳) MITのCSAILが開発したWallcameraは、大衆の想像力をつかんだ。
ここでは、Wallcameraの背景にある重要な洞察が、Wallcameraがデビューする数年前に検証され報告された差動画像法医学(DIF)の概念とプロトタイプの基盤となるものと同じであることを示す。
ビデオの中の壁の反射から目に見えない信号を抽出し増幅する、または、そのアプローチに続くアクティビティ認識を提案する、いわゆる法医学的文脈における潜在証拠である、最初のものではなく、Wallcameraの実際の革新は、DIFが示したより細かい粒度でアクティビティ認識を達成することである。
活動認識に加え、DIFは法医学など多くの応用がある。
1)1枚の写真から、身長、身長、衣服の色など、写真家の個人識別情報の回復
2)画像改ざん・ディープフェイク映像の検出
Developed at MIT CSAIL, the Wallcamera has captivated the public's imagination. Here, we show that the key insight underlying the Wallcamera is the same one that underpins the concept and the prototype of differential imaging forensics (DIF), both of which were validated and reported several years prior to the Wallcamera's debut. Rather than being the first to extract and amplify invisible signals -- aka latent evidence in the forensics context -- from wall reflections in a video, or the first to propose activity recognition following that approach, the Wallcamera's actual innovation is achieving activity recognition at a finer granularity than DIF demonstrated. In addition to activity recognition, DIF as conceived has a number of other applications in forensics, including 1) the recovery of a photographer's personal identifiable information such as body width, height, and even the color of their clothing, from a single photo, and 2) the detection of image tampering and deepfake videos. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# 機械学習における量子アドバンテージと高速リトレーニングの火花
Sparks of Quantum Advantage and Rapid Retraining in Machine Learning ( http://arxiv.org/abs/2407.16020v1 ) ライセンス: Link先を確認 | William Troy, | (参考訳) 量子コンピューティングの出現は、古典的コンピュータよりも複雑な問題を効率的に解くことによって、様々な分野に革命をもたらす可能性を秘めている。
この約束にもかかわらず、実用的な量子優位性は、現在のハードウェアの制限、特に少数の量子ビットと高いノイズレベルによって妨げられている。
本研究では,低パラメータで複雑な関数を表現するためのニューラルネットワークアーキテクチャであるKolmogorov-Arnold Networksを最適化するために,断熱量子コンピュータを活用する。
ネットワークをベージエ曲線を基底関数として用いるように修正し、最適化問題を擬似非制約二項最適化問題に定式化することにより、トレーニングサンプル数に依存しない固定サイズの解空間を創出する。
提案手法は,Adam,Stochastic Gradient Descent,Adaptive Gradient,シミュレートされたアニーリングなどの古典的オプティマイザと比較して,より高速なトレーニング時間による量子優位性を示す。
さらに,新しい高速リトレーニング機能を導入し,古いサンプルを再処理することなくネットワークを新しいデータで再トレーニングし,動的環境における学習効率を向上させる。
分類タスクと回帰タスクの初期訓練による実験結果から,本手法の有効性を検証し,従来の手法に匹敵する有意な高速化と性能を示した。
リトレーニングの実験では、勾配降下に基づく最適化よりも断熱的量子コンピューティングによる最適化で60倍のスピードアップが示され、理論モデルによりこのスピードアップが可能になったのです!
量子ハードウェアとアルゴリズム最適化のさらなる進歩により、量子最適化機械学習モデルは様々な領域にまたがって幅広い応用が可能となり、当初は高速リトレーニングに重点を置いていた。
The advent of quantum computing holds the potential to revolutionize various fields by solving complex problems more efficiently than classical computers. Despite this promise, practical quantum advantage is hindered by current hardware limitations, notably the small number of qubits and high noise levels. In this study, we leverage adiabatic quantum computers to optimize Kolmogorov-Arnold Networks, a powerful neural network architecture for representing complex functions with minimal parameters. By modifying the network to use Bezier curves as the basis functions and formulating the optimization problem into a Quadratic Unconstrained Binary Optimization problem, we create a fixed-sized solution space, independent of the number of training samples. Our approach demonstrates sparks of quantum advantage through faster training times compared to classical optimizers such as the Adam, Stochastic Gradient Descent, Adaptive Gradient, and simulated annealing. Additionally, we introduce a novel rapid retraining capability, enabling the network to be retrained with new data without reprocessing old samples, thus enhancing learning efficiency in dynamic environments. Experimental results on initial training of classification and regression tasks validate the efficacy of our approach, showcasing significant speedups and comparable performance to classical methods. While experiments on retraining demonstrate a sixty times speed up using adiabatic quantum computing based optimization compared to that of the gradient descent based optimizers, with theoretical models allowing this speed up to be even larger! Our findings suggest that with further advancements in quantum hardware and algorithm optimization, quantum-optimized machine learning models could have broad applications across various domains, with initial focus on rapid retraining. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# 畳み込みニューラルネットワークによる舗装疲労き裂検出と重症度分類
Pavement Fatigue Crack Detection and Severity Classification Based on Convolutional Neural Network ( http://arxiv.org/abs/2407.16021v1 ) ライセンス: Link先を確認 | Zhen Wang, Dylan G. Ildefonzo, Linbing Wang, | (参考訳) 舗装き裂の強度, トポロジカル構造の複雑さ, テクスチャ背景の騒音などにより, アスファルト舗装き裂の画像分類は困難であることが判明した。
疲労き裂、またはアリゲーターき裂( alligator cracking)はアスファルト舗装の一般的な苦難の1つである。
したがって,道路舗装におけるアリゲータのひび割れを検知し,監視することが重要である。
この領域のほとんどの研究は、典型的には、限られたデータセットを使用してクラッキングをピクセルレベルで検出することに焦点を当てている。
2つの目的を達成できる新しい深層畳み込みニューラルネットワークを提案する。
提案するニューラルネットワークの第一の目的は,舗装面の画像に基づいて疲労き裂の存在を分類することである。
第2の目的は、DIM(Distress Identification Manual)標準に基づいて疲労き裂の重症度を分類することである。
本稿では,米国バージニア州ブラックスバーグ町で高解像度舗装面画像4484枚をローカルに撮影するデータバンクを構築した。
データ準備では、4000以上の画像がDIM標準に従って手動で4つのカテゴリにラベル付けされる。
次に、4層畳み込みニューラルネットワークモデルを構築し、舗装き裂重大度カテゴリによる画像の分類の目標を達成する。
訓練されたモデルは、既存のすべての方法の中で最高の精度に達した。
わずか30回の訓練の後、このモデルはひび割れの有無の分類精度96.23%、重度レベルの分類精度96.74%を達成した。
20回の訓練の後、このモデルは97.64%の精度で舗装マークを付けた。
Due to the varying intensity of pavement cracks, the complexity of topological structure, and the noise of texture background, image classification for asphalt pavement cracking has proven to be a challenging problem. Fatigue cracking, also known as alligator cracking, is one of the common distresses of asphalt pavement. It is thus important to detect and monitor the condition of alligator cracking on roadway pavements. Most research in this area has typically focused on pixel-level detection of cracking using limited datasets. A novel deep convolutional neural network that can achieve two objectives is proposed. The first objective of the proposed neural network is to classify presence of fatigue cracking based on pavement surface images. The second objective is to classify the fatigue cracking severity level based on the Distress Identification Manual (DIM) standard. In this paper, a databank of 4484 high-resolution pavement surface images is established in which images are taken locally in the Town of Blacksburg, Virginia, USA. In the data pre-preparation, over 4000 images are labeled into 4 categories manually according to DIM standards. A four-layer convolutional neural network model is then built to achieve the goal of classification of images by pavement crack severity category. The trained model reached the highest accuracy among all existing methods. After only 30 epochs of training, the model achieved a crack existence classification accuracy of 96.23% and a severity level classification accuracy of 96.74%. After 20 epochs of training, the model achieved a pavement marking presence classification accuracy of 97.64%. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# オフライン選好学習における逆流融合の探索と対応
Exploring and Addressing Reward Confusion in Offline Preference Learning ( http://arxiv.org/abs/2407.16025v1 ) ライセンス: Link先を確認 | Xin Chen, Sam Toyer, Florian Shkurti, | (参考訳) 報酬モデルのトレーニングデータには、人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)が望ましい目標を特定し、望ましくない行動を引き起こすのを防いでいる。
本稿では、特にオフラインデータに急激な相関が存在する場合、オフラインRLHFは、混乱に報いる可能性があることを示す。
そこで我々は,この問題を調査するためのベンチマークを作成し,積極的学習を伴うグローバルな選好連鎖を構築しながら,選好の推移性を活用することによって,報酬の混乱を著しく低減する手法を提案する。
Spurious correlations in a reward model's training data can prevent Reinforcement Learning from Human Feedback (RLHF) from identifying the desired goal and induce unwanted behaviors. This paper shows that offline RLHF is susceptible to reward confusion, especially in the presence of spurious correlations in offline data. We create a benchmark to study this problem and propose a method that can significantly reduce reward confusion by leveraging transitivity of preferences while building a global preference chain with active learning. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# KWT-Tiny:RISC-Vアクセラレーション、埋め込みキースポッティング変換器
KWT-Tiny: RISC-V Accelerated, Embedded Keyword Spotting Transformer ( http://arxiv.org/abs/2407.16026v1 ) ライセンス: Link先を確認 | Aness Al-Qawlaq, Ajay Kumar M, Deepu John, | (参考訳) 本稿では, RISC-V プラットフォーム上での ARM Keyword Transformer (KWT) モデルの量子化とハードウェアアクセラレーションにより, エッジデバイスに対する Transformer モデルの適用について検討する。
このモデルは、カスタム開発のエッジAIライブラリを使用して、64kB RAMをベアメタルCで動作させることを目標としていた。
KWT-1 は 369 倍小さく、出力クラスを 35 から 2。
再訓練と量子化によりモデルサイズは2.42MBから1.65kBに縮小された。
GELUとSoftMax操作を高速化するカスタムRISC-V命令の統合により、5倍のスピードアップが可能となり、推論クロックのサイクルは2600万から550万に減少し、小さな領域のオーバーヘッドは約29%となった。
その結果,Transformerベースのモデルを低消費電力IoTデバイスに移植し,高速化するための有効な方法が示された。
This paper explores the adaptation of Transformerbased models for edge devices through the quantisation and hardware acceleration of the ARM Keyword Transformer (KWT) model on a RISC-V platform. The model was targeted to run on 64kB RAM in bare-metal C using a custom-developed edge AI library. KWT-1 was retrained to be 369 times smaller, with only a 10% loss in accuracy through reducing output classes from 35 to 2. The retraining and quantisation reduced model size from 2.42 MB to 1.65 kB. The integration of custom RISC-V instructions that accelerated GELU and SoftMax operations enabled a 5x speedup and thus ~5x power reduction in inference, with inference clock cycle counts decreasing from 26 million to 5.5 million clock cycles while incurring a small area overhead of approximately 29%. The results demonstrate a viable method for porting and accelerating Transformer-based models in low-power IoT devices. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# 絡み合いの容量と体積法則
Capacity of entanglement and volume law ( http://arxiv.org/abs/2407.16028v1 ) ライセンス: Link先を確認 | M. Reza Mohammadi Mozaffar, | (参考訳) 絡み合いのエントロピーが広くなり、容積法則に従うような設定において、絡み合いのキャパシティの様々な側面について検討する。
特に、ヒルベルト空間の幾何学的分解を考えると、この測度は非局所スカラー理論系の真空状態と局所スカラー理論の圧縮状態の両方において研究される。
また、相互作用するスカラー場の理論間の絡み合いの場空間容量を評価する。
我々は,この量の体積法スケーリングに関する解析的および数値的な証拠を異なる設定で提示し,これらの結果は,レニイエントロピーを含む他の絡み合い対策の挙動とどのように一致しているかを議論する。
本研究は,パラメータ空間の特定の状態におけるエンタングルメントの容量とそれに対応する密度行列の一般的な性質を明らかにする。
最後に、エンタングルメントエントロピーとエンタングルメントのキャパシティを比較することにより、問題となるモデルに対する一貫したホログラフィック双対の存在に関する結果のいくつかの意味について論じる。
We investigate various aspects of capacity of entanglement in certain setups whose entanglement entropy becomes extensive and obeys a volume law. In particular, considering geometric decomposition of the Hilbert space, we study this measure both in the vacuum state of a family of non-local scalar theories and also in the squeezed states of a local scalar theory. We also evaluate field space capacity of entanglement between interacting scalar field theories. We present both analytical and numerical evidences for the volume law scaling of this quantity in different setups and discuss how these results are consistent with the behavior of other entanglement measures including Renyi entropies. Our study reveals some generic properties of the capacity of entanglement and the corresponding reduced density matrix in the specific regimes of the parameter space. Finally, by comparing entanglement entropy and capacity of entanglement, we discuss some implications of our results on the existence of consistent holographic duals for the models in question. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# コヒーレント衝突による絡み合いの発生と安定化
Entanglement Generation and Stabilization by Coherent Collisions ( http://arxiv.org/abs/2407.16029v1 ) ライセンス: Link先を確認 | A. Mert Bozkurt, Rosa López, Sungguen Ryu, | (参考訳) 衝突は量子効果を明らかにし、量子情報タスクを実現するための有用なツールである。
我々は、反復電子による繰り返し衝突が、一般的な衝突機構において、2つの遠方スピン量子ビットを絡み合った状態に散逸的に駆動できることを実証した。
どちらのクビットとのコヒーレントスピン交換は絡み合いの発生を促進する。
適切な局所運転と組み合わせると、これらの衝突はほとんどの衝突構成において絡み合った定常状態を引き起こす。
特に、2つの量子ビットに対して対称な衝突は、最大交絡状態に近い一意の定常状態をもたらす。
この過程の散逸性のため、衝突周波数が脱コヒーレンス速度を超えると、絡み合いは脱コヒーレンスの存在下で持続する。
我々のモデルは単一電子源を用いて実験的に実装できる。
Collision is a useful tool for revealing quantum effects and realizing quantum informational tasks. We demonstrate that repeated collisions by itinerant electrons can dissipatively drive two remote spin qubits into an entangled state in a generic collisional framework. A coherent spin exchange with either qubit facilitates entanglement generation. When combined with proper local driving, these collisions induce an entangled steady state in most collision configurations. Particularly, the collision which is symmetric for the two qubits results in a unique steady state close to a maximally entangled state. Due to the dissipative nature of the process, the entanglement persists in the presence of decoherence, provided the collision frequency exceeds the decoherence rate. Our model can be experimentally implemented using single-electron sources. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# 半構造化テーブルのLCMにおける時間的理解の促進
Enhancing Temporal Understanding in LLMs for Semi-structured Tables ( http://arxiv.org/abs/2407.16030v1 ) ライセンス: Link先を確認 | Irwin Deng, Kushagra Dixit, Vivek Gupta, Dan Roth, | (参考訳) 表形式のデータに対する時間的推論は、最近の研究で証明されているように、大きな言語モデル(LLM)に重大な課題をもたらす。
本研究では,LLMの特定の限界を特定するために,時間的データセットの包括的解析を行う。
調査の結果,表側質問応答に特化して設計されたデータセットであるTempTabQAが強化された。
表付きデータを用いた時間的推論タスクにおけるLLM性能向上のための重要な洞察を提供する。
さらに,この領域におけるLLM機能を強化する新しいアプローチであるC.L.E.A.Rを導入する。
提案手法は,様々なモデルにおけるエビデンスに基づく推論を大幅に改善することを示す。
さらに,実験結果から,補助データによる間接的監視がこれらのタスクのモデル性能を大幅に向上させることが明らかとなった。
この研究はLLMの時間的推論能力を表型データよりも深く理解し、様々な分野にまたがる応用の進歩を促進するのに寄与する。
Temporal reasoning over tabular data presents substantial challenges for large language models (LLMs), as evidenced by recent research. In this study, we conduct a comprehensive analysis of temporal datasets to pinpoint the specific limitations of LLMs. Our investigation leads to enhancements in TempTabQA, a dataset specifically designed for tabular temporal question answering. We provide critical insights for improving LLM performance in temporal reasoning tasks with tabular data. Furthermore, we introduce a novel approach, C.L.E.A.R to strengthen LLM capabilities in this domain. Our findings demonstrate that our method significantly improves evidence-based reasoning across various models. Additionally, our experimental results reveal that indirect supervision with auxiliary data substantially boosts model performance in these tasks. This work contributes to a deeper understanding of LLMs' temporal reasoning abilities over tabular data and promotes advancements in their application across diverse fields. | 翻訳日:2024-07-24 19:25:20 公開日:2024-07-22 |
# 量子チャネルの指数混合条件
An Exponential Mixing Condition for Quantum Channels ( http://arxiv.org/abs/2407.16031v1 ) ライセンス: Link先を確認 | Abdessatar Souissi, Abdessatar Barhoumi, | (参考訳) 情報処理において中心的な量子チャネルは、量子システム内の変換を記述し、セキュアな通信とエラー訂正を可能にする。
エルゴディックと混合特性はそれらの挙動を解明する。
本稿では,量子マルコフ-ドブルシン不等式に基づく混合条件を確立する。
量子チャネルのマルコフ・ドブルシン定数がゼロを超えると指数混合挙動を示すことが証明される。
いくつかの量子チャネルの制限を探索し、不安定なチャネルが混在していないことを示す。
さらに、ユニタリ作用素の有限群に付随する混合ユニタリチャネル群のエルゴディディティを分析する。
最後に、この結果をqubit脱分極チャネルに適用する。
Quantum channels, pivotal in information processing, describe transformations within quantum systems and enable secure communication and error correction. Ergodic and mixing properties elucidate their behavior. In this paper, we establish a sufficient condition for mixing based on a quantum Markov-Dobrushin inequality. We prove that if the Markov-Dobrushin constant of a quantum channel exceeds zero, it exhibits exponential mixing behavior. We explore limitations of some quantum channels, demonstrating that unistochastic channels are not mixing. Additionally, we analyze ergodicity of a class of mixed-unitary channels associated with finite groups of unitary operators. Finally, we apply our results to the qubit depolarizing channel. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# 量子チャネルによる二部量子状態の非局所性制御
Controlling nonlocality of bipartite qubit states via quantum channels ( http://arxiv.org/abs/2407.16035v1 ) ライセンス: Link先を確認 | Adam Rutkowski, Katarzyna Siudzińska, | (参考訳) 本稿では,Choi-Jamio{\l}kowski同型写像の幾何学的側面について考察する。
これはベルの非局所性条件を満たす2量子循環状態に対応するキュービットチャネルに焦点を当てている。
主な部分は、単体写像と非単体写像の両方の例に関する非局所性生成写像の特徴付けに費やされている。
このアプローチの利点は、双極子状態の非局所性は単一のパラメータで制御できることである。
この研究は、量子チャネルの興味深い幾何学的性質を明らかにし、量子非局所性の分野に寄与する。
This paper explores geometric aspects of the inverse Choi-Jamio{\l}kowski isomorphism. It focuses on qubit channels corresponding to two-qubit circulant states that satisfy Bell's nonlocality condition. The main part is devoted to a characterization of nonlocality generating maps on the examples of both unital and non-unital maps. The advantage of this approach is that nonlocality of bipartite states can be controlled with a single parameter. The study reveals interesting geometric properties of quantum channels, contributing to the field of quantum nonlocality. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# データ拡張によるリチウムイオン電池の変圧器による容量予測
Transformer-based Capacity Prediction for Lithium-ion Batteries with Data Augmentation ( http://arxiv.org/abs/2407.16036v1 ) ライセンス: Link先を確認 | Gift Modekwe, Saif Al-Wahaibi, Qiugang Lu, | (参考訳) リチウムイオン電池は、輸送、電子機器、クリーンエネルギー貯蔵の技術の進歩に欠かせない。
これらの電池の最適運転と安全性は、健康状態を監視するために適切な、信頼性の高い電池容量の推定を必要とする。
キャパシティ推定の現在の方法は、電池の老朽化と劣化に伴う鍵変数(例えば、電圧、電流、温度)の長期時間依存性を適切に考慮できない。
本研究では,バッテリ容量推定のための変圧器ネットワークの利用について検討する。
本研究では,電池データにおける長期パターンと短期パターンの両方を考慮した変圧器ベースの電池容量予測モデルを構築した。
さらに,データ不足問題に対処するため,データサイズ向上のためにデータ拡張が用いられ,モデルの性能向上に寄与する。
提案手法はベンチマークデータセットを用いて検証する。
シミュレーションの結果,バッテリー容量予測の精度と堅牢性を向上させるため,データ拡張とトランスフォーマーネットワークの有効性が示された。
Lithium-ion batteries are pivotal to technological advancements in transportation, electronics, and clean energy storage. The optimal operation and safety of these batteries require proper and reliable estimation of battery capacities to monitor the state of health. Current methods for estimating the capacities fail to adequately account for long-term temporal dependencies of key variables (e.g., voltage, current, and temperature) associated with battery aging and degradation. In this study, we explore the usage of transformer networks to enhance the estimation of battery capacity. We develop a transformer-based battery capacity prediction model that accounts for both long-term and short-term patterns in battery data. Further, to tackle the data scarcity issue, data augmentation is used to increase the data size, which helps to improve the performance of the model. Our proposed method is validated with benchmark datasets. Simulation results show the effectiveness of data augmentation and the transformer network in improving the accuracy and robustness of battery capacity prediction. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# ランダム化実験における分散処理効果の推定:分散化のための機械学習
Estimating Distributional Treatment Effects in Randomized Experiments: Machine Learning for Variance Reduction ( http://arxiv.org/abs/2407.16037v1 ) ライセンス: Link先を確認 | Undral Byambadalai, Tatsushi Oka, Shota Yasui, | (参考訳) ランダム化実験における分散処理効果パラメータを推定するための新しい回帰調整法を提案する。
ランダム化実験は様々な科学分野における治療効果を推定するために広く用いられている。
しかし、より深い洞察を得るためには、平均的な効果にのみ依存するのではなく、分布的処理効果を推定することが不可欠である。
提案手法は, 分散回帰フレームワークに前処理共変体を組み込み, 機械学習技術を用いて分散処理効果推定器の精度を向上する。
提案手法は既成の機械学習手法で容易に実装可能であり,ニュアンス成分が合理的に推定される限り有効である。
また,提案した推定器の漸近特性を確立し,一様に有効な推定法を提案する。
シミュレーション結果と実データ解析により,有限標本における分布処理効果推定器の分散を低減させる機械学習技術の統合の有効性を実証する。
We propose a novel regression adjustment method designed for estimating distributional treatment effect parameters in randomized experiments. Randomized experiments have been extensively used to estimate treatment effects in various scientific fields. However, to gain deeper insights, it is essential to estimate distributional treatment effects rather than relying solely on average effects. Our approach incorporates pre-treatment covariates into a distributional regression framework, utilizing machine learning techniques to improve the precision of distributional treatment effect estimators. The proposed approach can be readily implemented with off-the-shelf machine learning methods and remains valid as long as the nuisance components are reasonably well estimated. Also, we establish the asymptotic properties of the proposed estimator and present a uniformly valid inference method. Through simulation results and real data analysis, we demonstrate the effectiveness of integrating machine learning techniques in reducing the variance of distributional treatment effect estimators in finite samples. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# MINT:ミニマリストのIn-DRAMトラッカーでローハンマーを安全に修正
MINT: Securely Mitigating Rowhammer with a Minimalist In-DRAM Tracker ( http://arxiv.org/abs/2407.16038v1 ) ライセンス: Link先を確認 | Moinuddin Qureshi, Salman Qazi, Aamer Jaleel, | (参考訳) 本稿では,Rowhammer (RH) を緩和するためのセキュアな低コストインDRAMトラッカーについて検討する。
インDRAMソリューションは、システムの他の部分に依存することなく、DRAMチップ内のRH問題を解決することができるという利点がある。
第一に、緩和はリフレッシュと同期しているため、任意のタイミングで緩和できない。
第二に、攻撃者追跡に利用可能なSRAM領域は、数バイトに限られている。
既存の低コストのイン・DRAMトラッカー(例えばTRR)は、巧妙なアクセスパターンによって破壊されているが、従来のカウンタベースのスキームではバンク毎に数百から数千のエントリの非現実的なオーバーヘッドを必要とする。
本論文の目的は,超低コストでセキュアなDRAMトラッカーの開発である。
私たちのソリューションは単純な観察に基づいています。もしリフレッシュ時に1行だけを緩和できれば、理想的には1行だけを追跡する必要があります。
単一エントリでセキュアな緩和を実現するミニマリストIn-DRAMトラッカー(MINT)を提案する。
各リフレッシュ時に、MINTは次のリフレッシュ時に緩和のために次のインターバルでのアクティベーションを選択するかを確率的に決定する。
MINTは、古典的なシングルおよびダブルサイド攻撃に対する保証された保護を提供する。
また,全パターンにわたってMINTが許容する最小RH閾値(MinTRH)を導出する。
MINTは1482年のMinTRHを持ち、RAMで356に下げることができる。
MINTのMinTRHは、1バンクあたり677のエントリを持つ以前のカウンターベース設計よりも低く、ワンカウンタ・パー・ローを格納する理想的な設計であるMinTRHの2倍以内である。
また、低コストなインDRAMトラッカーのMinTRHに対するリフレッシュ後処理の影響を解析し、リフレッシュ後処理と互換性を持たせるための効率的なソリューションを提案する。
This paper investigates secure low-cost in-DRAM trackers for mitigating Rowhammer (RH). In-DRAM solutions have the advantage that they can solve the RH problem within the DRAM chip, without relying on other parts of the system. However, in-DRAM mitigation suffers from two key challenges: First, the mitigations are synchronized with refresh, which means we cannot mitigate at arbitrary times. Second, the SRAM area available for aggressor tracking is severely limited, to only a few bytes. Existing low-cost in-DRAM trackers (such as TRR) have been broken by well-crafted access patterns, whereas prior counter-based schemes require impractical overheads of hundreds or thousands of entries per bank. The goal of our paper is to develop an ultra low-cost secure in-DRAM tracker. Our solution is based on a simple observation: if only one row can be mitigated at refresh, then we should ideally need to track only one row. We propose a Minimalist In-DRAM Tracker (MINT), which provides secure mitigation with just a single entry. At each refresh, MINT probabilistically decides which activation in the upcoming interval will be selected for mitigation at the next refresh. MINT provides guaranteed protection against classic single and double-sided attacks. We also derive the minimum RH threshold (MinTRH) tolerated by MINT across all patterns. MINT has a MinTRH of 1482 which can be lowered to 356 with RFM. The MinTRH of MINT is lower than a prior counter-based design with 677 entries per bank, and is within 2x of the MinTRH of an idealized design that stores one-counter-per-row. We also analyze the impact of refresh postponement on the MinTRH of low-cost in-DRAM trackers, and propose an efficient solution to make such trackers compatible with refresh postponement. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# 学生建築における効果的な知識蒸留のための教師ネットワークの一般化
Generalizing Teacher Networks for Effective Knowledge Distillation Across Student Architectures ( http://arxiv.org/abs/2407.16040v1 ) ライセンス: Link先を確認 | Kuluhan Binici, Weiming Wu, Tulika Mitra, | (参考訳) 知識蒸留(KD)は、より複雑な教師モデルの性能をエミュレートするために、コンパクトな学生モデルを訓練するモデル圧縮法である。
しかし、2つのモデル間のアーキテクチャ能力のギャップは、知識伝達の有効性を制限している。
この問題に対処するため、以前の作業では、教師と学生のペアをカスタマイズして互換性を改善することに重点を置いていた。
したがって、これらの手法は、異なるリソース制約のある複数のハードウェアデバイスにデプロイするために、教師モデルを異なる学生モデルに圧縮する必要がある場合、実用的ではない。
そこで本研究では,KDを意識した一対一の教師ネットワーク(GTN)を提案し,与えられた有限プールアーキテクチャから抽出した任意の学生モデルに知識を効果的に伝達できる汎用的な教師を創出する。
この目的のために、私たちは学生プールを重量共有スーパーネットとして表現し、このスーパーネットからサンプリングされた様々な学生アーキテクチャの能力に合わせた総合教師を条件付けする。
実験により,本手法は総合的なKD効果を向上し,一般教師のプール内教育費の最小化を図った。
Knowledge distillation (KD) is a model compression method that entails training a compact student model to emulate the performance of a more complex teacher model. However, the architectural capacity gap between the two models limits the effectiveness of knowledge transfer. Addressing this issue, previous works focused on customizing teacher-student pairs to improve compatibility, a computationally expensive process that needs to be repeated every time either model changes. Hence, these methods are impractical when a teacher model has to be compressed into different student models for deployment on multiple hardware devices with distinct resource constraints. In this work, we propose Generic Teacher Network (GTN), a one-off KD-aware training to create a generic teacher capable of effectively transferring knowledge to any student model sampled from a given finite pool of architectures. To this end, we represent the student pool as a weight-sharing supernet and condition our generic teacher to align with the capacities of various student architectures sampled from this supernet. Experimental evaluation shows that our method both improves overall KD effectiveness and amortizes the minimal additional training cost of the generic teacher across students in the pool. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# 時計原子の集合体における自己秩序化, 冷却, 洗浄
Self-Ordering, Cooling and Lasing in an Ensemble of Clock Atoms ( http://arxiv.org/abs/2407.16046v1 ) ライセンス: Link先を確認 | Anna Bychek, Laurin Ostermann, Helmut Ritsch, | (参考訳) アクティブ原子時計は、典型的なフィードバックベースの光学原子時計よりもはるかに優れた短期安定性と熱ゆらぎに対する堅牢性を提供すると予測されている。
しかし、クロック原子のアンサンブルを用いた連続レーザー操作は、まだ実験的に難しい課題である。
光共振器内のクロック原子の逆駆動アンサンブルにおける空間自己組織化とキャビティからのコヒーレント発光について検討した。
我々は、周波数安定性を提供する位相コヒーレンスをキャビティフィールドではなく原子双極子に格納する狭い原子線幅状態における発光光のスペクトル特性に着目した。
原子は、待機波コヒーレントレーザーによって共振的にキャビティ軸に逆向きに駆動され、キャビティ軸に沿った原子の動きとポンプに沿って動く。
より大きな原子数を扱うために、2階の累積展開を用い、空洞光場のスペクトルを計算する。
我々は、原子がチェッカーボードパターンに整列し、同時に冷却を誘導するキャビティへの光散乱を最大化する自己組織化しきい値を特定する。
より大きな駆動強度のために、より多くの原子が励起状態に移動され、冷却は減少するが、励起原子からの発光が増加する。
これは、原子周波数で4分の1の波長で空間的にシフトした第2キャビティモードによって拡張することができる。
十分に大きな原子数に対して、我々は素原子遷移周波数に近いレーザーのような放出を観測する。
Active atomic clocks are predicted to provide far better short-term stability and robustness against thermal fluctuations than typical feedback-based optical atomic clocks. However, continuous laser operation using an ensemble of clock atoms still remains an experimentally challenging task. We study spatial self-organization in a transversely driven ensemble of clock atoms inside an optical resonator and coherent light emission from the cavity. We focus on the spectral properties of the emitted light in the narrow atomic linewidth regime, where the phase coherence providing frequency stability is stored in the atomic dipoles rather than the cavity field. The atoms are off-resonantly driven by a standing-wave coherent laser transversely to the cavity axis allowing for atomic motion along the cavity axis as well as along the pump. In order to treat larger atom numbers we employ a second-order cumulant expansion which allows us to calculate the spectrum of the cavity light field. We identify the self-organization threshold where the atoms align themselves in a checkerboard pattern thus maximizing light scattering into the cavity which simultaneously induces cooling. For a larger driving intensity, more atoms are transferred to the excited state, reducing cooling but increasing light emission from the excited atoms. This can be enhanced via a second cavity mode at the atomic frequency spatially shifted by a quarter wavelength. For large enough atom numbers we observe laser-like emission close to the bare atomic transition frequency. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# 大規模言語モデルを用いたソーシャルメディア投稿の言語変化の位置情報化
Leveraging Large Language Models to Geolocate Linguistic Variations in Social Media Posts ( http://arxiv.org/abs/2407.16047v1 ) ライセンス: Link先を確認 | Davide Savarro, Davide Zago, Stefano Zoia, | (参考訳) ソーシャルメディアコンテンツのジオローカライゼーションは、テキストデータに基づいてユーザの地理的な位置を決定するタスクであり、言語的バリエーションや非公式な言語を示す。
本稿では,大規模言語モデル(LLM)を活用することで,イタリア語で書かれたツイートをジオローカライズするGeoLingItの課題に対処する。
GeoLing ツイートの領域と正確な座標の両方を予測する必要がある。
我々のアプローチは、これらの地理的局在化の側面を同時に予測するために、訓練済みのLLMを微調整することである。
革新的手法を統合することで,イタリアのソーシャルメディアテキストのニュアンスを理解する能力を高め,この領域の最先端性を向上させる。
この研究は、バーティノロ国際スプリングスクール2024のLarge Language Modelsコースの一部として実施されている。
コードをGitHub https://github.com/dawoz/geolingit-biss2024で公開しています。
Geolocalization of social media content is the task of determining the geographical location of a user based on textual data, that may show linguistic variations and informal language. In this project, we address the GeoLingIt challenge of geolocalizing tweets written in Italian by leveraging large language models (LLMs). GeoLingIt requires the prediction of both the region and the precise coordinates of the tweet. Our approach involves fine-tuning pre-trained LLMs to simultaneously predict these geolocalization aspects. By integrating innovative methodologies, we enhance the models' ability to understand the nuances of Italian social media text to improve the state-of-the-art in this domain. This work is conducted as part of the Large Language Models course at the Bertinoro International Spring School 2024. We make our code publicly available on GitHub https://github.com/dawoz/geolingit-biss2024. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# HIERVAR:時系列解析のための階層的特徴選択法
HIERVAR: A Hierarchical Feature Selection Method for Time Series Analysis ( http://arxiv.org/abs/2407.16048v1 ) ライセンス: Link先を確認 | Alireza Keshavarzian, Shahrokh Valaee, | (参考訳) 時系列分類は、金融、医療、産業システムを含む様々な分野において、重要かつ複雑な課題である。
現代の研究では、ランダムサンプリングによる特徴抽出の探索が注目されている。
深層畳み込みネットワークとは異なり、これらの手法は精巧な訓練手順を踏襲するが、しばしば時系列のニュアンスを包括的にカプセル化するために余剰の機能を生成する必要がある。
結果として、いくつかの特徴はラベルとの関係に欠けるかもしれないし、他の特徴と多色性を示すかもしれない。
本稿では,ANOVA分散解析による新しい階層的特徴選択手法を提案する。
厳密な実験を通じて,本手法は,時系列解析や特徴選択の分野において,精度を保ちながら,特徴量を94%以上削減できることを実証した。
Time series classification stands as a pivotal and intricate challenge across various domains, including finance, healthcare, and industrial systems. In contemporary research, there has been a notable upsurge in exploring feature extraction through random sampling. Unlike deep convolutional networks, these methods sidestep elaborate training procedures, yet they often necessitate generating a surplus of features to comprehensively encapsulate time series nuances. Consequently, some features may lack relevance to labels or exhibit multi-collinearity with others. In this paper, we propose a novel hierarchical feature selection method aided by ANOVA variance analysis to address this challenge. Through meticulous experimentation, we demonstrate that our method substantially reduces features by over 94% while preserving accuracy -- a significant advancement in the field of time series analysis and feature selection. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# 選挙噂2022年:2022年中間期のTwitterにおける選挙噂
ElectionRumors2022: A Dataset of Election Rumors on Twitter During the 2022 US Midterms ( http://arxiv.org/abs/2407.16051v1 ) ライセンス: Link先を確認 | Joseph S Schafer, Kayla Duskin, Stephen Prochaska, Morgan Wack, Anna Beers, Lia Bozarth, Taylor Agajanian, Mike Caulfield, Emma S Spiro, Kate Starbird, | (参考訳) ネット上の噂の拡散を理解することは社会的課題であり、ドメイン間の研究の活発な領域である。
2022年の中間選挙では、情報共有のための影響力のあるソーシャルメディアプラットフォームがTwitter(現在はXと改名)だった。
選挙に関するオンライン噂のダイナミクスの理解を深めるため、中間選挙シーズン(2022年9月5日~12月1日)にオンラインに広がった135件の異なる噂に対応する1億81100万件のTwitter投稿のデータセットを提示、分析した。
我々は、このデータがどうやって収集、コンパイル、補足されたかを説明し、2020年の選挙の噂を前に公表されたデータセットと比較した一連の探索分析を提供する。
我々はまた、アリゾナの選挙に関する3つの異なる噂、特に2022年の選挙噂の顕著な焦点について、混同分析を行いました。
最後に、オンラインの噂や誤報、偽情報などの今後の研究を促進するために、このデータセットがどのように使われるかについて、将来的な方向性のセットを提供する。
Understanding the spread of online rumors is a pressing societal challenge and an active area of research across domains. In the context of the 2022 U.S. midterm elections, one influential social media platform for sharing information -- including rumors that may be false, misleading, or unsubstantiated -- was Twitter (now renamed X). To increase understanding of the dynamics of online rumors about elections, we present and analyze a dataset of 1.81 million Twitter posts corresponding to 135 distinct rumors which spread online during the midterm election season (September 5 to December 1, 2022). We describe how this data was collected, compiled, and supplemented, and provide a series of exploratory analyses along with comparisons to a previously-published dataset on 2020 election rumors. We also conduct a mixed-methods analysis of three distinct rumors about the election in Arizona, a particularly prominent focus of 2022 election rumoring. Finally, we provide a set of potential future directions for how this dataset could be used to facilitate future research into online rumors, misinformation, and disinformation. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# リカレントダイナミクスの量子検出
Quantum Detection of Recurrent Dynamics ( http://arxiv.org/abs/2407.16055v1 ) ライセンス: Link先を確認 | Michael H. Freedman, | (参考訳) ヒルベルト空間の予想外の小さな部分について探索する量子力学は本質的に興味深い。
可積分系、量子スカー、MBL、隠れテンソル構造、ゲージ対称性を持つ系などがその例である。
次元や体積を超えて、周期的固有値の$O(1)$-densityのようなスペクトル的特徴は、観測可能な再発を示唆する。
例えば、$\lVert\mathrm{U}^k | \psi_0\rangle - | \psi_0\rangle \rVert < \epsilon$ は、(前方)軌道 $\operatorname{closure}(\{\mathrm{U}^k\}_{k=1,2,\dots})$ が比較的低次元の$d$と比較的小さな$d$-volume であるとき、$k$ のモデスト値に対して発生する可能性が高い。
このような近似的再帰を検出するための簡単な量子アルゴリズムについて述べる。
応用例としては、隠されたテンソル因子化の特定のケースの検出がある。 $\mathrm{U} \cong V^\dagger(\mathrm{U}_1\otimes \cdots \otimes \mathrm{U}_n)V$。
Hidden" は未知の共役、e g $\mathrm{U}_1 \otimes \cdots \otimes \mathrm{U}_v \rightarrow V^\dagger(\mathrm{U}_1 \otimes \cdots \otimes \mathrm{U}_n)V$ を指す。
隠れテンソル構造は、演算子レベルの自発的対称性の破れ(FSZ21a, FSZ21b, FSZ21c, SZBF23]の高エネルギー文脈において出現し、言語学における知的世界の反対の端(Smo09, MLDS19)で出現することが観察されている。
我々は,これらの構造を探索し,関連するスペクトル情報を検出することの難しさについて,いくつかの知見を収集する。
Appendix A の技術的結果は、1 にスペクトルギャップ(NUSG)を持たないユニタリ回路を記述する言語が QMA 完全であるということである。
Appendix B はコルモゴロフ・アルノルド表現定理を隠れテンソル構造に接続する。
Quantum dynamics that explores an unexpectedly small fraction of Hilbert space is inherently interesting. Integrable systems, quantum scars, MBL, hidden tensor structures, and systems with gauge symmetries are examples. Beyond dimension and volume, spectral features such as an $O(1)$-density of periodic eigenvalues can also imply observable recurrence. Low volume dynamics will recur near its initial state $| \psi_0\rangle$ more rapidly, i.e. $\lVert\mathrm{U}^k | \psi_0\rangle - | \psi_0\rangle \rVert < \epsilon$ is more likely to occur for modest values of $k$, when the (forward) orbit $\operatorname{closure}(\{\mathrm{U}^k\}_{k=1,2,\dots})$ is of relatively low dimension $d$ and relatively small $d$-volume. We describe simple quantum algorithms to detect such approximate recurrence. Applications include detection of certain cases of hidden tensor factorizations $\mathrm{U} \cong V^\dagger(\mathrm{U}_1\otimes \cdots \otimes \mathrm{U}_n)V$. "Hidden" refers to an unknown conjugation, e.g. $\mathrm{U}_1 \otimes \cdots \otimes \mathrm{U}_v \rightarrow V^\dagger(\mathrm{U}_1 \otimes \cdots \otimes \mathrm{U}_n)V$, which will obscure the low-volume nature of the dynamics. Hidden tensor structures have been observed to emerge both in a high energy context of operator-level spontaneous symmetry breaking [FSZ21a, FSZ21b, FSZ21c, SZBF23], and at the opposite end of the intellectual world in linguistics [Smo09, MLDS19]. We collect some observations on the computational difficulty of locating these structures and detecting related spectral information. A technical result, Appendix A, is that the language describing unitary circuits with no spectral gap (NUSG) around 1 is QMA-complete. Appendix B connects the Kolmogorov-Arnold representation theorem to hidden tensor structures. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# ラマン断熱法によるダイヤモンド中の核スピンのラムゼー干渉計測
Ramsey interferometry of nuclear spins in diamond using stimulated Raman adiabatic passage ( http://arxiv.org/abs/2407.16057v1 ) ライセンス: Link先を確認 | Sean Lourette, Andrey Jarmola, Jabir Chathanathil, Sebastián C. Carrasco, Dmitry Budker, Svetlana A. Malinovskaya, A. Glen Birdwell, Tony Ivanov, Vladimir S. Malinovsky, | (参考訳) ダイヤモンド中の窒素空孔 (NV) 色中心の核スピン遷移におけるラマン断熱路 (STIRAP) の実験的実験を行った。
このSTIRAP技術は、量子センシング技術の改善に欠かせない中間状態の占有を抑制することが示されている。
その利点を生かして,半STIRAPパルスを用いて高忠実度で必要な量子状態操作を行うラムゼイ干渉計の一般化版を開発し,実装する。
パルスパラメータの変動に対するSTIRAPベースのRamseyスキームの強靭性は実験的に証明され、理論的な予測とよく一致している。
本研究は,ジャイロスコープや周波数標準などのダイヤモンド系センサの長期安定性向上の道を開くものである。
We report the first experimental demonstration of stimulated Raman adiabatic passage (STIRAP) in nuclear-spin transitions of $^{14}$N within nitrogen-vacancy (NV) color centers in diamond. It is shown that the STIRAP technique suppresses the occupation of the intermediate state, which is a crucial factor for improvements in quantum sensing technology. Building on that advantage, we develop and implement a generalized version of the Ramsey interferometric scheme, employing half-STIRAP pulses to perform the necessary quantum-state manipulation with high fidelity. The enhanced robustness of the STIRAP-based Ramsey scheme to variations in the pulse parameters is experimentally demonstrated, showing good agreement with theoretical predictions. Our results pave the way for improving the long-term stability of diamond-based sensors, such as gyroscopes and frequency standards. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# $k$-subsetサンプリングのためのスコア関数推定器の再検討
Revisiting Score Function Estimators for $k$-Subset Sampling ( http://arxiv.org/abs/2407.16058v1 ) ライセンス: Link先を確認 | Klas Wijk, Ricardo Vinuesa, Hossein Azizpour, | (参考訳) スコア関数推定は$k$-subsetサンプリングによる学習の過小評価手法か?
k$-subsetsをサンプリングすることは、微分可能なパラメトリゼーションには適さない多くの機械学習タスクの基本的な操作であり、勾配に基づく最適化を妨げる。
以前の研究は、緩やかなサンプリングや道順勾配推定に重点を置いていた。
変分推論および強化学習におけるスコア関数推定器の成功に触発されて、$k$-subset サンプリングの文脈で再検討する。
具体的には、離散フーリエ変換を用いて、$k$-subset分布のスコア関数を効率的に計算し、制御変数による推定値の分散を低減する方法を示す。
得られた推定器は、既存の方法とは異なり、非微分不可能な下流モデルにも適用しながら、正確なサンプルと偏りのない勾配推定の両方を提供する。
特徴選択の実験は、仮定が弱いにもかかわらず、現在の手法と競合する結果を示している。
Are score function estimators an underestimated approach to learning with $k$-subset sampling? Sampling $k$-subsets is a fundamental operation in many machine learning tasks that is not amenable to differentiable parametrization, impeding gradient-based optimization. Prior work has focused on relaxed sampling or pathwise gradient estimators. Inspired by the success of score function estimators in variational inference and reinforcement learning, we revisit them within the context of $k$-subset sampling. Specifically, we demonstrate how to efficiently compute the $k$-subset distribution's score function using a discrete Fourier transform, and reduce the estimator's variance with control variates. The resulting estimator provides both exact samples and unbiased gradient estimates while also applying to non-differentiable downstream models, unlike existing methods. Experiments in feature selection show results competitive with current methods, despite weaker assumptions. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# 精密・デジタル健康のための人工知能による意思決定支援システム
Artificial Intelligence-based Decision Support Systems for Precision and Digital Health ( http://arxiv.org/abs/2407.16062v1 ) ライセンス: Link先を確認 | Nina Deliu, Bibhas Chakraborty, | (参考訳) デジタル技術によってますます支持されるようになった精密医療は、精密医療のパラダイムを広げ、日々の医療を前進させる研究分野である。
このビジョンは、人工知能(AI)の画期的な出現と相まって、臨床患者と一般市民の両方の診断、治療、監視の方法を変えようとしている。
機械学習を利用したAIツールは、さまざまな医療領域で大幅に改善されている。
特に、強化学習(RL)は、動的治療体制やデジタルヘルスにおけるジャスト・イン・タイム適応的介入のような、シーケンシャルでダイナミックな問題に対して大きな期待を持っている。
本稿では、AI、特にRLが医療の現在のトレンドにもたらす機会について論じ、精度とデジタルヘルスの文脈におけるRL手法の方法論的調査を提供する。
適応的介入の分野に着目し,RLを実例に用いた実証的事例研究により方法論的調査を拡大する。
この招待記事は匿名のレビューを受けており、Subhashis Ghoshal と Anindya Roy が編集した "Frontiers of Statistics and Data Science" という巻の書籍の章として Springer が発行した International Indian Statistical Association Series on Statistics and Data Science に掲載されている。
2022年12月26-30日のIISA 2022 ConferenceでBibhas Chakrabortyがインドのベンガルにあるインド科学研究所で教えた"Artificial Intelligence in Precision and Digital Health"という短いコースの資料をカバーしている。
Precision health, increasingly supported by digital technologies, is a domain of research that broadens the paradigm of precision medicine, advancing everyday healthcare. This vision goes hand in hand with the groundbreaking advent of artificial intelligence (AI), which is reshaping the way we diagnose, treat, and monitor both clinical subjects and the general population. AI tools powered by machine learning have shown considerable improvements in a variety of healthcare domains. In particular, reinforcement learning (RL) holds great promise for sequential and dynamic problems such as dynamic treatment regimes and just-in-time adaptive interventions in digital health. In this work, we discuss the opportunity offered by AI, more specifically RL, to current trends in healthcare, providing a methodological survey of RL methods in the context of precision and digital health. Focusing on the area of adaptive interventions, we expand the methodological survey with illustrative case studies that used RL in real practice. This invited article has undergone anonymous review and is intended as a book chapter for the volume "Frontiers of Statistics and Data Science" edited by Subhashis Ghoshal and Anindya Roy for the International Indian Statistical Association Series on Statistics and Data Science, published by Springer. It covers the material from a short course titled "Artificial Intelligence in Precision and Digital Health" taught by the author Bibhas Chakraborty at the IISA 2022 Conference, December 26-30 2022, at the Indian Institute of Science, Bengaluru. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# LCA-on-the-Line: Class Taxonomiesによるアウト・オブ・ディストリビューションの一般化のベンチマーク
LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies ( http://arxiv.org/abs/2407.16067v1 ) ライセンス: Link先を確認 | Jia Shi, Gautam Gare, Jinjin Tian, Siqi Chai, Zhiqiu Lin, Arun Vasudevan, Di Feng, Francesco Ferroni, Shu Kong, | (参考訳) 我々は,OODデータを必要とせず,内分布(ID)測定によるモデル外分布(OOD)性能の予測に挑戦する。
既存の評価では、OOD精度の指標としてID精度を使用する"Effective Robustness"を使用して、クラスラベル(Vision Models, VMs, on ImageNet)やテキスト記述(Visual-Language Models, VLMs, on LAION)など、さまざまな監視と配布でトレーニングされたモデルに遭遇する制限がある。
VLMは、同じまたは低いID性能にもかかわらず、VMよりもOODデータによく一般化する。
ID測定によるモデルのOOD性能の予測を改善するため,Lowest Common Ancestor(LCA)-on-the-Lineフレームワークを提案する。
このアプローチは、WordNetのような事前に定義されたクラス階層内のラベルと予測の間の階層的距離を測定する、確立されたLCA距離の概念を再考する。
我々は、IDデータセットとしてImageNetを用いて75のモデルを評価し、5つのOOD変異体を比較し、ID LCA距離とOOD Top-1精度の強い線形相関を明らかにする。
我々の手法は、VLMがより一般化する傾向がある理由を理解するための説得力のある代替手段を提供する。
さらに、K平均クラスタリングを用いて、任意のデータセットに分類階層を構築する手法を提案し、LCA距離が構築された分類階層に対して堅牢であることを示す。
さらに、ソフトラベルやプロンプトエンジニアリングによるモデル予測とクラス分類との整合性を示すことにより、モデルの一般化が促進されることを示す。
プロジェクトのページにあるオープンソースコード: https://elvishelvis.github.io/papers/lca/。
We tackle the challenge of predicting models' Out-of-Distribution (OOD) performance using in-distribution (ID) measurements without requiring OOD data. Existing evaluations with "Effective Robustness", which use ID accuracy as an indicator of OOD accuracy, encounter limitations when models are trained with diverse supervision and distributions, such as class labels (Vision Models, VMs, on ImageNet) and textual descriptions (Visual-Language Models, VLMs, on LAION). VLMs often generalize better to OOD data than VMs despite having similar or lower ID performance. To improve the prediction of models' OOD performance from ID measurements, we introduce the Lowest Common Ancestor (LCA)-on-the-Line framework. This approach revisits the established concept of LCA distance, which measures the hierarchical distance between labels and predictions within a predefined class hierarchy, such as WordNet. We assess 75 models using ImageNet as the ID dataset and five significantly shifted OOD variants, uncovering a strong linear correlation between ID LCA distance and OOD top-1 accuracy. Our method provides a compelling alternative for understanding why VLMs tend to generalize better. Additionally, we propose a technique to construct a taxonomic hierarchy on any dataset using K-means clustering, demonstrating that LCA distance is robust to the constructed taxonomic hierarchy. Moreover, we demonstrate that aligning model predictions with class taxonomies, through soft labels or prompt engineering, can enhance model generalization. Open source code in our Project Page: https://elvishelvis.github.io/papers/lca/. | 翻訳日:2024-07-24 19:15:20 公開日:2024-07-22 |
# 平均ケースを超えるノイズ量子回路のパウリパスシミュレーション
Pauli path simulations of noisy quantum circuits beyond average case ( http://arxiv.org/abs/2407.16068v1 ) ライセンス: Link先を確認 | Guillermo González-García, J. Ignacio Cirac, Rahul Trivedi, | (参考訳) 深さ$n$ qubits of depth $\Theta(\log n)$ のランダム量子回路の場合、出力状態からのサンプリングはパウリパス法(Aharonov et al Proceedings of the 55th Annual ACM Symposium on Theory of Computing. 2023)を用いて古典的に行うことができる。
本稿では,この手法の性能をランダム回路を超えて検討することを目的とする。
まず、Clifford と T gates $\unicode{x2013}$ の回路における局所可観測関数の古典的シミュレーションを、平均ケース解析を超越して、T gates であるゲートの分数とノイズ率をシミュレートできる十分な条件を導出し、T gates よりも速い速度でノイズが導入された場合、シミュレーションは古典的に簡単になることを示す。
この結果の応用として、一般グラフ上で古典的イジングモデルの低エネルギー状態を見つけようとする2次元QAOA回路について検討する。
そこで本研究では,Isingモデルのグラフが幾何学的に非局所的である問題に対して,SWAPゲートを用いた幾何学的局所回路アーキテクチャにマッピングしたQAOAアルゴリズムは,定速度で非偏極化した場合,古典的アルゴリズムに対して漸近的優位性を持たないことを示す。
最後に、パウリ経路法が正しい結果を与えられなかった場合を例示するとともに、フラクティリティとノイズの間のトレードオフと、与えられた量子回路をシミュレートする古典的な複雑さの研究を開始する。
For random quantum circuits on $n$ qubits of depth $\Theta(\log n)$ with depolarizing noise, the task of sampling from the output state can be efficiently performed classically using a Pauli path method [Aharonov et al. Proceedings of the 55th Annual ACM Symposium on Theory of Computing. 2023] . This paper aims to study the performance of this method beyond random circuits. We first consider the classical simulation of local observables in circuits composed of Clifford and T gates $\unicode{x2013}$ going beyond the average case analysis, we derive sufficient conditions for simulatability in terms of the noise rate and the fraction of gates that are T gates, and show that if noise is introduced at a faster rate than T gates, the simulation becomes classically easy. As an application of this result, we study 2D QAOA circuits that attempt to find low-energy states of classical Ising models on general graphs. There, our results shows that for hard instances of the problem, which correspond to Ising model's graph being geometrically non-local, a QAOA algorithm mapped to a geometrically local circuit architecture using SWAP gates does not have any asymptotic advantage over classical algorithms if depolarized at a constant rate. Finally, we illustrate instances where the Pauli path method fails to give the correct result, and also initiate a study of the trade-off between fragility to noise and classical complexity of simulating a given quantum circuit. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# m系列の相互相関に関する最新のレビュー
An updated review on cross-correlation of m-sequences ( http://arxiv.org/abs/2407.16072v1 ) ライセンス: Link先を確認 | Tor Helleseth, Chunlei Li, | (参考訳) 有限体上の最大長列(m系列)は、原始特性多項式を持つ線形フィードバックシフトレジスタによって生成される。
これらの列は優れた数学的構造と良好なランダム性を持ち、実際的な応用に好適である。
過去50年間に、同時代のm系列間の相互相関の研究が盛んに行われており、特に、少ない値の相互相関スペクトルの研究に焦点が当てられている。
本章では、この話題に関するすべての既知の結果を文献で要約し、今後の研究に向けていくつかのオープンな問題を提起する。
Maximum-length sequences (m-sequences for short) over finite fields are generated by linear feedback shift registers with primitive characteristic polynomials. These sequences have nice mathematical structures and good randomness properties that are favorable in practical applications. During the past five decades, the crosscorrelation between m-sequences of the same period has been intensively studied, and a particular research focus has been on investigating the cross-correlation spectra with few possibles values. In this chapter we summarize all known results on this topic in the literature and promote several open problems for future research. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# KaPQA: 知識に富んだ製品質問への回答
KaPQA: Knowledge-Augmented Product Question-Answering ( http://arxiv.org/abs/2407.16073v1 ) ライセンス: Link先を確認 | Swetha Eppalapally, Daksh Dangi, Chaithra Bhat, Ankita Gupta, Ruiyi Zhang, Shubham Agarwal, Karishma Bagga, Seunghyun Yoon, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, | (参考訳) ドメイン固有のアプリケーションに対する質問応答は、最近、大規模言語モデル(LLM)の最新の進歩により、大きな関心を集めている。
しかし、実際のシナリオを効果的にシミュレートする適切なベンチマークが欠如しているため、これらのアプリケーションの性能を正確に評価することは依然として困難である。
この課題に対処するために、Adobe AcrobatとPhotoshopに焦点をあてた2つの製品質問応答(QA)データセットを導入し、ドメイン固有の製品QAタスクにおける既存のモデルのパフォーマンスを評価する。
さらに,製品QAタスクにおけるモデルの性能を向上させるための知識駆動型RAG-QAフレームワークを提案する。
提案実験では,クエリ再構成によるドメイン知識の誘導により,標準的なRAG-QA法と比較して検索性能と生成性能が向上することが実証された。
しかし、この改善はわずかであり、導入したデータセットがもたらす課題を示している。
Question-answering for domain-specific applications has recently attracted much interest due to the latest advancements in large language models (LLMs). However, accurately assessing the performance of these applications remains a challenge, mainly due to the lack of suitable benchmarks that effectively simulate real-world scenarios. To address this challenge, we introduce two product question-answering (QA) datasets focused on Adobe Acrobat and Photoshop products to help evaluate the performance of existing models on domain-specific product QA tasks. Additionally, we propose a novel knowledge-driven RAG-QA framework to enhance the performance of the models in the product QA task. Our experiments demonstrated that inducing domain knowledge through query reformulation allowed for increased retrieval and generative performance when compared to standard RAG-QA methods. This improvement, however, is slight, and thus illustrates the challenge posed by the datasets introduced. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# PLayerTV: 自動サッカーハイライトクリップのための高度な選手追跡と識別
PLayerTV: Advanced Player Tracking and Identification for Automatic Soccer Highlight Clips ( http://arxiv.org/abs/2407.16076v1 ) ライセンス: Link先を確認 | Håkon Maric Solberg, Mehdi Houshmand Sarkhoosh, Sushant Gautam, Saeed Shafiee Sabet, Pål Halvorsen, Cise Midoglu, | (参考訳) スポーツ分析の分野では、ターゲットとなるビデオ処理の自動化が重要な進歩である。
本稿では,サッカービデオにおける選手の自動追跡と識別に最先端のAI技術を活用する,革新的なフレームワークであるPlayerTVを提案する。
オブジェクトの検出と追跡、光学文字認識(OCR)、色分析を統合することで、PlayerTVは、広範囲なゲーム映像からプレイヤー固有のハイライトクリップを生成するのに役立つ。
ノルウェーのエリテセリエンリーグのデータセットでテストされたコアパイプラインの評価による予備的な結果から、PlayerTVはチームやプレーヤを正確かつ効率的に識別でき、インタラクティブなグラフィカルユーザインタフェース(GUI)は、この機能を合理化するためにラップするユーザフレンドリなアプリケーションとして機能することを示している。
In the rapidly evolving field of sports analytics, the automation of targeted video processing is a pivotal advancement. We propose PlayerTV, an innovative framework which harnesses state-of-the-art AI technologies for automatic player tracking and identification in soccer videos. By integrating object detection and tracking, Optical Character Recognition (OCR), and color analysis, PlayerTV facilitates the generation of player-specific highlight clips from extensive game footage, significantly reducing the manual labor traditionally associated with such tasks. Preliminary results from the evaluation of our core pipeline, tested on a dataset from the Norwegian Eliteserien league, indicate that PlayerTV can accurately and efficiently identify teams and players, and our interactive Graphical User Interface (GUI) serves as a user-friendly application wrapping this functionality for streamlined use. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# 脳コネクトームネットワークをモデル化する: Solvは双曲幾何学に匹敵する存在です!
Modelling brain connectomes networks: Solv is a worthy competitor to hyperbolic geometry! ( http://arxiv.org/abs/2407.16077v1 ) ライセンス: Link先を確認 | Dorota Celińska-Kopczyńska, Eryk Kopczyński, | (参考訳) 認知過程の分析と理解には、コネクトーム(脳内の神経接続をマッピングする親密な複雑なネットワーク)に適した埋め込みを見つけることが不可欠である。
近年の研究では、種、特にヒトのコネクトームのモデリングにおいて、ユークリッドの埋め込みに勝る2次元の双曲型埋め込みが発見されている。
しかし、これらの研究には限界があり、ユークリッド、双曲、球面以外の幾何学は考慮されなかった。
ウィリアム・サーストン(William Thurston)は、脳内のニューロンのネットワークがソルヴ幾何学でうまく表現できることを示唆し、21のコネクトームネットワーク(8種)に対する埋め込みの適性について研究した。
この目的のために、Euclidean、Spherical、Hyperbolic、Solv、Nil、および製品ジオメトリにコネクトームを埋め込むことができるSimulated Annealingに基づく埋め込みアルゴリズムを提案する。
我々のアルゴリズムは、双曲型の場合でさえ、最先端技術よりも優れた埋め込みを見つける傾向にある。
以上の結果から,3次元双曲型埋め込みは多くの場合,最良の結果をもたらすが,Solv埋め込みは合理的に機能することが示唆された。
Finding suitable embeddings for connectomes (spatially embedded complex networks that map neural connections in the brain) is crucial for analyzing and understanding cognitive processes. Recent studies have found two-dimensional hyperbolic embeddings superior to Euclidean embeddings in modeling connectomes across species, especially human connectomes. However, those studies had limitations: geometries other than Euclidean, hyperbolic, or spherical were not considered. Following William Thurston's suggestion that the networks of neurons in the brain could be successfully represented in Solv geometry, we study the goodness-of-fit of the embeddings for 21 connectome networks (8 species). To this end, we suggest an embedding algorithm based on Simulating Annealing that allows us to embed connectomes to Euclidean, Spherical, Hyperbolic, Solv, Nil, and product geometries. Our algorithm tends to find better embeddings than the state-of-the-art, even in the hyperbolic case. Our findings suggest that while three-dimensional hyperbolic embeddings yield the best results in many cases, Solv embeddings perform reasonably well. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# 自動運転車研究所が自然排ガスを操る原理を発見
Self-driving lab discovers principles for steering spontaneous emission ( http://arxiv.org/abs/2407.16083v1 ) ライセンス: Link先を確認 | Saaketh Desai, Sadhvikas Addamane, Jeffery Y. Tsao, Igal Brener, Remi Dingreville, Prasad P. Iyer, | (参考訳) 超高速ナノフォトニクスにおける解釈可能な科学的発見を加速する自律的な実験プラットフォームを開発した。
自然発光の制御は、照明、熱放射工学、リモートセンシングにおけるクリーンエネルギーの解決に不可欠である。
時空間制御のための埋め込み源を持つ再構成可能な半導体準曲面の可能性にもかかわらず、任意の遠距離制御を達成することは依然として困難である。
ここでは,この課題に対処するために,発光中表面から遠方界放射プロファイルを予測するための支配方程式を発見することで,自動運転ラボ(SDL)プラットフォームを提案する。
局所屈折率の空間勾配(グレーティング様)と曲率(レンズ様)の両方が自然放出を操る重要な要因であることがわかった。
SDLは,(1)複雑な空間屈折率プロファイルを生成する変分オートエンコーダ,(2)実時間閉ループフィードバックで実験を誘導する能動的学習エージェント,(3)ニューラルネットワークに基づく方程式学習者による構造・プロパティ関係の解明を含む機械学習フレームワークを採用している。
SDLは最大放射指向性(最大77%)を72{\deg}視野で約300の実験で4倍に向上させた。
以上の結果から,正の格子とレンズの組み合わせは,すべての発光角に対して負のレンズや格子と同等に有効であることが判明した。
We developed an autonomous experimentation platform to accelerate interpretable scientific discovery in ultrafast nanophotonics, targeting a novel method to steer spontaneous emission from reconfigurable semiconductor metasurfaces. Controlling spontaneous emission is crucial for clean-energy solutions in illumination, thermal radiation engineering, and remote sensing. Despite the potential of reconfigurable semiconductor metasurfaces with embedded sources for spatiotemporal control, achieving arbitrary far-field control remains challenging. Here, we present a self-driving lab (SDL) platform that addresses this challenge by discovering the governing equations for predicting the far-field emission profile from light-emitting metasurfaces. We discover that both the spatial gradient (grating-like) and the curvature (lens-like) of the local refractive index are key factors in steering spontaneous emission. The SDL employs a machine-learning framework comprising: (1) a variational autoencoder for generating complex spatial refractive index profiles, (2) an active learning agent for guiding experiments with real-time closed-loop feedback, and (3) a neural network-based equation learner to uncover structure-property relationships. The SDL demonstrated a four-fold enhancement in peak emission directivity (up to 77%) over a 72{\deg} field of view within ~300 experiments. Our findings reveal that combinations of positive gratings and lenses are as effective as negative lenses and gratings for all emission angles, offering a novel strategy for controlling spontaneous emission beyond conventional Fourier optics. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# 音響解析と機械学習によるパーキンソン病の早期認識
Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning ( http://arxiv.org/abs/2407.16091v1 ) ライセンス: Link先を確認 | Niloofar Fadavi, Nazanin Fadavi, | (参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、音声を含む運動機能と非運動機能の両方に大きな影響を及ぼす進行性神経変性疾患である。
音声分析によるPDの早期かつ正確な認識は、タイムリーな介入を可能にすることで、患者の成果を大幅に向上させることができる。
本稿では,音声データを用いたPD認識手法の総合的なレビューを行い,機械学習とデータ駆動アプローチの進歩を強調した。
データ収集、クリーニング、変換、探索的データ分析を含むデータラングリングのプロセスについて議論し、機械学習アプリケーションのためのデータセットを作成する。
ロジスティック回帰、SVM、ニューラルネットワークなど、さまざまな分類アルゴリズムが検討されている。
各手法は精度、精度、訓練時間に基づいて評価される。
以上の結果から,特定の音響特性と高度な機械学習技術は,PDと健常者の間で効果的に区別できることが示唆された。
この研究は異なるモデルを比較し、PD認識の最も効果的なアプローチを特定し、将来の研究の方向性を示唆している。
Parkinson's Disease (PD) is a progressive neurodegenerative disorder that significantly impacts both motor and non-motor functions, including speech. Early and accurate recognition of PD through speech analysis can greatly enhance patient outcomes by enabling timely intervention. This paper provides a comprehensive review of methods for PD recognition using speech data, highlighting advances in machine learning and data-driven approaches. We discuss the process of data wrangling, including data collection, cleaning, transformation, and exploratory data analysis, to prepare the dataset for machine learning applications. Various classification algorithms are explored, including logistic regression, SVM, and neural networks, with and without feature selection. Each method is evaluated based on accuracy, precision, and training time. Our findings indicate that specific acoustic features and advanced machine-learning techniques can effectively differentiate between individuals with PD and healthy controls. The study concludes with a comparison of the different models, identifying the most effective approaches for PD recognition, and suggesting potential directions for future research. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# オフライン連成選択とグラフ検索による高速な最適連成構造生成
Faster Optimal Coalition Structure Generation via Offline Coalition Selection and Graph-Based Search ( http://arxiv.org/abs/2407.16092v1 ) ライセンス: Link先を確認 | Redha Taguelmimt, Samir Aknine, Djamila Boukredera, Narayan Changder, Tuomas Sandholm, | (参考訳) 合体形成はマルチエージェントシステムにおいて重要な機能である。
連立組織形成における重要な問題は連立組織の形成であり、社会福祉を最適化するために連立組織にエージェントを分割することである。
これは過去30年間、活発な研究の対象となっていた挑戦的な問題です。
本稿では,3つの革新的手法のハイブリッド化に基づく問題に対する新しいアルゴリズムSMARTを提案する。
これらの2つの手法は動的プログラミングに基づいており、評価のために選択された連立関係とアルゴリズムの性能の強力な関係を示す。
これらのアルゴリズムはオフラインフェーズを使用して、評価のための連立の選択を最適化する。
3つめは、解空間を探索するためにブランチとバウンドおよび整数分割グラフ探索を使用する。
我々の手法は、問題にアプローチする新しい方法と、その分野に新しいレベルの精度をもたらす。
いくつかの共通値分布に関する実験において、SMARTにおけるこれらの手法のハイブリダイゼーションは、全ての値分布に対して最適な解を生成する上で、最も高速な先行アルゴリズム(ODP-IP, BOSS)よりも高速であることを示す。
Coalition formation is a key capability in multi-agent systems. An important problem in coalition formation is coalition structure generation: partitioning agents into coalitions to optimize the social welfare. This is a challenging problem that has been the subject of active research for the past three decades. In this paper, we present a novel algorithm, SMART, for the problem based on a hybridization of three innovative techniques. Two of these techniques are based on dynamic programming, where we show a powerful connection between the coalitions selected for evaluation and the performance of the algorithms. These algorithms use offline phases to optimize the choice of coalitions to evaluate. The third one uses branch-and-bound and integer partition graph search to explore the solution space. Our techniques bring a new way of approaching the problem and a new level of precision to the field. In experiments over several common value distributions, we show that the hybridization of these techniques in SMART is faster than the fastest prior algorithms (ODP-IP, BOSS) in generating optimal solutions across all the value distributions. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# 物理的事前情報を用いた深層学習によるユニバーサルスペクトル伝達
Universal Spectral Transfer with Physical Prior-Informed Deep Generative Learning ( http://arxiv.org/abs/2407.16094v1 ) ライセンス: Link先を確認 | Yanmin Zhu, Loza F. Tadesse, | (参考訳) 分光法は、物理的および生物学的領域1-5にまたがる物質を特徴づける強力な分析技術である。
しかし、その基本的な原理は、調査された物理現象ごとに専門的な計測装置を必要とするため、関連するすべての研究において広く採用され、使用が制限される。
本研究では,単一モードのみのスペクトル入力を実験的に収集し,モダリティ間で関連するスペクトルシグネチャを生成する,新しい物理的事前インフォームド深部生成モデルであるSpectroGenを紹介する。
我々は、従来の物理状態や分子状態の表現ではなく、分布の数学的構成としてスペクトルデータの表現を再定義することで、これを実現できる。
試験した319の標準鉱物試料から,99%の相関関係と0.01の根平均2乗誤差が得られた。
ガウス,ローレンツ,ヴォイグト各分布のラマン,赤外,X線回折の移動特性をそれぞれ6-10。
しかし、この手法は、事前に分布で表現できる任意のスペクトル入力に対して全世界的に一般化可能であり、普遍的に適用できる。
我々の研究は分光学の応用分野に革命をもたらすと信じており、それは伝統的に、必要とされる洗練された、しばしば高価な機器へのアクセスによって、材料、医薬品、生物学的発見を加速させることによって制限されてきた。
Spectroscopy is a powerful analytical technique for characterizing matter across physical and biological realms1-5. However, its fundamental principle necessitates specialized instrumentation per physical phenomena probed, limiting broad adoption and use in all relevant research. In this study, we introduce SpectroGen, a novel physical prior-informed deep generative model for generating relevant spectral signatures across modalities using experimentally collected spectral input only from a single modality. We achieve this by reimagining the representation of spectral data as mathematical constructs of distributions instead of their traditional physical and molecular state representations. The results from 319 standard mineral samples tested demonstrate generating with 99% correlation and 0.01 root mean square error with superior resolution than experimentally acquired ground truth spectra. We showed transferring capability across Raman, Infrared, and X-ray Diffraction modalities with Gaussian, Lorentzian, and Voigt distribution priors respectively6-10. This approach however is globally generalizable for any spectral input that can be represented by a distribution prior, making it universally applicable. We believe our work revolutionizes the application sphere of spectroscopy, which has traditionally been limited by access to the required sophisticated and often expensive equipment towards accelerating material, pharmaceutical, and biological discoveries. | 翻訳日:2024-07-24 19:05:22 公開日:2024-07-22 |
# アラビア語を用いたソーシャルメディア利用者のパーソナリティ分析と感性分析への影響
Personality Analysis for Social Media Users using Arabic language and its Effect on Sentiment Analysis ( http://arxiv.org/abs/2407.06314v3 ) ライセンス: Link先を確認 | Mokhaiber Dandash, Masoud Asadpour, | (参考訳) ソーシャルメディアはますますパーソナライズされつつあり、個人が自分の信念、関心、習慣、活動を明らかにする。
本研究は、Twitter上でのアラビア語の使用と性格特性と感情分析への影響の相関について検討した。
本研究では、プロフィール活動から抽出した情報と、ツイートの内容に基づいて、ユーザの性格特性を示す。
分析には言語的特徴,プロファイル統計(性別,年齢,生物など),エモティコンなどの追加的特徴が取り入れられた。
パーソナリティデータを取得するために、アラビア語で16人格テストを受けたユーザのタイムラインとプロフィールを16人格.comでクロールした。
われわれのデータセットである"AraPers"は、Twitterで自分の性格をシェアした3,250人のユーザーで構成された。
さまざまな機械学習手法を実装し,人格の特徴を明らかにするために,この目的のための専用モデルを開発し,74.86%の正確度をBERTで達成し,このデータセットの分析により,言語的特徴,プロファイルの特徴,派生モデルを用いて人格の特徴を区別できることが判明した。
さらに,人格がソーシャルメディアの感情に影響を及ぼすことが明らかとなった。
本研究は、ソーシャルメディア上での人間行動と、政治談話分析や世論追跡といった現実の応用における人格的特徴との関係について、強固な理解を深めるための継続的な取り組みに寄与する。
Social media is heading towards more and more personalization, where individuals reveal their beliefs, interests, habits, and activities, simply offering glimpses into their personality traits. This study, explores the correlation between the use of Arabic language on twitter, personality traits and its impact on sentiment analysis. We indicated the personality traits of users based on the information extracted from their profile activities, and the content of their tweets. Our analysis incorporated linguistic features, profile statistics (including gender, age, bio, etc.), as well as additional features like emoticons. To obtain personality data, we crawled the timelines and profiles of users who took the 16personalities test in Arabic on 16personalities.com. Our dataset, "AraPers", comprised 3,250 users who shared their personality results on twitter. We implemented various machine learning techniques, to reveal personality traits and developed a dedicated model for this purpose, achieving a 74.86% accuracy rate with BERT, analysis of this dataset proved that linguistic features, profile features and derived model can be used to differentiate between different personality traits. Furthermore, our findings demonstrated that personality affect sentiment in social media. This research contributes to the ongoing efforts in developing robust understanding of the relation between human behaviour on social media and personality features for real-world applications, such as political discourse analysis, and public opinion tracking. | 翻訳日:2024-07-24 12:19:26 公開日:2024-07-22 |
# LiNR: LinkedInのGPU上でのモデルベースのニューラル検索
LiNR: Model Based Neural Retrieval on GPUs at LinkedIn ( http://arxiv.org/abs/2407.13218v2 ) ライセンス: Link先を確認 | Fedor Borisyuk, Qingquan Song, Mingzhou Zhou, Ganesh Parameswaran, Madhu Arun, Siva Popuri, Tugrul Bingol, Zhuotao Pei, Kuang-Hsuan Lee, Lu Zheng, Qizhan Shao, Ali Naqvi, Sen Zhou, Aman Gupta, | (参考訳) 本稿では,LinkedInの大規模GPUベース検索システムであるLiNRを紹介する。
LiNRはGPUモデルの10億ドル規模のインデックスをサポートする。
TensorFlowとPyTorchを実運用規模で使用して、スケーラブルで差別化可能な検索インデックスを作成する上での私たちの経験と課題について論じる。
LiNRでは、アイテムとモデルウェイトの両方がモデルバイナリに統合されます。
モデルトレーニングの一形態としてインデックス構築を見ていくことで,大規模なインデックスをスケールし,フルスキャンと効率的なフィルタリングを取り入れたシステムについて述べる。
重要な焦点は、徹底的なGPUサーチで属性ベースの事前フィルタリングを可能にすることであり、システム品質を低下させるKNNサーチにおけるポストフィルタの一般的な課題に対処する。
さらに、検索におけるコールドスタート問題に対処するためのマルチ埋め込み検索アルゴリズムと戦略を提供する。
量子化によるより大きな指標支援の進歩についても論じる。
我々は、LiNRが業界初のLive-updated model-based search indexの1つであると考えている。
LinkedIn Feedのネットワーク外投稿レコメンデーションに適用されると、LiNRはプロのデイリーアクティブユーザーを3%増加させた。
我々はLiNRを、検索とランキングを単一のGPUモデルに統合し、複雑なインフラストラクチャを単純化し、勾配勾配を通した変更可能なインフラストラクチャ全体のエンドツーエンドの最適化を可能にするためのステップとして考えています。
This paper introduces LiNR, LinkedIn's large-scale, GPU-based retrieval system. LiNR supports a billion-sized index on GPU models. We discuss our experiences and challenges in creating scalable, differentiable search indexes using TensorFlow and PyTorch at production scale. In LiNR, both items and model weights are integrated into the model binary. Viewing index construction as a form of model training, we describe scaling our system for large indexes, incorporating full scans and efficient filtering. A key focus is on enabling attribute-based pre-filtering for exhaustive GPU searches, addressing the common challenge of post-filtering in KNN searches that often reduces system quality. We further provide multi-embedding retrieval algorithms and strategies for tackling cold start issues in retrieval. Our advancements in supporting larger indexes through quantization are also discussed. We believe LiNR represents one of the industry's first Live-updated model-based retrieval indexes. Applied to out-of-network post recommendations on LinkedIn Feed, LiNR has contributed to a 3% relative increase in professional daily active users. We envisage LiNR as a step towards integrating retrieval and ranking into a single GPU model, simplifying complex infrastructures and enabling end-to-end optimization of the entire differentiable infrastructure through gradient descent. | 翻訳日:2024-07-24 12:19:26 公開日:2024-07-22 |
# 公共交通のための分散型デジタルトークンアーキテクチャ
A Decentralised Digital Token Architecture for Public Transport ( http://arxiv.org/abs/2012.01382v3 ) ライセンス: Link先を確認 | Oscar King, Geoffrey Goodell, | (参考訳) デジタル化はユーザにとって有益なものと見なされることが多い。
伝統的に、人々はサービスに物理的に識別したり、現金でチケットを支払ったり、図書館に行って本にアクセスする必要があった。
このような動作はアナログの動作と機能的に同一に見えるかもしれないが、デジタルの場合、ユーザの動作が自動的に記録される。
ユーザのインタラクションの記録が問題となるのは、情報が収集されると、それが関心を持つ人のコントロール外になるからだ。
この問題は、上記のサービスを支える認証機構の集中化によってのみ悪化し、さらに多くのデータの集約と分析が可能になる。
本研究の目的は,プライバシ向上型デジタルトークン管理サービスの公共交通機関への適用の可能性を確立することである。
概念実証実装が開発され、Goodell と Aste が提案した設計に基づいている。
この実装は公共交通機関のユースケースに最適化された。
その性能は、技術的課題をよりよく理解し、本番環境でのシステムの技術的実現可能性を評価するために、ローカル環境でテストされる。
その結果、毎秒1~5回の負荷に対して、概念実証は他の非接触型決済システムと互換性があり、最大中央値応答時間は2秒未満であることが判明した。
ハードウェアのボトルネックのため、テスト環境での信頼性の高いスループットは毎秒5リクエストに制限されました。
デモされたスループットとレイテンシは、システムが現在使用されているソリューションと競合できることを示している。
しかし、プロダクションで経験したような環境でのパフォーマンス特性を示すためには、さらなる作業が必要である。
Digitisation is often viewed as beneficial to a user. Whereas traditionally, people would physically have to identify to a service, pay for a ticket in cash, or go into a library to access a book, people can now achieve all of this through a click of a button. Such actions may seem functionally identical to their analogue counterparts, but in the digital case, a user's actions are automatically recorded. The recording of user's interactions presents a problem because once the information is collected, it is outside of the control of the person whom it concerns. This issue is only exacerbated by the centralisation of the authentication mechanisms underpinning the aforementioned services, permitting the aggregation and analysis of even more data. This work aims to motivate the need and establish the feasibility of the application of a privacy-enhancing digital token management service to public transit. A proof-of-concept implementation is developed, building upon a design proposed by Goodell and Aste. This implementation was optimised for the public transport use case. Its performance is tested in a local environment to better understand the technical challenges and assess the technical feasibility of the system in a production setting. It was observed that for loads between one and five requests per second the proof-of-concept performs comparably to other contactless payment systems, with a maximum median response time less than two seconds. Due to hardware bottlenecks, reliable throughput in our test environment was limited to five requests per second. The demonstrated throughput and latency indicate that the system can feasibly compete with solutions currently in use. Yet, further work is needed to demonstrate their performance characteristics in an environment similar to that experienced in production. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# 疎度正規化によるスパース実行行動による強化学習
Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization ( http://arxiv.org/abs/2105.08666v4 ) ライセンス: Link先を確認 | Jing-Cheng Pang, Tian Xu, Shengyi Jiang, Yu-Ren Liu, Yang Yu, | (参考訳) 強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
しかし、古典的なRLメソッドは通常、そのような疎実行アクションによって引き起こされる課題を見落としている。
それらは、問題の定式化と効率的なアルゴリズムの開発の両方において、全てのアクションを無制限に行うことができるという仮定の下で機能する。
RLにおける限られた動作実行の問題に対処するため,本論文はまず,動作空間内の特定の動作を限られた時間だけしか実行できないスパース動作マルコフ決定プロセス(SA-MDP)として問題を定式化する。
そこで本研究では,各アクションを個別に順応的に処理するポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
まず、ASREは制約されたアクションサンプリングによってアクションのスパーシリティを評価する。
これに続いて、ASREは、行動分布正規化によるポリシー学習に疎性評価を組み込む。
我々は、ASREの正規化最適値関数への収束を検証する理論的同定を提供する。
古典的なRLアルゴリズムがポリシーを効率的に訓練するのに苦労するスパース実行アクションによるタスクの実験では、ASREはアクションサンプリングを効果的に制限し、ベースラインを上回ります。
さらに,ASREは一般にアタリゲームの性能を向上し,その適用性を示している。
Reinforcement learning (RL) has demonstrated impressive performance in decision-making tasks like embodied control, autonomous driving and financial trading. In many decision-making tasks, the agents often encounter the problem of executing actions under limited budgets. However, classic RL methods typically overlook the challenges posed by such sparse-executing actions. They operate under the assumption that all actions can be taken for a unlimited number of times, both in the formulation of the problem and in the development of effective algorithms. To tackle the issue of limited action execution in RL, this paper first formalizes the problem as a Sparse Action Markov Decision Process (SA-MDP), in which specific actions in the action space can only be executed for a limited time. Then, we propose a policy optimization algorithm, Action Sparsity REgularization (ASRE), which adaptively handles each action with a distinct preference. ASRE operates through two steps: First, ASRE evaluates action sparsity by constrained action sampling. Following this, ASRE incorporates the sparsity evaluation into policy learning by way of an action distribution regularization. We provide theoretical identification that validates the convergence of ASRE to a regularized optimal value function. Experiments on tasks with known sparse-executing actions, where classical RL algorithms struggle to train policy efficiently, ASRE effectively constrains the action sampling and outperforms baselines. Moreover, we present that ASRE can generally improve the performance in Atari games, demonstrating its broad applicability. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# 生成分子設計モデルの多目的潜在空間最適化
Multi-Objective Latent Space Optimization of Generative Molecular Design Models ( http://arxiv.org/abs/2203.00526v3 ) ライセンス: Link先を確認 | A N M Nafiz Abeer, Nathan Urban, M Ryan Weil, Francis J. Alexander, Byung-Jun Yoon, | (参考訳) 可変オートエンコーダ(VAEs)のような生成モデルに基づく分子設計は、高次元分子空間を探索して所望の特性を持つ分子を同定する効率性から、近年人気が高まっている。
初期モデルの有効性はトレーニングデータに強く依存するが、改良された特性を持つ新規分子を提案するモデルのサンプリング効率は、潜在空間最適化によってさらに向上することができる。
本稿では、生成分子設計(GMD)の性能を大幅に向上させる多目的潜在空間最適化(LSO)手法を提案する。
提案手法では, トレーニングデータの各分子の重み付けがPareto効率によって決定される反復重み付け再学習手法を採用する。
複数分子特性を共同最適化するための多目的GMD LSO法により, GMDの性能を著しく向上させることができることを示す。
Molecular design based on generative models, such as variational autoencoders (VAEs), has become increasingly popular in recent years due to its efficiency for exploring high-dimensional molecular space to identify molecules with desired properties. While the efficacy of the initial model strongly depends on the training data, the sampling efficiency of the model for suggesting novel molecules with enhanced properties can be further enhanced via latent space optimization. In this paper, we propose a multi-objective latent space optimization (LSO) method that can significantly enhance the performance of generative molecular design (GMD). The proposed method adopts an iterative weighted retraining approach, where the respective weights of the molecules in the training data are determined by their Pareto efficiency. We demonstrate that our multi-objective GMD LSO method can significantly improve the performance of GMD for jointly optimizing multiple molecular properties. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# EAG:完全多言語ニューラルネットワーク翻訳のための多言語対応コーパスの抽出と生成
EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation ( http://arxiv.org/abs/2203.02180v2 ) ライセンス: Link先を確認 | Yulin Xu, Zhen Yang, Fandong Meng, JieZhou, | (参考訳) 完全多言語ニューラルネットワーク翻訳(C-MNMT)は,多言語対応コーパスを構築することで従来のMNMTよりも優れた性能を実現している。
しかし、異なる言語対の全く同じ文は少ないため、多方向整列コーパスのパワーはそのスケールによって制限される。
この問題に対処するため,両言語データから大規模かつ高品質な多方向コーパスを構築するための2段階のアプローチである「抽出と生成」を提案する。
具体的には、まず、異なる言語対と非常に類似したソースまたはターゲット文とをペアにすることで、候補に整列した例を抽出し、それから、よく訓練された生成モデルを用いて候補から最終的な整列した例を生成する。
この2段階のパイプラインにより、EAGは、多様性が元のバイリンガルコーパスとほぼ同一である大規模で多方向のコーパスを構築することができる。
WMT-5とOPUS-100の2つの公開データセットの実験により、提案手法は強いベースラインよりも大幅に改善され、+1.1と+1.4のBLEUポイントは2つのデータセットでそれぞれ改善された。
Complete Multi-lingual Neural Machine Translation (C-MNMT) achieves superior performance against the conventional MNMT by constructing multi-way aligned corpus, i.e., aligning bilingual training examples from different language pairs when either their source or target sides are identical. However, since exactly identical sentences from different language pairs are scarce, the power of the multi-way aligned corpus is limited by its scale. To handle this problem, this paper proposes "Extract and Generate" (EAG), a two-step approach to construct large-scale and high-quality multi-way aligned corpus from bilingual data. Specifically, we first extract candidate aligned examples by pairing the bilingual examples from different language pairs with highly similar source or target sentences; and then generate the final aligned examples from the candidates with a well-trained generation model. With this two-step pipeline, EAG can construct a large-scale and multi-way aligned corpus whose diversity is almost identical to the original bilingual corpus. Experiments on two publicly available datasets i.e., WMT-5 and OPUS-100, show that the proposed method achieves significant improvements over strong baselines, with +1.1 and +1.4 BLEU points improvements on the two datasets respectively. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# 近似量子フーリエ変換のTカウント最適化
T-count optimization of approximate quantum Fourier transform ( http://arxiv.org/abs/2203.07739v5 ) ライセンス: Link先を確認 | Byeongyong Park, Doyeol Ahn, | (参考訳) 量子フーリエ変換(QFT)は、多くの量子コンピューティングアプリケーションで使用されるユビキタスな量子演算である。
QFT回路を構成する上での大きな障害は、多数の基本ゲートが必要であることである。
基本ゲートの中では、Tゲートが耐障害性の実装コストを支配している。
現在、誤差 O(\varepsilon) に近似した n ビット QFT 回路を構築するのに必要な最小の T カウントは ~8nlog_2(n/\varepsilon) である。
さらに、近似QFT回路におけるTゲートの深さは ~2nlog_2(n/\varepsilon) である。
この近似QFT回路はトフォリゲートと量子加算器を用いて構築された。
本研究では,誤差O(\varepsilon)に近似した新しいn-qubit QFT回路を提案する。
近似QFT回路はT数 ~4nlog_2(n/\varepsilon) とT深度 ~nlog_2(n/\varepsilon) を示す。
前回の研究で報告された近似QFT回路のT数の半分を占めるトフォリゲートは, 建設において不要である。
近似QFT回路におけるT-deepthの先行項を支配する量子加算器は、T-deepthを減少させるために並列に配置される。
The quantum Fourier transform (QFT) is a ubiquitous quantum operation that is used in numerous quantum computing applications. The major obstacle to constructing a QFT circuit is that numerous elementary gates are required. Among the elementary gates, T gates dominate the cost of fault-tolerant implementation. Currently, the smallest-known T-count required to construct an n-qubit QFT circuit approximated to error O(\varepsilon) is ~8nlog_2(n/\varepsilon). Moreover, the depth of T gates (T-depth) in the approximate QFT circuit is ~2nlog_2(n/\varepsilon). This approximate QFT circuit was constructed using Toffoli gates and quantum adders. In this study, we present a new n-qubit QFT circuit approximated to error O(\varepsilon). Our approximate QFT circuit shows a T-count of ~4nlog_2(n/\varepsilon) and a T-depth of ~nlog_2(n/\varepsilon). Toffoli gates, which account for half of the T-count in the approximate QFT circuit reported in the previous study, are unnecessary in our construction. Quantum adders, which dominate the leading order term of T-depth in our approximate QFT circuit, are arranged in parallel to reduce T-depth. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# 偽ニュースをシェアする人は? ソーシャルメディアユーザーのポスト履歴から洞察を得た
Who Shares Fake News? Uncovering Insights from Social Media Users' Post Histories ( http://arxiv.org/abs/2203.10560v3 ) ライセンス: Link先を確認 | Verena Schoenmueller, Simon J. Blanchard, Gita V. Johar, | (参考訳) ソーシャルメディア利用者の投稿履歴は、偽ニュース共有の研究にあまり使われていないが貴重な資料である。
テキストによる手がかりを以前の投稿から抽出し、ランダムなソーシャルメディアユーザー(例えば、類似の社会デデマグラフィー、政治ニュース共有者、ファクトチェック共有者)と対比することにより、研究者は偽ニュース共有者を識別し、偽ニュースを共有する可能性が最も高いものを予測し、介入を構築するための有望な構成物を特定することができる。
私たちの研究はこれらの線に沿った研究を含んでいる。
研究1では、偽ニュース共有者の言語パターンを探求し、怒りやパワー関連語の使用率の向上といった要素を強調した。
研究2では、予測モデルにテキストキューを追加することにより、偽ニュース共有者の予測精度が向上することを示した。
研究3では、特徴と状況的怒りの対照的な役割を探求し、特徴的怒りが真と偽の両方のニュースを共有することの正当性に結びついていることを示す。
調査4では,利用者の力覚に反応する広告コピーの作成方法を探る前に,Twitterアカウントを調査で認証する方法を導入し,ファクトチェックツールの採用を促した。
我々は、マーケターや誤情報研究者に新しい研究手法の活用を奨励したい。
We propose that social-media users' own post histories are an underused yet valuable resource for studying fake-news sharing. By extracting textual cues from their prior posts, and contrasting their prevalence against random social-media users and others (e.g., those with similar socio-demographics, political news-sharers, and fact-check sharers), researchers can identify cues that distinguish fake-news sharers, predict those most likely to share fake news, and identify promising constructs to build interventions. Our research includes studies along these lines. In Study 1, we explore the distinctive language patterns of fake-news sharers, highlighting elements such as their higher use of anger and power-related words. In Study 2, we show that adding textual cues into predictive models enhances their accuracy in predicting fake-news sharers. In Study 3, we explore the contrasting role of trait and situational anger, and show trait anger is associated with a greater propensity to share both true and fake news. In Study 4, we introduce a way to authenticate Twitter accounts in surveys, before using it to explore how crafting an ad copy that resonates with users' sense of power encourages the adoption of fact-checking tools. We hope to encourage the use of novel research methods for marketers and misinformation researchers. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# 確率帯域に対する重機リスクに対する安全性を考慮した簡易かつ最適政策設計
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits ( http://arxiv.org/abs/2206.02969v6 ) ライセンス: Link先を確認 | David Simchi-Levi, Zeyu Zheng, Feng Zhu, | (参考訳) 本稿では, 確率的マルチアームバンディット問題について検討し, 期待された後悔に対する最悪のケース最適性と, 後悔分布に対する軽微なリスクの両方を享受する新しいポリシーを考案する。
特に 政策デザインは
(i)$O(\sqrt{KT\ln T})$, andで予想される後悔に対する最悪のケース最適性を楽しむ
(ii)$\exp(-\Omega(x/\sqrt{KT})$で上限値の任意の$x>0$よりも大きい後悔を引き起こす最悪の場合のテール確率を持つ。
提案した政策は, 標準信頼度に基づく政策と比較して, 時間軸の開始時にさらなる探索を行うことと, 終了に近づく際にさらなる搾取を行うこととの微妙なバランスを達成している。
また、ポリシー設計を強化して、$T$が未知の"any-time"設定をプライオリに適合させ、既知の$T$の"fixed-time"設定と同等に望ましいポリシパフォーマンスを証明します。
理論的知見を説明するため, 数値実験を行った。
経営的な見地からすると、新しい政策設計はより良い尾の分布をもたらし、特に祝いの政策よりも好まれることがわかった。
一 ボラティリティプロファイルを過小評価するリスクがあること。
(II)政策ハイパーパラメータのチューニングが課題である。
我々は,提案した政策設計を,期待された後悔と後悔分布に対する軽微なリスクの両面において最悪のケース最適性をもたらす確率線形バンディット設定に拡張することで結論付ける。
We study the stochastic multi-armed bandit problem and design new policies that enjoy both worst-case optimality for expected regret and light-tailed risk for regret distribution. Specifically, our policy design (i) enjoys the worst-case optimality for the expected regret at order $O(\sqrt{KT\ln T})$ and (ii) has the worst-case tail probability of incurring a regret larger than any $x>0$ being upper bounded by $\exp(-\Omega(x/\sqrt{KT}))$, a rate that we prove to be best achievable with respect to $T$ for all worst-case optimal policies. Our proposed policy achieves a delicate balance between doing more exploration at the beginning of the time horizon and doing more exploitation when approaching the end, compared to standard confidence-bound-based policies. We also enhance the policy design to accommodate the "any-time" setting where $T$ is unknown a priori, and prove equivalently desired policy performances as compared to the "fixed-time" setting with known $T$. Numerical experiments are conducted to illustrate the theoretical findings. We find that from a managerial perspective, our new policy design yields better tail distributions and is preferable than celebrated policies especially when (i) there is a risk of under-estimating the volatility profile, or (ii) there is a challenge of tuning policy hyper-parameters. We conclude by extending our proposed policy design to the stochastic linear bandit setting that leads to both worst-case optimality in terms of expected regret and light-tailed risk on the regret distribution. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# 最適化による非バス一般化境界の学習
Learning Non-Vacuous Generalization Bounds from Optimization ( http://arxiv.org/abs/2206.04359v2 ) ライセンス: Link先を確認 | Chengli Tan, Jiangshe Zhang, Junmin Liu, | (参考訳) ディープラーニングコミュニティにおける基本的な課題の1つは、ディープニューラルネットワークがいかにして、目に見えないデータに一般化するかを理論的に理解することである。
しかし、現在のアプローチはしばしば、真の一般化誤差を知らせるにはゆるすぎるか、圧縮されたネットにのみ有効であるような一般化境界をもたらす。
本研究では,最適化の観点から,単純だが空でない一般化を提案する。
我々は、確率勾配アルゴリズムによってアクセスされる仮説セットが本質的にフラクタル的であり、したがってアルゴリズム依存のラデマッハ複雑性よりも厳密な境界を導き出すことができることを活用して、この目標を達成する。
主な議論は、分数的ブラウン運動によって駆動される連続時間確率微分方程式を通して離散時間再帰過程をモデル化することにある。
数値解析により、大規模なデータセット(例: ImageNet-1K)でトレーニングされた場合でも、ResNetやVision Transformerのような現代のニューラルネットワークに対して、我々のアプローチが妥当な一般化保証が得られることが示された。
One of the fundamental challenges in the deep learning community is to theoretically understand how well a deep neural network generalizes to unseen data. However, current approaches often yield generalization bounds that are either too loose to be informative of the true generalization error or only valid to the compressed nets. In this study, we present a simple yet non-vacuous generalization bound from the optimization perspective. We achieve this goal by leveraging that the hypothesis set accessed by stochastic gradient algorithms is essentially fractal-like and thus can derive a tighter bound over the algorithm-dependent Rademacher complexity. The main argument rests on modeling the discrete-time recursion process via a continuous-time stochastic differential equation driven by fractional Brownian motion. Numerical studies demonstrate that our approach is able to yield plausible generalization guarantees for modern neural networks such as ResNet and Vision Transformer, even when they are trained on a large-scale dataset (e.g. ImageNet-1K). | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-22 |
# 非線形シュロディンガー方程式の摂動理論
Perturbation theory for nonlinear Schrodinger equations ( http://arxiv.org/abs/2206.09826v2 ) ライセンス: Link先を確認 | Andrea Sacchetti, | (参考訳) グロス・ピタエフスキー非線形シュロディンガー方程式の非線形項を線形問題の孤立離散固有値の摂動として扱い、レイリー・シュロディンガー級数を得る。
このパワー系列は、非線形項の強度を表すパラメータがしきい値よりも絶対値が小さいときに収束することが証明され、非線形シュロディンガー方程式の定常解を与える。
Treating the nonlinear term of the Gross-Pitaevskii nonlinear Schrodinger equation as a perturbation of an isolated discrete eigenvalue of the linear problem one obtains a Rayleigh-Schrodinger power series. This power series is proved to be convergent when the parameter representing the intensity of the nonlinear term is less in absolute value than a threshold value, and it gives a stationary solution to the nonlinear Schrodinger equation. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-22 |
# ブラックボックスから会話へ:会話エージェントにXAIを組み込む
From Black Boxes to Conversations: Incorporating XAI in a Conversational Agent ( http://arxiv.org/abs/2209.02552v3 ) ライセンス: Link先を確認 | Van Bach Nguyen, Jörg Schlötterer, Christin Seifert, | (参考訳) 説明可能なAI(XAI)の目標は、深層ニューラルネットワークのようなブラックボックスモデルの推論プロセスに関する洞察を提供する方法を設計し、それらを人間に説明することである。
社会科学の研究は、このような説明は人間と人間の説明と同様、会話的であるべきだと述べている。
本稿では、自然言語理解・生成コンポーネントからなるエージェントの標準設計を用いて、XAIを対話エージェントに組み込む方法を示す。
我々は、品質管理されたパラフレーズによって拡張されたXAI質問銀行を構築し、ユーザの情報ニーズを理解する。
さらに,これらの質問に答える情報を提供する適切な説明方法として文献を体系的に調査し,提案の包括的なリストを提示する。
私たちの仕事は、説明エージェントによる機械学習モデルに関する真に自然な会話への第一歩です。
XAI質問の包括的リストとそれに対応する説明手法は、ユーザの要求に対処するために必要な情報を提供する他の研究者を支援することができる。
今後の作業を容易にするため、ソースコードとデータを公開しています。
The goal of Explainable AI (XAI) is to design methods to provide insights into the reasoning process of black-box models, such as deep neural networks, in order to explain them to humans. Social science research states that such explanations should be conversational, similar to human-to-human explanations. In this work, we show how to incorporate XAI in a conversational agent, using a standard design for the agent comprising natural language understanding and generation components. We build upon an XAI question bank, which we extend by quality-controlled paraphrases, to understand the user's information needs. We further systematically survey the literature for suitable explanation methods that provide the information to answer those questions, and present a comprehensive list of suggestions. Our work is the first step towards truly natural conversations about machine learning models with an explanation agent. The comprehensive list of XAI questions and the corresponding explanation methods may support other researchers in providing the necessary information to address users' demands. To facilitate future work, we release our source code and data. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-22 |
# S3E:コラボレーションSLAMのための大規模マルチモーダルデータセット
S3E: A Large-scale Multimodal Dataset for Collaborative SLAM ( http://arxiv.org/abs/2210.13723v5 ) ライセンス: Link先を確認 | Dapeng Feng, Yuhua Qi, Shipeng Zhong, Zhiqiang Chen, Qiming Chen, Hongbo Chen, Jin Wu, Jun Ma, | (参考訳) 複雑なタスクをまとめて実行する協調ロボットシステムに対する需要が急増し、研究コミュニティは協調的な状況下での同時局所化とマッピング(SLAM)の進展に重点を置いている。
このような関心にもかかわらず、コラボレーティブSLAM(Collaborative SLAM)の一般化能力がマルチエージェントミッションの実現に不可欠であるような制約された視点のシナリオでは、既存のデータセットのスケーラビリティと多様性は依然として限定的である。
このギャップに対処するため,拡張型マルチモーダルデータセットであるS3Eを導入する。
S3Eは4つの異なる共同軌道パラダイムを横断する無人地上車両群によって捕獲され、13の屋外および5つの屋内シーケンスを含んでいる。
これらのシーケンスは、360度LiDAR点雲、高分解能ステレオ画像、高周波慣性測定ユニット(IMU)、UWB(Ultra-wideband)の相対観測を含む、細心の同期と空間的に校正されたデータストリームを特徴としている。
我々のデータセットは、スケール、シーンの多様性、データの複雑度に関する過去の取り組みを上回るだけでなく、協調的なSLAM方法論と個別のSLAM方法論の徹底的な分析とベンチマークも提供しています。
データセットと最新の情報にアクセスするには、https://pengyu-team.github.io/S3Eのリポジトリを参照してください。
The burgeoning demand for collaborative robotic systems to execute complex tasks collectively has intensified the research community's focus on advancing simultaneous localization and mapping (SLAM) in a cooperative context. Despite this interest, the scalability and diversity of existing datasets for collaborative trajectories remain limited, especially in scenarios with constrained perspectives where the generalization capabilities of Collaborative SLAM (C-SLAM) are critical for the feasibility of multi-agent missions. Addressing this gap, we introduce S3E, an expansive multimodal dataset. Captured by a fleet of unmanned ground vehicles traversing four distinct collaborative trajectory paradigms, S3E encompasses 13 outdoor and 5 indoor sequences. These sequences feature meticulously synchronized and spatially calibrated data streams, including 360-degree LiDAR point cloud, high-resolution stereo imagery, high-frequency inertial measurement units (IMU), and Ultra-wideband (UWB) relative observations. Our dataset not only surpasses previous efforts in scale, scene diversity, and data intricacy but also provides a thorough analysis and benchmarks for both collaborative and individual SLAM methodologies. For access to the dataset and the latest information, please visit our repository at https://pengyu-team.github.io/S3E. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-22 |
# 翻訳特徴の線形結合のためのオフ・ザ・グリッド予測とテスト
Off-the-grid prediction and testing for linear combination of translated features ( http://arxiv.org/abs/2212.01169v2 ) ライセンス: Link先を確認 | Cristina Butucea, Jean-François Delmas, Anne Dutfoy, Clément Hardy, | (参考訳) 付加的なガウス雑音過程で信号(離散あるいは連続)が観測されるモデルを考える。
信号は有限だが多くの翻訳された特徴の線形結合から発行される。
これらの機能は、その位置によって継続的にパラメータ化され、いくつかのスケールパラメータに依存する。
まず、ここではスケールパラメータが変化する可能性を考慮して、オフ・ザ・グリッド推定器の以前の予測結果を拡張する。
予測境界は類似しているが、これらの境界を達成するために、2つの連続する特徴点間の最小距離を改善する。
次に、2つの識別可能な信号間のテストリスクとミニマックス分離率の非漸近的な上限を与える。
特に,本試験は信号検出の枠組みを包含する。
我々は、線形係数の$\ell_2$-normとして表される最小エネルギー上の上限を推定し、ノイズのある信号の検知に成功した。
本稿では,古典的高次元回帰モデルの非線形拡張について考察する。
この枠組みでは,特徴の固定辞書に付随する高次元線形モデルにおいて,信号検出のための最小分離率の上限値と,最小分離率の上限値(対数係数まで)が一致していることが判明した。
また、線形係数が変化する可能性があるという仮定の下で、観測された信号の特徴が与えられた有限集合に属するかどうかを検証する手法も提案する。
実線上のガウス的特徴を持つスパイク・デコンボリューションモデルと、トーラス上の圧縮センシング文献でよく使用されるディリクレ核について、実験結果について述べる。
We consider a model where a signal (discrete or continuous) is observed with an additive Gaussian noise process. The signal is issued from a linear combination of a finite but increasing number of translated features. The features are continuously parameterized by their location and depend on some scale parameter. First, we extend previous prediction results for off-the-grid estimators by taking into account here that the scale parameter may vary. The prediction bounds are analogous, but we improve the minimal distance between two consecutive features locations in order to achieve these bounds. Next, we propose a goodness-of-fit test for the model and give non-asymptotic upper bounds of the testing risk and of the minimax separation rate between two distinguishable signals. In particular, our test encompasses the signal detection framework. We deduce upper bounds on the minimal energy,expressed as the $\ell_2$-norm of the linear coefficients, to successfully detect a signal in presence of noise. The general model considered in this paper is a non-linear extension of the classical high-dimensional regression model. It turns out that,in this framework, our upper bound on the minimax separation rate matches (up to a logarithmic factor) the lower bound on the minimax separation rate for signal detection in the high-dimensional linear model associated to a fixed dictionary of features. We also propose a procedure to test whether the features of the observed signal belong to a given finite collection under the assumption that the linear coefficients may vary, but have prescribed signs under the null hypothesis. A non-asymptotic upper bound on the testing risk is given.We illustrate our results on the spikes deconvolution model with Gaussian features on the real line and with the Dirichlet kernel, frequently used in the compressed sensing literature, on the torus. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-22 |
# COVID-19成層への潜伏シフトによるマルチモーダル説明可能性
Multimodal Explainability via Latent Shift applied to COVID-19 stratification ( http://arxiv.org/abs/2212.14084v2 ) ライセンス: Link先を確認 | Valerio Guarrasi, Lorenzo Tronchin, Domenico Albano, Eliodoro Faiella, Deborah Fazzini, Domiziana Santucci, Paolo Soda, | (参考訳) 私たちは、医療において人工知能が広く採用されているのを目撃しています。
しかし、この領域における深層学習の進歩のほとんどは、他のモダリティを無視して、単調なデータのみを考慮している。
診断、予後、治療決定を支援するために必要となる多モーダル解釈。
本研究は,表や画像データを用いてモダリティ再構成とサンプル分類を共同で学習するディープアーキテクチャを提案する。
決定に最も寄与する各モダリティの特徴を明らかにする反事実予測と、モダリティの重要性を示す定量的スコアとをシミュレートする潜在シフトを適用することにより、決定の説明を算出する。
我々は、重篤な結果のリスクのある患者の早期発見のためのマルチモーダルデータを含むAIforCOVIDデータセットを用いて、COVID-19パンデミックの文脈でのアプローチを検証する。
その結果,提案手法は分類性能を劣化させることなく意味のある説明を提供することがわかった。
We are witnessing a widespread adoption of artificial intelligence in healthcare. However, most of the advancements in deep learning in this area consider only unimodal data, neglecting other modalities. Their multimodal interpretation necessary for supporting diagnosis, prognosis and treatment decisions. In this work we present a deep architecture, which jointly learns modality reconstructions and sample classifications using tabular and imaging data. The explanation of the decision taken is computed by applying a latent shift that, simulates a counterfactual prediction revealing the features of each modality that contribute the most to the decision and a quantitative score indicating the modality importance. We validate our approach in the context of COVID-19 pandemic using the AIforCOVID dataset, which contains multimodal data for the early identification of patients at risk of severe outcome. The results show that the proposed method provides meaningful explanations without degrading the classification performance. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-22 |
# 適応グラフ畳み込みネットワークを用いた複数ラベル画像分類:単一領域から複数の領域へ
Multi-label Image Classification using Adaptive Graph Convolutional Networks: from a Single Domain to Multiple Domains ( http://arxiv.org/abs/2301.04494v5 ) ライセンス: Link先を確認 | Indel Pal Singh, Enjie Ghorbel, Oyebade Oyedotun, Djamila Aouada, | (参考訳) 本稿では,マルチラベル画像分類のための適応的なグラフベースアプローチを提案する。
グラフベースの手法は、ラベル相関をモデル化する能力から、多ラベル分類の分野で大きく活用されている。
具体的には、一つのドメインを考慮するだけでなく、複数のドメインを考慮する場合にも有効であることが証明されている。
しかし、使用グラフの位相はヒューリスティックに定義されているため、最適ではない。
さらに、連続的なグラフ畳み込みネットワーク(GCN)アグリゲーションは、特徴の類似性を損なう傾向がある。
これらの問題を克服するため、エンドツーエンドでグラフ接続を学習するためのアーキテクチャを導入している。
これは注意に基づくメカニズムと類似性保存戦略を統合することで実現される。
提案するフレームワークは,複数のドメインに拡張し,対戦型トレーニングスキームを用いて拡張する。
多くの実験が、よく知られた単一ドメインとマルチドメインのベンチマークで報告されている。
その結果,提案手法は平均精度 (mAP) とモデルサイズを,最先端技術と比較して比較して比較した結果を得た。
コードは公開されます。
This paper proposes an adaptive graph-based approach for multi-label image classification. Graph-based methods have been largely exploited in the field of multi-label classification, given their ability to model label correlations. Specifically, their effectiveness has been proven not only when considering a single domain but also when taking into account multiple domains. However, the topology of the used graph is not optimal as it is pre-defined heuristically. In addition, consecutive Graph Convolutional Network (GCN) aggregations tend to destroy the feature similarity. To overcome these issues, an architecture for learning the graph connectivity in an end-to-end fashion is introduced. This is done by integrating an attention-based mechanism and a similarity-preserving strategy. The proposed framework is then extended to multiple domains using an adversarial training scheme. Numerous experiments are reported on well-known single-domain and multi-domain benchmarks. The results demonstrate that our approach achieves competitive results in terms of mean Average Precision (mAP) and model size as compared to the state-of-the-art. The code will be made publicly available. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-22 |
# 分散分布比較のための分散エントロピー最適輸送
Decentralized Entropic Optimal Transport for Distributed Distribution Comparison ( http://arxiv.org/abs/2301.12065v2 ) ライセンス: Link先を確認 | Xiangfeng Wang, Hongteng Xu, Moyi Yang, | (参考訳) 分散分布比較は,分散エージェント間でデータを分散し,エージェント間で直接共有することができない分布間の距離を測定することを目的としている。
本研究では,この問題に対する通信効率とプライバシ保護のソリューションを理論的保証とともに提供する分散型エントロピー最適輸送(DEOT)手法を提案する。
特に,最小バッチランダム化ブロック座標降下法(MRBCD)を設計し,DET距離を2倍に最適化する。
二重変数は異なるエージェントに分散し、部分的エージェント間の限られた通信で局所的かつ反復的に更新される。
双対変数の勾配に関与するカーネル行列は、分散化されたカーネル近似法により推定される。
エントロピック・ワッサーシュタイン距離の計算に加えて、提案したMBBCDスキームとカーネル近似法がエントロピック・グロモフ・ワッサーシュタイン距離にも適用可能であることを示す。
我々は,本手法の通信複雑性を解析し,軽微な仮定の下で,収束誤差,推定カーネル,ストレージと通信プロトコル間のミスマッチに起因する近似誤差の理論的境界を提供する。
また,本手法の実装において,EOT距離の精度とプライバシー保護の強度のトレードオフについて検討する。
合成データと実世界の分散ドメイン適応タスクの実験により,本手法の有効性が示された。
Distributed distribution comparison aims to measure the distance between the distributions whose data are scattered across different agents in a distributed system and cannot even be shared directly among the agents. In this study, we propose a novel decentralized entropic optimal transport (DEOT) method, which provides a communication-efficient and privacy-preserving solution to this problem with theoretical guarantees. In particular, we design a mini-batch randomized block-coordinate descent (MRBCD) scheme to optimize the DEOT distance in its dual form. The dual variables are scattered across different agents and updated locally and iteratively with limited communications among partial agents. The kernel matrix involved in the gradients of the dual variables is estimated by a decentralized kernel approximation method, in which each agent only needs to approximate and store a sub-kernel matrix by one-shot communication and without sharing raw data. Besides computing entropic Wasserstein distance, we show that the proposed MRBCD scheme and kernel approximation method also apply to entropic Gromov-Wasserstein distance. We analyze our method's communication complexity and, under mild assumptions, provide a theoretical bound for the approximation error caused by the convergence error, the estimated kernel, and the mismatch between the storage and communication protocols. In addition, we discuss the trade-off between the precision of the EOT distance and the strength of privacy protection when implementing our method. Experiments on synthetic data and real-world distributed domain adaptation tasks demonstrate the effectiveness of our method. | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-22 |
# 適応平滑化による分類器の精度・ロバスト性トレードオフの改善
Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing ( http://arxiv.org/abs/2301.12554v5 ) ライセンス: Link先を確認 | Yatong Bai, Brendon G. Anderson, Aerin Kim, Somayeh Sojoudi, | (参考訳) 従来の研究では、敵対的な堅牢性に対して頑健な神経分類器を構築する方法が多数提案されていたが、それでも実践者は、受け入れがたいほど厳しい清潔な刑罰のために採用を拒んでいる。
本稿では,標準分類器とロバスト分類器の出力確率を混合することにより,この精度・ロバスト性トレードオフを著しく軽減する。
正誤例に対する頑健な基本分類器の信頼性差が,この改良の鍵となることを示す。
直観や実証的な証拠を提供するだけでなく、現実的な仮定の下で混合分類器の頑健さを理論的に証明する。
さらに、2つのベースモデルの混合を適応的に調整する混合ネットワークに、逆入力検出器を適応させることにより、ロバスト性を達成するための精度の低下を図る。
提案したフレキシブルな手法は「適応的平滑化(adaptive smoothing)」と呼ばれ、クリーンな精度、堅牢性、あるいは敵検出を改善する既存のあるいは将来の方法と連携して機能する。
実験的な評価では、AutoAttackやアダプティブアタックなど、強力な攻撃方法が検討されている。
CIFAR-100データセットでは,38.72%の$\ell_\infty$-AutoAttacked(\epsilon = 8/255$)の精度を維持しながら,85.21%のクリーン精度を実現している。
私たちのメソッドを実装したコードはhttps://github.com/Bai-YT/AdaptiveSmoothing.comで公開されている。
While prior research has proposed a plethora of methods that build neural classifiers robust against adversarial robustness, practitioners are still reluctant to adopt them due to their unacceptably severe clean accuracy penalties. This paper significantly alleviates this accuracy-robustness trade-off by mixing the output probabilities of a standard classifier and a robust classifier, where the standard network is optimized for clean accuracy and is not robust in general. We show that the robust base classifier's confidence difference for correct and incorrect examples is the key to this improvement. In addition to providing intuitions and empirical evidence, we theoretically certify the robustness of the mixed classifier under realistic assumptions. Furthermore, we adapt an adversarial input detector into a mixing network that adaptively adjusts the mixture of the two base models, further reducing the accuracy penalty of achieving robustness. The proposed flexible method, termed "adaptive smoothing", can work in conjunction with existing or even future methods that improve clean accuracy, robustness, or adversary detection. Our empirical evaluation considers strong attack methods, including AutoAttack and adaptive attack. On the CIFAR-100 dataset, our method achieves an 85.21% clean accuracy while maintaining a 38.72% $\ell_\infty$-AutoAttacked ($\epsilon = 8/255$) accuracy, becoming the second most robust method on the RobustBench CIFAR-100 benchmark as of submission, while improving the clean accuracy by ten percentage points compared with all listed models. The code that implements our method is available at https://github.com/Bai-YT/AdaptiveSmoothing. | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-22 |
# Einstein-Podolsky-Rosen-Bohm実験:離散データ駆動アプローチ
Einstein-Podolsky-Rosen-Bohm experiments: a discrete data driven approach ( http://arxiv.org/abs/2304.03962v4 ) ライセンス: Link先を確認 | Hans De Raedt, Mikhail I. Katsnelson, Manpreet S. Jattana, Vrinda Mehta, Madita Willsch, Dennis Willsch, Kristel Michielsen, Fengping Jin, | (参考訳) 実験データから数学的モデルへの一方通行橋の構築は、後者で使われる記号に意味を付加することによる論争にぶつかることを避けるためである。
特に、この観点を採用することで、アインシュタイン=ポドルスキー=ローゼン=ボームの実験結果の数学的モデルの構築と解釈に新たな視点がもたらされることが示される。
まず, アインシュタイン-ポドルスキー-ローゼン-ボーム実験により得られた4つの相関の値に制約を与えるベル型不等式を4つの異なる条件で証明する。
証明は ``model-free' であり、データの生成を想像する数学的モデルに言及しないという意味では '`model-free' である。
この制約は、相関の値を変更することなく、4つのデータセットでデータを再シャッフルすることで得られる4倍数にのみ依存する。
これらの新しい不等式は、四倍数の最大分数が 1 に等しい場合、よく知られたベル型不等式のモデルのないバージョンに還元される。
モデルフリーであるため、実験データによる後者の違反は、4つのデータセットの全てのデータが再シャッフルされて4倍になるわけではないことを意味する。
さらに、モデルのない不等式であるため、実験データによる後者の違反は、このデータを生成すると仮定される数学的モデルが適用されないことを意味する。
Einstein-Podolsky-Rosen-Bohm実験によって得られたデータから、これらのデータの主な特徴を記述する数学的モデルを仮定する代わりに構築する。
可算推論の数学的枠組みは再現可能でロバストなデータに適用され、量子論の概念を使わずに得られる。
(ここで詳述)
We take the point of view that building a one-way bridge from experimental data to mathematical models instead of the other way around avoids running into controversies resulting from attaching meaning to the symbols used in the latter. In particular, we show that adopting this view offers new perspectives for constructing mathematical models for and interpreting the results of Einstein-Podolsky-Rosen-Bohm experiments. We first prove new Bell-type inequalities constraining the values of the four correlations obtained by performing Einstein-Podolsky-Rosen-Bohm experiments under four different conditions. The proof is ``model-free'' in the sense that it does not refer to any mathematical model that one imagines to have produced the data. The constraints only depend on the number of quadruples obtained by reshuffling the data in the four data sets without changing the values of the correlations. These new inequalities reduce to model-free versions of the well-known Bell-type inequalities if the maximum fraction of quadruples is equal to one. Being model-free, a violation of the latter by experimental data implies that not all the data in the four data sets can be reshuffled to form quadruples. Furthermore, being model-free inequalities, a violation of the latter by experimental data only implies that any mathematical model assumed to produce this data does not apply. Starting from the data obtained by performing Einstein-Podolsky-Rosen-Bohm experiments, we construct instead of postulate mathematical models that describe the main features of these data. The mathematical framework of plausible reasoning is applied to reproducible and robust data, yielding without using any concept of quantum theory, the expression of the correlation for a system of two spin-1/2 objects in the singlet state. (truncated here) | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-22 |
# MLRegTest: 正規言語の機械学習のためのベンチマーク
MLRegTest: A Benchmark for the Machine Learning of Regular Languages ( http://arxiv.org/abs/2304.07687v3 ) ライセンス: Link先を確認 | Sam van der Poel, Dakotah Lambert, Kalina Kostyszyn, Tiantian Gao, Rahul Verma, Derek Andersen, Joanne Chau, Emily Peterson, Cody St. Clair, Paul Fodor, Chihiro Shibata, Jeffrey Heinz, | (参考訳) フォーマルな言語から構築された合成データセットは、シーケンス分類のための機械学習システムの学習と一般化能力のきめ細かい検証を可能にする。
本稿では,1,800の正規言語からのトレーニング,開発,テストセットを含む,MLRegTestと呼ばれるシーケンス分類に基づく機械学習システムのための新しいベンチマークを提案する。
異なる形式言語は、異なる種類の長距離依存を表現し、シーケンス内の長距離依存を正しく識別することは、MLシステムが正常に一般化する上で既知の課題である。
MLRegTestは、その論理的複雑さ(モナディック二階数、一階数、命題数、単項式)と論理的リテラル(文字列、階層文字列、サブシーケンス、またはそれらの組み合わせ)に基づいて言語を編成する。
リテラルの論理的複雑さと選択は、正規言語における異なる種類の長距離依存を理解する体系的な方法を提供し、そのため、このような長距離依存を学ぶための異なるMLシステムの能力を理解するための体系的な方法を提供する。
最後に, MLRegTestにおける異なるニューラルネットワーク(RNN, LSTM, GRU, 変圧器)の性能について検討した。
主な結論は、パフォーマンスはテストセットの種類、言語のクラス、ニューラルネットワークアーキテクチャに大きく依存する、ということだ。
Synthetic datasets constructed from formal languages allow fine-grained examination of the learning and generalization capabilities of machine learning systems for sequence classification. This article presents a new benchmark for machine learning systems on sequence classification called MLRegTest, which contains training, development, and test sets from 1,800 regular languages. Different kinds of formal languages represent different kinds of long-distance dependencies, and correctly identifying long-distance dependencies in sequences is a known challenge for ML systems to generalize successfully. MLRegTest organizes its languages according to their logical complexity (monadic second order, first order, propositional, or monomial expressions) and the kind of logical literals (string, tier-string, subsequence, or combinations thereof). The logical complexity and choice of literal provides a systematic way to understand different kinds of long-distance dependencies in regular languages, and therefore to understand the capacities of different ML systems to learn such long-distance dependencies. Finally, the performance of different neural networks (simple RNN, LSTM, GRU, transformer) on MLRegTest is examined. The main conclusion is that performance depends significantly on the kind of test set, the class of language, and the neural network architecture. | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-22 |
# 局在駆動量子センシング
Localization Driven Quantum Sensing ( http://arxiv.org/abs/2305.02315v2 ) ライセンス: Link先を確認 | Ayan Sahoo, Utkarsh Mishra, Debraj Rakshit, | (参考訳) 量子行列体(QMB)系における非局在化-局在化遷移は、パラメータ推定における量子強調感度を達成するための魅力的な量子資源であることを示す。
我々は、パラメータシフトに対する近遷移QMB状態の脆弱性を利用して、効率的なセンシングツールを考案する。
この領域では、この研究の主な焦点は、精密測定のための実験的に関連する量子可観測物を特定し、提案し、分析することである。
エネルギー非依存的な非局在化-局在化遷移をサポートする準周期変調の下でのフェルミ格子としてQMBシステムを採用することにより,演算子に基づく断熱および動的量子センサの量子的優位性について提案する。
We show that the delocalization-localization transition in a quantum-many body (QMB) systems is a compelling quantum resource for achieving quantum-enhanced sensitivity in parameter estimation. We exploit the vulnerability of a near-transition QMB state against the parameter shift for devising efficient sensing tools. In this realm the main focus of this work is to identify, propose and analyze experimentally relevant quantum observables for precision measurement. Taking a QMB system as a Fermi lattice under quasi-periodic modulation that supports an energy-independent delocalization-localization transition, we suggest operator-based adiabatic and dynamical quantum sensors endowed with considerable quantum advantages. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# 代数量子場理論:目的、方法、結果
Algebraic quantum field theory: objectives, methods, and results ( http://arxiv.org/abs/2305.12923v2 ) ライセンス: Link先を確認 | Detlev Buchholz, Klaus Fredenhagen, | (参考訳) 代数的量子場理論(英: Algebraic quantum field theory)は、作用素代数の理論に基づく相対論的量子物理学の一般的な数学的枠組みである。
それは理論の観測可能かつ運用上の側面をすべて含んでいる。
その枠組みでは、粒子の任意の配置上の真空から熱平衡状態や非平衡状態まで、理論の全体状態空間がカバーされている。
構造解析、理論の物理的解釈、新しい建設的スキームの発展のための確かな基盤を提供する。
この調査は、M. Bojowald と R.J. Szabo が編集した Encyclopedia of Mathematical Physics によって委託されている。
エルセヴィエ出版社から出版される予定である。
Algebraic quantum field theory is a general mathematical framework for relativistic quantum physics, based on the theory of operator algebras. It comprises all observable and operational aspects of a theory. In its framework the entire state space of a theory is covered, starting from the vacuum over arbitrary configurations of particles to thermal equilibrium and non-equilibrium states. It provides a solid foundation for structural analysis, the physical interpretation of the theory and the development of new constructive schemes. This survey is commissioned by the Encyclopedia of Mathematical Physics, edited by M. Bojowald and R.J. Szabo. It is to be published by the Elsevier publishing house. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# 長距離横フィールドイジングチェーンにおける動的量子臨界現象の確率的パラメータ最適化解析
Stochastic parameter optimization analysis of dynamical quantum critical phenomena in long-range transverse-field Ising chain ( http://arxiv.org/abs/2305.14121v2 ) ライセンス: Link先を確認 | Sora Shiratani, Synge Todo, | (参考訳) 量子モンテカルロ法と確率的パラメータ最適化を組み合わせた一次元長距離横場イジングモデルの量子位相遷移について検討し、空間と虚時が等方的に等方性を持つように相関比を調整することによって特に達成した。
シミュレーションでは, 臨界点と普遍性に関する事前知識がなくても, サンプリング対象のパラメータを自動的に決定する。
異なる大きさの2つのシステムを比較することにより、先頭の有限サイズ補正を排除し、この手順も自動的に行われる。
長距離相互作用の崩壊指数である \(\sigma\) を変数として、平均場、非ユニバーサル、二次元古典イジング普遍性系において、力学指数と他の臨界指数の \(\sigma\)-依存性を正確に調べる。
我々は、力学指数に基づいて後者の2つの普遍性境界を \(\sigma = 7/4\) として決定し、普遍性境界の位置に関する長年の論争を解決した。
The quantum phase transition of the one-dimensional long-range transverse-field Ising model is explored by combining the quantum Monte Carlo method and stochastic parameter optimization, specifically achieved by tuning correlation ratios so that space and imaginary time are isotropic. In our simulations, the simulator automatically determines the parameters to sample from, even without prior knowledge of the critical point and universality class. The leading order finite-size corrections are eliminated by comparing two systems with different sizes; this procedure is also performed automatically. Varying the decay exponent of the long-range interaction, \(\sigma\), we investigate \(\sigma\)-dependence of the dynamical exponent and the other critical exponents precisely in the mean-field, non-universal, and two-dimensional classical Ising universality regimes. We successfully determine the universality boundary between the latter two as \(\sigma = 7/4\) based on the dynamical exponent and settle a long-standing dispute on the location of the universality boundary. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# NOVUM:ロバストオブジェクト分類のためのニューラルオブジェクトボリューム
NOVUM: Neural Object Volumes for Robust Object Classification ( http://arxiv.org/abs/2305.14668v3 ) ライセンス: Link先を確認 | Artur Jesslen, Guofeng Zhang, Angtian Wang, Wufei Ma, Alan Yuille, Adam Kortylewski, | (参考訳) オブジェクト分類の識別モデルは、通常、オブジェクトの合成と3Dの性質を捉えない画像に基づく表現を学習する。
本研究では,3次元合成対象表現を画像分類のためのディープネットワークに明示的に統合することにより,配布外シナリオの大幅な一般化が実現することを示す。
特に,対象オブジェクトクラス毎に特徴抽出器と \textit{neural object volume} から構成される新しいアーキテクチャである「OURS」を導入する。
それぞれの神経物体の体積は、特徴ベクトルを出力する3Dガウスの合成である。
この構成オブジェクト表現は、各カテゴリの3次元ガウス的特徴と入力画像から抽出された特徴とを独立にマッチングすることにより、オブジェクトクラスの非常に堅牢で高速な推定を可能にする。
さらに、対応するニューラルオブジェクトボリュームの逆レンダリングにより、オブジェクトのポーズを推定することができる。
物体の分類を可能にするために、各3次元ガウスの神経特徴を識別的に訓練して区別する。
(i)他のカテゴリーにおける3次元ガウシアンの特徴
(二)同じ対象の他の3次元ガウス的特徴及び
(三)背景特徴
実験の結果,<OURS</OUR>は,オブジェクト表現の3次元構成構造,すなわち,(1)実世界と合成外分布シフトのスペクトル間の例外的ロバスト性,(2)標準モデルに対する人間の解釈可能性の向上などにより,標準モデルに対して興味深い利点を提供する。
Discriminative models for object classification typically learn image-based representations that do not capture the compositional and 3D nature of objects. In this work, we show that explicitly integrating 3D compositional object representations into deep networks for image classification leads to a largely enhanced generalization in out-of-distribution scenarios. In particular, we introduce a novel architecture, referred to as \OURS, that consists of a feature extractor and a \textit{neural object volume} for every target object class. Each neural object volume is a composition of 3D Gaussians that emit feature vectors. This compositional object representation allows for a highly robust and fast estimation of the object class by independently matching the features of the 3D Gaussians of each category to features extracted from an input image. Additionally, the object pose can be estimated via inverse rendering of the corresponding neural object volume. To enable the classification of objects, the neural features at each 3D Gaussian are trained discriminatively to be distinct from (i) the features of 3D Gaussians in other categories, (ii) features of other 3D Gaussians of the same object, and (iii) the background features. Our experiments show that \OURS offers intriguing advantages over standard architectures due to the 3D compositional structure of the object representation, namely: (1) An exceptional robustness across a spectrum of real-world and synthetic out-of-distribution shifts and (2) an enhanced human interpretability compared to standard models, all while maintaining real-time inference and a competitive accuracy on in-distribution data. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# 条件不変セマンティックセマンティックセグメンテーション
Condition-Invariant Semantic Segmentation ( http://arxiv.org/abs/2305.17349v3 ) ライセンス: Link先を確認 | Christos Sakaridis, David Bruggemann, Fisher Yu, Luc Van Gool, | (参考訳) セマンティックセグメンテーションネットワークの異なる視覚条件への適応は、自律走行車やロボットの堅牢な認識に不可欠である。
しかし、従来の研究は、ほとんどの特徴レベル適応法は、敵対的トレーニングを採用し、合成から現実への適応で検証されているが、条件レベル適応では限界ゲインを与え、スタイリゼーションによる単純なピクセルレベル適応により性能が向上することを示した。
これらの結果から,ネットワークのエンコーダが抽出した内部ネットワーク特徴と,各入力画像のスタイル化ビューとを新たな特徴分散損失に整合させることにより,特徴レベルの適応を行う上でのスタイル化を活用することを提案する。
このようにして、エンコーダは入力のスタイルに不変な特徴を抽出することを奨励し、デコーダはこれらの特徴を解析することに集中でき、入力の特定のスタイルからさらに抽象化することができない。
本研究では,現状のドメイン適応アーキテクチャに基づいて条件不変セマンティックセマンティックセマンティックセマンティックシグメンテーション (CISS) という手法を実装し,条件レベル適応の優れた結果を得る。
特に、CISSは、人気の高い昼夜のCityscapes$\to$Dark Zurichベンチマークで、新しい最先端技術を設定している。
さらに,本手法は,通常の都市景観$\to$ACDCベンチマークにおいて2番目に高い性能を達成している。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
コードはhttps://github.com/SysCV/CISSで公開されている。
Adaptation of semantic segmentation networks to different visual conditions is vital for robust perception in autonomous cars and robots. However, previous work has shown that most feature-level adaptation methods, which employ adversarial training and are validated on synthetic-to-real adaptation, provide marginal gains in condition-level adaptation, being outperformed by simple pixel-level adaptation via stylization. Motivated by these findings, we propose to leverage stylization in performing feature-level adaptation by aligning the internal network features extracted by the encoder of the network from the original and the stylized view of each input image with a novel feature invariance loss. In this way, we encourage the encoder to extract features that are already invariant to the style of the input, allowing the decoder to focus on parsing these features and not on further abstracting from the specific style of the input. We implement our method, named Condition-Invariant Semantic Segmentation (CISS), on the current state-of-the-art domain adaptation architecture and achieve outstanding results on condition-level adaptation. In particular, CISS sets the new state of the art in the popular daytime-to-nighttime Cityscapes$\to$Dark Zurich benchmark. Furthermore, our method achieves the second-best performance on the normal-to-adverse Cityscapes$\to$ACDC benchmark. CISS is shown to generalize well to domains unseen during training, such as BDD100K-night and ACDC-night. Code is publicly available at https://github.com/SysCV/CISS . | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# BotArtist: 半自動機械学習パイプラインによるTwitterのボット検出のためのジェネリックアプローチ
BotArtist: Generic approach for bot detection in Twitter via semi-automatic machine learning pipeline ( http://arxiv.org/abs/2306.00037v4 ) ライセンス: Link先を確認 | Alexander Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Polyvios Pratikakis, Sotiris Ioannidis, | (参考訳) Twitterは、最も人気のあるソーシャルネットワークの一つであり、コミュニケーションとオンライン談話のためのプラットフォームを提供している。
残念ながら、ボットや偽アカウントの標的にもなっており、偽の情報や操作が広まっている。
本稿では,機械学習モデル開発に関連する課題に対処するために,セミオートマチック機械学習パイプライン(SAMLP)を提案する。
このパイプラインを通じて,ユーザプロファイル機能に基づいたボット検出モデルBotArtistを開発した。
SAMLPは、BotArtistモデルをトレーニングするために、9つの異なる公開データセットを活用する。
BotArtistの現在の最先端ソリューションに対するパフォーマンスを評価するため、我々は35の既存のTwitterボット検出方法を選択し、それぞれ多様な機能を活用している。
BotArtistとこれらの既存手法を比較して、標準化された条件下で9つの公開データセットで実施された結果、提案モデルはF1スコアにおいて既存のソリューションよりも約10%優れており、それぞれ特定のアプローチと一般的なアプローチに対して平均スコア83.19と68.5を達成していることが明らかとなった。
この研究の結果、2022年のロシア・ウクライナ戦争中にTwitter API経由で収集された10.929.533のTwitterユーザプロファイルに対して、BotArtist予測と組み合わせて抽出された機能のデータセットを提供する。
このデータセットは[Shevtsov et al , 2022a]と共同で作成され、原作者はロシア・ウクライナ戦争に関する議論で匿名化されたツイートを合計127.275.386ツイートで共有した。
既存のテキストデータセットと提供されたラベル付きボットと人間のプロファイルを組み合わせることで、Twitter後API時代において、より高度なボット検出大型言語モデルの開発が可能になる。
Twitter, as one of the most popular social networks, provides a platform for communication and online discourse. Unfortunately, it has also become a target for bots and fake accounts, resulting in the spread of false information and manipulation. This paper introduces a semi-automatic machine learning pipeline (SAMLP) designed to address the challenges correlated with machine learning model development. Through this pipeline, we develop a comprehensive bot detection model named BotArtist, based on user profile features. SAMLP leverages nine distinct publicly available datasets to train the BotArtist model. To assess BotArtist's performance against current state-of-the-art solutions, we select 35 existing Twitter bot detection methods, each utilizing a diverse range of features. Our comparative evaluation of BotArtist and these existing methods, conducted across nine public datasets under standardized conditions, reveals that the proposed model outperforms existing solutions by almost 10%, in terms of F1-score, achieving an average score of 83.19 and 68.5 over specific and general approaches respectively. As a result of this research, we provide a dataset of the extracted features combined with BotArtist predictions over the 10.929.533 Twitter user profiles, collected via Twitter API during the 2022 Russo-Ukrainian War, over a 16-month period. This dataset was created in collaboration with [Shevtsov et al., 2022a] where the original authors share anonymized tweets on the discussion of the Russo-Ukrainian war with a total amount of 127.275.386 tweets. The combination of the existing text dataset and the provided labeled bot and human profiles will allow for the future development of a more advanced bot detection large language model in the post-Twitter API era. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# ビット読み出し用パラメトリック増幅器のモデリングと高調波バランス解析
Modeling and Harmonic Balance Analysis of Parametric Amplifiers for Qubit Read-out ( http://arxiv.org/abs/2306.05177v2 ) ライセンス: Link先を確認 | Daryoush Shiri, Hampus Renberg Nilsson, Pavan Telluri, Anita Fadavi Roudsari, Vitaly Shumeiko, Christian Fager, Per Delsing, | (参考訳) 超伝導ジョセフソン接合(JJ)のような非線形要素に基づく移動波パラメトリック増幅器(TWPA)の性能予測は量子コンピュータにおける量子ビット読み出しに不可欠である。
この記事の目的は2つある。
(a)JJの組み合わせに基づく非線形インダクタが商用回路シミュレータでどのようにモデル化できるかを実証する。
b) 増幅器性能eg,ゲイン,ポンプの高調波電力変換の信頼性予測にハーモニックバランス(HB)がどのように使用されるかを示す。
2種類のTWPAアーキテクチャの実験的特徴をシミュレーションと比較し,HB法の信頼性を示す。
パラメトリック増幅器の設計者に対して、モデリングノウハウとテクニックを普及させる。
Predicting the performance of traveling-wave parametric amplifiers (TWPAs) based on nonlinear elements like superconducting Josephson junctions (JJs) is vital for qubit read-out in quantum computers. The purpose of this article is twofold: (a) to demonstrate how nonlinear inductors based on combinations of JJs can be modeled in commercial circuit simulators, and (b) to show how the harmonic balance (HB) is used in the reliable prediction of the amplifier performance e.g., gain and pump harmonic power conversion. Experimental characterization of two types of TWPA architectures is compared with simulations to showcase the reliability of the HB method. We disseminate the modeling know-how and techniques to new designers of parametric amplifiers. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# 非線形変換を用いたリッジ推定
Ridge Estimation with Nonlinear Transformations ( http://arxiv.org/abs/2306.05722v3 ) ライセンス: Link先を確認 | Zheng Zhai, Hengchao Chen, Zhigang Yao, | (参考訳) リッジ推定は重要な多様体学習手法である。
本研究の目的は,尾根集合に対する非線形変換の影響を検討することである。
主な結果はリッジ間の包含関係を証明する: $\cR(f\circ p)\subseteq \cR(p)$。
さらに、基礎となる真多様体 $\cM$ が与えられたとき、$\cR(f\circ p)$ と $\cM$ への射影の間のハウスドルフ距離は、$\cR(p)$ と対応する射影の間のハウスドルフ距離よりも小さいことを示す。
このことは、リッジ推定の前に増大・凹面変換を適用する動機となる。
具体的には、$f^{q}(y)=y^q/q,-\infty<q\leq 1$ のパワー変換が、$\RR_+$ で増加・縮退していることを示す。
数値実験により提案手法の利点が示された。
Ridge estimation is an important manifold learning technique. The goal of this paper is to examine the effects of nonlinear transformations on the ridge sets. The main result proves the inclusion relationship between ridges: $\cR(f\circ p)\subseteq \cR(p)$, provided that the transformation $f$ is strictly increasing and concave on the range of the function $p$. Additionally, given an underlying true manifold $\cM$, we show that the Hausdorff distance between $\cR(f\circ p)$ and its projection onto $\cM$ is smaller than the Hausdorff distance between $\cR(p)$ and the corresponding projection. This motivates us to apply an increasing and concave transformation before the ridge estimation. In specific, we show that the power transformations $f^{q}(y)=y^q/q,-\infty<q\leq 1$ are increasing and concave on $\RR_+$, and thus we can use such power transformations when $p$ is strictly positive. Numerical experiments demonstrate the advantages of the proposed methods. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# 交差部分集合からの量子LDPC符号
Quantum LDPC codes from intersecting subsets ( http://arxiv.org/abs/2306.06056v2 ) ライセンス: Link先を確認 | Dimiter Ostrev, | (参考訳) 本稿では,コンポーネントCSSコードのタプルとサブセットの2つのコレクションから,量子CSSコードを構築することを提案する。
結果として得られた符号は、並列化可能なエンコーディングとシンドローム測定回路を持ち、シンドローム測定に冗長性が組み込まれている。
一般構成の特定の部分群では、結果として得られる符号は古典的リード・ミュラー符号の自然な一般化に関係しており、これは量子コードの距離と、シンドロームのエラーから保護する関連する古典コードの距離の式に繋がる。
本稿では,ブロックサイズが2^m,m=3,\dots,9$のコードと,2,4,8キュービットのシンドロームの測定値を示す。
これらは、距離がシンドローム測定量を超えるコードや、ビットフリップと位相フリップの誤りに対する非対称な保護を提供するコードを含む。
This paper introduces a construction of quantum CSS codes from a tuple of component CSS codes and two collections of subsets. The resulting codes have parallelizable encoding and syndrome measurement circuits and built-in redundancy in the syndrome measurements. In a certain subfamily of the general construction, the resulting codes are related to a natural generalization of classical Reed-Muller codes, and this leads to formulas for the distance of the quantum code as well as for the distance of the associated classical code that protects against errors in the syndrome. The paper gives a number of examples of codes with block size $2^m, m=3,\dots,9$, and with syndrome measurements involving 2, 4 or 8 qubits. These include codes for which the distance exceeds the syndrome measurement weight, as well as codes which provide asymmetric protection against bit flip and phase flip errors. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-22 |
# 四元数フーリエ変換の行列形式と四元数畳み込みについて
On the Matrix Form of the Quaternion Fourier Transform and Quaternion Convolution ( http://arxiv.org/abs/2307.01836v3 ) ライセンス: Link先を確認 | Giorgos Sfikas, George Retsinas, | (参考訳) フーリエ変換および畳み込み演算の四元数版行列形式について検討する。
四元数(英語版)は強力な表現単位を提供するが、それらは四元数乗算の非可換性から最も遠ざかるそれらの利用の困難に関係しており、従って、$\mu^2 = -1$ は四元数領域における無限の解を持つ。
四元数行列の扱いはいくつかの面で複雑である(固有構造の定義、行列式など)。
本研究では,四元数フーリエ変換行列と標準(複素)離散フーリエ変換行列との関係を明らかにするとともに,よく知られた複素ドメイン定理が四元数に拡張される拡張について述べる。
特に,四元数フーリエ変換行列と四元数循環行列(四元数畳み込みを表す)の関係と,後者の固有構造に着目した。
そこで, 準イオン畳み込みニューラルネットワークのリプシッツ定数を束縛する手法を提案する。
コードは: \url{https://github.com/sfikas/quaternion-fourier-convolution-matrix}で公開されている。
We study matrix forms of quaternionic versions of the Fourier Transform and Convolution operations. Quaternions offer a powerful representation unit, however they are related to difficulties in their use that stem foremost from non-commutativity of quaternion multiplication, and due to that $\mu^2 = -1$ possesses infinite solutions in the quaternion domain. Handling of quaternionic matrices is consequently complicated in several aspects (definition of eigenstructure, determinant, etc.). Our research findings clarify the relation of the Quaternion Fourier Transform matrix to the standard (complex) Discrete Fourier Transform matrix, and the extend on which well-known complex-domain theorems extend to quaternions. We focus especially on the relation of Quaternion Fourier Transform matrices to Quaternion Circulant matrices (representing quaternionic convolution), and the eigenstructure of the latter. A proof-of-concept application that makes direct use of our theoretical results is presented, where we present a method to bound the Lipschitz constant of a Quaternionic Convolutional Neural Network. Code is publicly available at: \url{https://github.com/sfikas/quaternion-fourier-convolution-matrix}. | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-22 |
# 大規模言語モデルは優れたプロパティベースのテストを書くことができるか?
Can Large Language Models Write Good Property-Based Tests? ( http://arxiv.org/abs/2307.04346v2 ) ライセンス: Link先を確認 | Vasudev Vikram, Caroline Lemieux, Joshua Sunshine, Rohan Padhye, | (参考訳) PBT(Property-based Testing)は、ソフトウェアテスティング研究コミュニティで確立された技術であるが、現実世界のソフトウェアでは、いまだにあまり使われていない。
プロパティベースのテストを書く際のペインポイントは、多様なランダムな入力ジェネレータの実装と、テストする意味のあるプロパティの思考である。
多数のライブラリAPIドキュメンテーションが利用可能であり、PBTの自然言語仕様として使用することができる。
大規模言語モデル(LLM)は,近年,様々なコーディングタスクにおいて有望であることが示されている。
鍵となる課題は、LPM合成PSTを厳格に評価することである。
本研究では,(1)有効性,(2)健全性,(3)特性カバレッジを考慮に入れた手法を提案する。
3つのモデル(GPT-4, Gemini-1.5-Pro, Claude-3-Opus)にまたがる40のPythonライブラリAPIの評価において, 最適モデルと迅速なアプローチにより, 平均2.4サンプルで有効かつ健全なPBTを合成できることが判明した。
さらに,PBTの音響性を決定する基準は,人間による特性判断と一致し,100%の精度と97%のリコールを達成できることがわかった。
最後に、全てのAPIメソッドにわたるLCMのプロパティカバレッジを評価し、APIドキュメントから抽出可能なプロパティの21%に対して、最良のモデル(GPT-4)が自動的に正しいPBTを合成できることを見出した。
Property-based testing (PBT), while an established technique in the software testing research community, is still relatively underused in real-world software. Pain points in writing property-based tests include implementing diverse random input generators and thinking of meaningful properties to test. Developers, however, are more amenable to writing documentation; plenty of library API documentation is available and can be used as natural language specifications for PBTs. As large language models (LLMs) have recently shown promise in a variety of coding tasks, we investigate using modern LLMs to automatically synthesize PBTs using two prompting techniques. A key challenge is to rigorously evaluate the LLM-synthesized PBTs. We propose a methodology to do so considering several properties of the generated tests: (1) validity, (2) soundness, and (3) property coverage, a novel metric that measures the ability of the PBT to detect property violations through generation of property mutants. In our evaluation on 40 Python library API methods across three models (GPT-4, Gemini-1.5-Pro, Claude-3-Opus), we find that with the best model and prompting approach, a valid and sound PBT can be synthesized in 2.4 samples on average. We additionally find that our metric for determining soundness of a PBT is aligned with human judgment of property assertions, achieving a precision of 100% and recall of 97%. Finally, we evaluate the property coverage of LLMs across all API methods and find that the best model (GPT-4) is able to automatically synthesize correct PBTs for 21% of properties extractable from API documentation. | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-22 |
# トンネルプロセスと熱核融合の状態依存性
State dependence of tunneling processes and thermonuclear fusion ( http://arxiv.org/abs/2307.06172v2 ) ライセンス: Link先を確認 | Roberto Onofrio, Carlo Presilla, | (参考訳) 量子状態の初期準備に対するトンネルプロセスの感度について論じる。
我々は、トンネル係数の解析式が利用できる一般化されたウッズ・サクソンポテンシャルを用いて、異なる位置分散のガウス波パケットのケースを比較した。
障壁ポテンシャルに対する現実的なパラメータを用いて、通常の平面波近似は、制御されたエネルギー生産に対する実用的関係の温度範囲において、核融合反応を桁違いに過小評価する。
We discuss the sensitivity of tunneling processes to the initial preparation of the quantum state. We compare the case of Gaussian wave packets of different positional variances using a generalised Woods-Saxon potential for which analytical expressions of the tunneling coefficients are available. Using realistic parameters for barrier potentials we find that the usual plane wave approximation underestimates fusion reactivities by an order of magnitude in a range of temperatures of practical relevance for controlled energy production. | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-22 |
# 何百もの手術ビデオ講義を視聴したマルチモーダル表現の学習
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures ( http://arxiv.org/abs/2307.15220v3 ) ライセンス: Link先を確認 | Kun Yuan, Vinkle Srivastav, Tong Yu, Joel L. Lavanchy, Pietro Mascagni, Nassir Navab, Nicolas Padoy, | (参考訳) 手術用コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進され、固定された対象カテゴリを予測するために手動の注釈付きビデオに依存している。
これにより、その一般化性は、目に見えない外科手術や作業に制限される。
本稿では,eラーニングプラットフォームからの外科的ビデオ講義を活用して,手動アノテーションを回避し,多モーダル表現学習に効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
本稿では,多モーダル表現学習のための新しい手法であるSurgVLP(オペレーショナルビジョン言語事前学習)を紹介する。
SurgVLPは、新しいコントラスト学習目標を採用し、ビデオクリップの埋め込みと対応する複数のテキストの埋め込みを、ジョイント潜在空間に整列させる。
本稿では,この空間の表現能力について,複数の視覚・言語外科的タスクと,手術に特有の視覚のみのタスクを通して実証する。
現在の完全に監督されたアプローチとは異なり、SurgVLPは特定の微調整をせずに異なる手術手順やタスクに適応し、手動のアノテーションを使わずに手術ツール、フェーズ、トリプルト認識などのタスクにゼロショット適応する。
これらの結果は,手術ビデオ解析における学習された多モード表現の伝達性と汎用性を強調した。
コードはhttps://github.com/CAMMA-public/SurgVLPで公開されている。
Recent advancements in surgical computer vision have been driven by vision-only models, which lack language semantics, relying on manually annotated videos to predict fixed object categories. This limits their generalizability to unseen surgical procedures and tasks. We propose leveraging surgical video lectures from e-learning platforms to provide effective vision and language supervisory signals for multi-modal representation learning, bypassing manual annotations. We address surgery-specific linguistic challenges using multiple automatic speech recognition systems for text transcriptions. We introduce SurgVLP - Surgical Vision Language Pre-training - a novel method for multi-modal representation learning. SurgVLP employs a new contrastive learning objective, aligning video clip embeddings with corresponding multiple text embeddings in a joint latent space. We demonstrate the representational capability of this space through several vision-and-language surgical tasks and vision-only tasks specific to surgery. Unlike current fully supervised approaches, SurgVLP adapts to different surgical procedures and tasks without specific fine-tuning, achieving zero-shot adaptation to tasks such as surgical tool, phase, and triplet recognition without manual annotation. These results highlight the transferability and versatility of the learned multi-modal representations in surgical video analysis. The code is available at https://github.com/CAMMA-public/SurgVLP | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-22 |
# SemiSFL: ラベルなしおよび非IIDデータによるフェデレーション学習
SemiSFL: Split Federated Learning on Unlabeled and Non-IID Data ( http://arxiv.org/abs/2307.15870v3 ) ライセンス: Link先を確認 | Yang Xu, Yunming Liao, Hongli Xu, Zhipeng Sun, Liusheng Huang, Chunming Qiao, | (参考訳) フェデレートラーニング(FL)は、複数のクライアントがネットワークエッジでプライベートデータ上で機械学習モデルを協調的にトレーニングできるようにするためのものだ。
しかし、リソース制約のあるデバイス上での大規模モデルのトレーニングとデプロイは困難である。
幸いなことに、SFL(Split Federated Learning)は、クライアントの計算や通信の負担を軽減することで、実現可能なソリューションを提供します。
しかし、既存のSFLの作業は、クライアントに十分なラベル付きデータを仮定することが多い。
さらに、データ非IIDnessは、効率的なモデルトレーニングを保証するために別の課題となる。
我々の知る限りでは、上記の2つの問題はSFLでは同時に解決されていない。
そこで本研究では,クラスタリング正規化を組み込んで,ラベルなしおよび非IIDクライアントデータでSFLを実行する,Semi-supervised SFLシステムを提案する。
さらに、モデル収束に関する理論的および実験的研究により、ラベル付きおよびラベルなしデータの一貫性のないトレーニングプロセスがクラスタリング正則化の有効性に影響を及ぼすことが明らかとなった。
トレーニングの不整合を軽減するため,グローバルな更新頻度を動的に調整し,トレーニング性能を向上させるアルゴリズムを開発した。
ベンチマークモデルとデータセットの大規模な実験により、我々のシステムはトレーニング時間の3.8倍のスピードアップを提供し、目標精度に達しながら通信コストを約70.3%削減し、最先端のベースラインと比較して、非IIDシナリオで最大5.8%の精度向上を実現している。
Federated Learning (FL) has emerged to allow multiple clients to collaboratively train machine learning models on their private data at the network edge. However, training and deploying large-scale models on resource-constrained devices is challenging. Fortunately, Split Federated Learning (SFL) offers a feasible solution by alleviating the computation and/or communication burden on clients. However, existing SFL works often assume sufficient labeled data on clients, which is usually impractical. Besides, data non-IIDness poses another challenge to ensure efficient model training. To our best knowledge, the above two issues have not been simultaneously addressed in SFL. Herein, we propose a novel Semi-supervised SFL system, termed SemiSFL, which incorporates clustering regularization to perform SFL with unlabeled and non-IID client data. Moreover, our theoretical and experimental investigations into model convergence reveal that the inconsistent training processes on labeled and unlabeled data have an influence on the effectiveness of clustering regularization. To mitigate the training inconsistency, we develop an algorithm for dynamically adjusting the global updating frequency, so as to improve training performance. Extensive experiments on benchmark models and datasets show that our system provides a 3.8x speed-up in training time, reduces the communication cost by about 70.3% while reaching the target accuracy, and achieves up to 5.8% improvement in accuracy under non-IID scenarios compared to the state-of-the-art baselines. | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-22 |
# 非IID非等方的データからのサンプル効率の線形表現学習
Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data ( http://arxiv.org/abs/2308.04428v2 ) ライセンス: Link先を確認 | Thomas T. C. K. Zhang, Leonardo F. Toso, James Anderson, Nikolai Matni, | (参考訳) 最近の機械学習の進歩の背景にある強力な概念は、異質なソースやタスクからデータ間で共通の特徴を抽出することである。
直感的には、すべてのデータを使って共通の表現関数を学習することは、与えられたタスクの微調整に少数のパラメータを残すことにより、計算労力と統計的一般化の両方の恩恵を受ける。
これらの利点を理論的に基礎づけるために、ノイジーベクトル測度$y = Mx + w$ から線型作用素 $M$ を回復する一般的な設定を提案し、この共変量 $x$ は非等方的かつ非等方的である。
既存の異方性に依存しない表現学習が表現更新のバイアスに近づき、ノイズ項のスケーリングがソースタスク数に有利な依存をなくすことを実証する。
これにより、表現学習のサンプルの複雑さは、シングルタスクのデータサイズによってボトルネックになる可能性がある。
我々は、Collins et al , (2021) と Nayer と Vaswani (2022) で独立に提案された交代最小化退化スキームの適応として、$\textt{De-bias & Feature-Whiten}$$(\texttt{DFW}$)を導入し、$\textit{total}$ソースデータサイズでスケールダウンしたノイズレベルの最適な表現に線形収束を確立する。
これにより、オラクル経験的リスク最小化器と同じ順序で一般化境界が導かれる。
各種数値シミュレーションにおける$\texttt{DFW}$の重要性を検証する。
特に,バニラの交互最小化降下は,iidにおいても破滅的に失敗するが,軽度に非等方性データは得られない。
我々の分析は、事前の作業を統一し、一般化し、制御や動的システムといった幅広いアプリケーションに対して柔軟なフレームワークを提供する。
A powerful concept behind much of the recent progress in machine learning is the extraction of common features across data from heterogeneous sources or tasks. Intuitively, using all of one's data to learn a common representation function benefits both computational effort and statistical generalization by leaving a smaller number of parameters to fine-tune on a given task. Toward theoretically grounding these merits, we propose a general setting of recovering linear operators $M$ from noisy vector measurements $y = Mx + w$, where the covariates $x$ may be both non-i.i.d. and non-isotropic. We demonstrate that existing isotropy-agnostic representation learning approaches incur biases on the representation update, which causes the scaling of the noise terms to lose favorable dependence on the number of source tasks. This in turn can cause the sample complexity of representation learning to be bottlenecked by the single-task data size. We introduce an adaptation, $\texttt{De-bias & Feature-Whiten}$ ($\texttt{DFW}$), of the popular alternating minimization-descent scheme proposed independently in Collins et al., (2021) and Nayer and Vaswani (2022), and establish linear convergence to the optimal representation with noise level scaling down with the $\textit{total}$ source data size. This leads to generalization bounds on the same order as an oracle empirical risk minimizer. We verify the vital importance of $\texttt{DFW}$ on various numerical simulations. In particular, we show that vanilla alternating-minimization descent fails catastrophically even for iid, but mildly non-isotropic data. Our analysis unifies and generalizes prior work, and provides a flexible framework for a wider range of applications, such as in controls and dynamical systems. | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-22 |
# RepCodec:音声トークン化のための音声表現コーデック
RepCodec: A Speech Representation Codec for Speech Tokenization ( http://arxiv.org/abs/2309.00169v3 ) ライセンス: Link先を確認 | Zhichao Huang, Chutong Meng, Tom Ko, | (参考訳) 近年の大規模言語モデル (LLM) の急速な発展に伴い, 離散音声のトークン化はLLMに音声を注入する上で重要な役割を担っている。
しかし、この離散化は情報の喪失を引き起こし、結果として全体的なパフォーマンスを損なう。
本稿では,これらの離散音声トークンの性能を向上させるために,意味的音声トークン化のための新しい音声表現コーデックRepCodecを提案する。
生音声を再構成する音声コーデックとは対照的に、RepCodecはHuBERTやData2vecのような音声エンコーダから音声表現を再構成することでベクトル量子化コードブックを学習する。
共に、音声エンコーダ、コーデックエンコーダ、ベクトル量子化コードブックは、音声波形を意味トークンに変換するパイプラインを形成する。
広範にわたる実験により、RepCodecはその情報保持能力の強化により、音声理解と生成の両方において広く使われているk平均クラスタリングアプローチよりも大幅に優れていることが示された。
さらに、この優位性は様々な音声エンコーダや言語にまたがって広がり、RepCodecの堅牢性を確認している。
提案手法は,音声処理における大規模言語モデリング研究を促進できると考えている。
With recent rapid growth of large language models (LLMs), discrete speech tokenization has played an important role for injecting speech into LLMs. However, this discretization gives rise to a loss of information, consequently impairing overall performance. To improve the performance of these discrete speech tokens, we present RepCodec, a novel speech representation codec for semantic speech tokenization. In contrast to audio codecs which reconstruct the raw audio, RepCodec learns a vector quantization codebook through reconstructing speech representations from speech encoders like HuBERT or data2vec. Together, the speech encoder, the codec encoder and the vector quantization codebook form a pipeline for converting speech waveforms into semantic tokens. The extensive experiments illustrate that RepCodec, by virtue of its enhanced information retention capacity, significantly outperforms the widely used k-means clustering approach in both speech understanding and generation. Furthermore, this superiority extends across various speech encoders and languages, affirming the robustness of RepCodec. We believe our method can facilitate large language modeling research on speech processing. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-22 |
# Spectrum-Aware Debiasing - 主要コンポーネントの回帰処理を応用した現代的な推論フレームワーク
Spectrum-Aware Debiasing: A Modern Inference Framework with Applications to Principal Components Regression ( http://arxiv.org/abs/2309.07810v3 ) ライセンス: Link先を確認 | Yufan Li, Pragya Sur, | (参考訳) 偏見は高次元統計学における基本的な概念である。
自由度調整は、高次元線形回帰における最先端技術である一方、これはi.d.サンプルと亜ガウス共変量に限られる。
これらの制約は、その広範な実用性を妨げている。
本稿では,高次元回帰のための新しい手法であるSpectrum-Aware Debiasingを紹介する。
我々のアプローチは、構造化された依存関係、重いテール、低ランク構造に関する問題に適用されます。
提案手法は, サンプル共分散行列のスペクトル情報を用いて再スケーリング係数を導出し, 再スケール勾配降下ステップによるデバイアス化を実現する。
スペクトルベースのアプローチは、より広い文脈での正確な偏りの除去を可能にする。
特徴量とサンプル数が比例的にスケールする共通近代体制を考察する。
我々は、共変量体が右回転不変であるとき、様々な収束概念の下で、提案した推定器の漸近正規性(好適に中心化およびスケール化)を確立する。
このような設計は、圧縮センシングにおいて重要な役割を担っているため、近年注目を集めている。
さらに、その漸近的分散に対する一貫した推定器を考案する。
まず、主成分回帰(PCR)のバイアスを補正するためにSpectrum-Aware Debiasingを使用し、高次元における最初の脱バイアスPCR推定器を提供する。
第2に、サンプル共分散行列の信号と固有ベクトルとの整合性を確認するための原理的テストを導入する。
このテストは、近似メッセージパッシング(英語版)、Leave-one-out(英語版)、凸ガウスのmin-max定理(英語版)を用いて開発された統計手法には独立に有用である。
シミュレーションおよび実データ実験により本手法を実証する。
技術的には、近似メッセージパッシングアルゴリズムとデバイアスを結合し、ベクトル近似メッセージパッシング(V-AMP)のコーシー性の最初の証明を提供する。
Debiasing is a fundamental concept in high-dimensional statistics. While degrees-of-freedom adjustment is the state-of-the-art technique in high-dimensional linear regression, it is limited to i.i.d. samples and sub-Gaussian covariates. These constraints hinder its broader practical use. Here, we introduce Spectrum-Aware Debiasing--a novel method for high-dimensional regression. Our approach applies to problems with structured dependencies, heavy tails, and low-rank structures. Our method achieves debiasing through a rescaled gradient descent step, deriving the rescaling factor using spectral information of the sample covariance matrix. The spectrum-based approach enables accurate debiasing in much broader contexts. We study the common modern regime where the number of features and samples scale proportionally. We establish asymptotic normality of our proposed estimator (suitably centered and scaled) under various convergence notions when the covariates are right-rotationally invariant. Such designs have garnered recent attention due to their crucial role in compressed sensing. Furthermore, we devise a consistent estimator for its asymptotic variance. Our work has two notable by-products: first, we use Spectrum-Aware Debiasing to correct bias in principal components regression (PCR), providing the first debiased PCR estimator in high dimensions. Second, we introduce a principled test for checking alignment between the signal and the eigenvectors of the sample covariance matrix. This test is independently valuable for statistical methods developed using approximate message passing, leave-one-out, or convex Gaussian min-max theorems. We demonstrate our method through simulated and real data experiments. Technically, we connect approximate message passing algorithms with debiasing and provide the first proof of the Cauchy property of vector approximate message passing (V-AMP). | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-22 |
# Neural Labeling:Neural Radiance Fieldsを用いた視覚データセットのラベル付けのための汎用ツールセット
NeuralLabeling: A versatile toolset for labeling vision datasets using Neural Radiance Fields ( http://arxiv.org/abs/2309.11966v2 ) ライセンス: Link先を確認 | Floris Erich, Naoya Chiba, Yusuke Yoshiyasu, Noriaki Ando, Ryo Hanai, Yukiyasu Domae, | (参考訳) NeuralLabelingは、バウンディングボックスまたはメッシュを使用して3Dシーンをアノテートし、セグメンテーションマスク、割当マップ、2Dバウンディングボックス、3Dバウンディングボックス、6DOFオブジェクトポーズ、深さマップ、およびオブジェクトメッシュを生成するためのラベリングアプローチおよびツールセットである。
NeuralLabelingでは、Neural Radiance Fields(NeRF)をレンダラーとして使用しており、複数の視点から取得した画像のみを入力として、オクルージョンなどの幾何学的手がかりを取り入れながら、3D空間ツールを使用してラベリングを行うことができる。
ロボット工学の実践的な問題に対するNeuralLabelingの適用性を実証するため,透明物体RGBの30000フレームに基底真理深度マップを付加し,RGBDセンサを用いて捕集した食器洗い機に設置したガラスのノイズ深度マップをDishwasher30kデータセットとした。
注釈付き深度マップを用いた単純な深度ニューラルネットワークのトレーニングは、従来適用されていた弱教師付きアプローチのトレーニングよりも高い再構成性能が得られることを示す。
また、NeuralLabelingを用いて生成されたインスタンスセグメンテーションと深さ完了データセットを、83.3%の精度で皿洗い機に置かれた透明な物体を把握するためのロボットアプリケーションに組み込む方法を示した。
We present NeuralLabeling, a labeling approach and toolset for annotating 3D scenes using either bounding boxes or meshes and generating segmentation masks, affordance maps, 2D bounding boxes, 3D bounding boxes, 6DOF object poses, depth maps, and object meshes. NeuralLabeling uses Neural Radiance Fields (NeRF) as a renderer, allowing labeling to be performed using 3D spatial tools while incorporating geometric clues such as occlusions, relying only on images captured from multiple viewpoints as input. To demonstrate the applicability of NeuralLabeling to a practical problem in robotics, we added ground truth depth maps to 30000 frames of transparent object RGB and noisy depth maps of glasses placed in a dishwasher captured using an RGBD sensor, yielding the Dishwasher30k dataset. We show that training a simple deep neural network with supervision using the annotated depth maps yields a higher reconstruction performance than training with the previously applied weakly supervised approach. We also show how instance segmentation and depth completion datasets generated using NeuralLabeling can be incorporated into a robot application for grasping transparent objects placed in a dishwasher with an accuracy of 83.3%, compared to 16.3% without depth completion. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-22 |
# ソーシャルメディア利用者のイデオロギー的バイアスのダイナミクス
Dynamics of Ideological Biases of Social Media Users ( http://arxiv.org/abs/2309.15968v2 ) ライセンス: Link先を確認 | Mohammed Shahid Modi, James Flamino, Boleslaw K. Szymanski, | (参考訳) 何世紀もの間、人間性は対人関係のスキルを完璧にし、人々が他人の嘘を検知し、対面で他人の行動を欺くパターンを進化させてきた。
この新技術は人々のインタラクションにどのように影響し、伝統的なパターンの使用をサポートするのか?
本稿では、ソーシャルメディアにおけるホモフィリー駆動型パターンについて、この問題に答える。
過去の研究では、大学キャンパスでは、学生の意見の変化は、大衆の意見を抱きたいという欲求によって引き起こされていることが判明した。
ここでは、オンラインプラットフォーム全体の意見グループの進化が、同じ欲求によって引き起こされていることを実証する。
われわれはTwitterとParlerという2つのソーシャルメディアに焦点を当て、ユーザーの政治的偏見を追跡した。
パーラーでは、当初は安定していた右バイアスのあるユーザー集団が、政治的偏見に反するメンバーの弱く過渡的なグループを支配した、恒久的な右利きのエコーチャンバーへと進化した。
対照的に、Twitter上では、2つの大きな反対バイアス群が最初に存在していたため、双モードバイアス分布が進化し、高い偏光度がもたらされた。
追跡期間中に,初期から最終バイアスグループへのユーザの移動を捉えた。
また、ユーザ選択は、ホモフィリーの副作用に影響されることも示している。
プラットフォームに入るユーザーは、メンバーが政治的偏見を持っている十分に大きなグループを見つけようとする。
成功すれば、彼らはバイアスを安定させ、グループの恒久的なメンバーになる。
そうでなければ、彼らはプラットフォームを離れる。
本稿で明らかになったユーザの行動のダイナミクスは,ソーシャルメディアや社会的に認識されたネットワーク上でのソーシャルグループを支援する技術的ソリューションの基盤となると信じている。
Humanity for centuries has perfected skills of interpersonal interactions and evolved patterns that enable people to detect lies and deceiving behavior of others in face-to-face settings. Unprecedented growth of people's access to mobile phones and social media raises an important question: How does this new technology influence people's interactions and support the use of traditional patterns? In this article, we answer this question for homophily-driven patterns in social media. In our previous studies, we found that, on a university campus, changes in student opinions were driven by the desire to hold popular opinions. Here, we demonstrate that the evolution of online platform-wide opinion groups is driven by the same desire. We focus on two social media: Twitter and Parler, on which we tracked the political biases of their users. On Parler, an initially stable group of Right-biased users evolved into a permanent Right-leaning echo chamber dominating weaker, transient groups of members with opposing political biases. In contrast, on Twitter, the initial presence of two large opposing bias groups led to the evolution of a bimodal bias distribution, with a high degree of polarization. We capture the movement of users from the initial to final bias groups during the tracking period. We also show that user choices are influenced by side-effects of homophily. Users entering the platform attempt to find a sufficiently large group whose members hold political biases within the range sufficiently close to their own. If successful, they stabilize their biases and become permanent members of the group. Otherwise, they leave the platform. We believe that the dynamics of users' behavior uncovered in this article create a foundation for technical solutions supporting social groups on social media and socially aware networks. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-22 |
# Dark Side Augmentation: メトリクス学習のための様々な夜の例を生成する
Dark Side Augmentation: Generating Diverse Night Examples for Metric Learning ( http://arxiv.org/abs/2309.16351v2 ) ライセンス: Link先を確認 | Albert Mohwald, Tomas Jenicek, Ondřej Chum, | (参考訳) CNN記述子に基づく画像検索手法は、正と負のイメージペアの多種多様な例からのメトリック学習に依存している。
トレーニングデータの可用性と可変性に制限のある夜間画像などのドメインは、標準ベンチマークでうまく機能するメソッドであっても、検索性能の低下に悩まされる。
本稿では,GANをベースとした合成画像生成装置をトレーニングし,日中の画像例を夜間画像に変換することを提案する。
このようなジェネレータは、希少領域にトレーニングデータを供給し、拡張の一形態としてメートル法学習に使用される。
各種発電機の評価と解析を行った。
我々は,エッジの整合性を通じて原画像と翻訳画像の整合性を強制する,新しい軽量GANアーキテクチャに貢献する。
提案アーキテクチャでは、夜間と昼の両方の画像で動作するエッジ検出器の同時トレーニングも可能である。
トレーニング例の多様性をさらに高め,トレーニングモデルの一般化を最大化するために,多様なアンカーマイニング手法を提案する。
提案手法は,オックスフォードとパリのデータセットのパフォーマンスを保ちながら,標準的な東京24/7昼夜検索ベンチマークの最先端結果を改善する。
これは、昼と夜の画像に一致する画像のペアを訓練する必要がない。
ソースコードはhttps://github.com/mohwald/gandtr で公開されている。
Image retrieval methods based on CNN descriptors rely on metric learning from a large number of diverse examples of positive and negative image pairs. Domains, such as night-time images, with limited availability and variability of training data suffer from poor retrieval performance even with methods performing well on standard benchmarks. We propose to train a GAN-based synthetic-image generator, translating available day-time image examples into night images. Such a generator is used in metric learning as a form of augmentation, supplying training data to the scarce domain. Various types of generators are evaluated and analyzed. We contribute with a novel light-weight GAN architecture that enforces the consistency between the original and translated image through edge consistency. The proposed architecture also allows a simultaneous training of an edge detector that operates on both night and day images. To further increase the variability in the training examples and to maximize the generalization of the trained model, we propose a novel method of diverse anchor mining. The proposed method improves over the state-of-the-art results on a standard Tokyo 24/7 day-night retrieval benchmark while preserving the performance on Oxford and Paris datasets. This is achieved without the need of training image pairs of matching day and night images. The source code is available at https://github.com/mohwald/gandtr . | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-22 |
# ハイブリッドモデルに基づく特徴強化学習を用いたタスク間の不確実性認識伝達
Uncertainty-aware transfer across tasks using hybrid model-based successor feature reinforcement learning ( http://arxiv.org/abs/2310.10818v3 ) ライセンス: Link先を確認 | Parvin Malekzadeh, Ming Hou, Konstantinos N. Plataniotis, | (参考訳) サンプル効率は、複雑かつ大規模な意思決定問題に対する実践的強化学習(RL)の開発の中心である。
従来の経験から得られた知識を下流のタスクに伝達し、一般化する能力は、サンプル効率を大幅に向上させることができる。
近年の研究では、後継機能(SF)RLアルゴリズムは、異なる報酬を持つタスク間の知識一般化を可能にするが、遷移ダイナミクスは同一である。
近年、モデルベース(MB)法とSFアルゴリズムを組み合わせることで、固定遷移力学の限界を緩和できるという仮説が提唱されている。
さらに, 不確実性認識探索は, サンプル効率向上のための別の魅力的なアプローチとして広く認識されている。
ハイブリッドモデルベースの後継機能(MB-SF)と不確実性(不確実性)の2つのアイデアを組み合わせることで、異なる遷移ダイナミクスや報酬関数を持つタスク間での効率的な不確実性を考慮した知識伝達の問題へのアプローチにつながる。
本稿では、カルマンフィルタ(KF)に基づく多重モデル適応推定により、各アクションの値の不確かさを近似する。
このKFベースのフレームワークは、モデルのパラメータをランダム変数として扱う。
我々の知識を最大限に活用するために、これはMB-SFのハイブリッドアルゴリズムを定式化する最初の試みである。
タスクの学習に必要なサンプル数は、最近のSFやMBベースラインと比較された。
その結果,本アルゴリズムは,異なる遷移力学の知識を一般化し,スクラッチから始めるよりもはるかに少ないサンプルで下流タスクを学習し,既存のアプローチよりも優れていた。
Sample efficiency is central to developing practical reinforcement learning (RL) for complex and large-scale decision-making problems. The ability to transfer and generalize knowledge gained from previous experiences to downstream tasks can significantly improve sample efficiency. Recent research indicates that successor feature (SF) RL algorithms enable knowledge generalization between tasks with different rewards but identical transition dynamics. It has recently been hypothesized that combining model-based (MB) methods with SF algorithms can alleviate the limitation of fixed transition dynamics. Furthermore, uncertainty-aware exploration is widely recognized as another appealing approach for improving sample efficiency. Putting together two ideas of hybrid model-based successor feature (MB-SF) and uncertainty leads to an approach to the problem of sample efficient uncertainty-aware knowledge transfer across tasks with different transition dynamics or/and reward functions. In this paper, the uncertainty of the value of each action is approximated by a Kalman filter (KF)-based multiple-model adaptive estimation. This KF-based framework treats the parameters of a model as random variables. To the best of our knowledge, this is the first attempt at formulating a hybrid MB-SF algorithm capable of generalizing knowledge across large or continuous state space tasks with various transition dynamics while requiring less computation at decision time than MB methods. The number of samples required to learn the tasks was compared to recent SF and MB baselines. The results show that our algorithm generalizes its knowledge across different transition dynamics, learns downstream tasks with significantly fewer samples than starting from scratch, and outperforms existing approaches. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# タクシーの局所ホットスポットの空間配置における階層的付随と抑制パターン
Hierarchical accompanying and inhibiting patterns on the spatial arrangement of taxis' local hotspots ( http://arxiv.org/abs/2310.11806v2 ) ライセンス: Link先を確認 | Xiao-Jian Chen, Changjiang Xiao, Zhou Huanga, Keli Wang, Weiyu Zhang, Quanhua Dong, Yu Liu, | (参考訳) タクシーホットスポットの空間配置は, 空間構造を反映した分布関係を示し, 都市研究で注目されている。
従来の研究では、視覚分析や単純な指標によって大規模なホットスポットを探索しており、ホットスポットは通常中央の事業地区全体、駅、あるいは密集した住宅地をカバーし、半径は数百から数千メートルに達する。
しかし, 小型ホットスポットの空間配置パターンは, 一般的なピックアップ・アンド・ドロップオフの場所を反映したもので, あまり注目されていない。
本研究は,中国武漢市と北京市において,タクシーの軌跡データを用いて,微粒な局部ホットスポットの空間配置を定量的に検討した。
ホットスポットは、武漢では90m*90m、北京では105m*105mと同一視されている。
人気のホットスポットは一般的にあまり人気のないホットスポットに囲まれているが、人気のあるホットスポットが多い地域では人気が低いホットスポットの存在を妨げている。
これらの構成は階層的な伴奏であり、パターンを阻害する。
最後に、両方のパターンにインスパイアされ、これらの関係を記述するためにKNNベースのモデルが開発され、最もポピュラーでないホットスポットの空間分布を再現することに成功した。
これらの知見は、都市構造の理解を高め、都市計画を支援する。
The spatial arrangement of taxi hotspots indicates their inherent distribution relationships, reflecting spatial organization structure and has received attention in urban studies. Previous studies mainly explore large-scale hotspots by visual analysis or simple indexes, where hotspots usually cover the entire central business district, train stations, or dense residential areas, reaching a radius of hundreds or even thousands of meters. However, the spatial arrangement patterns of small-scale hotspots, reflecting the specific popular pick-up and drop-off locations, have not received much attention. This study quantitatively examines the spatial arrangement of fine-grained local hotspots in Wuhan and Beijing, China, using taxi trajectory data. Hotspots are adaptatively identified with sizes of 90m*90m in Wuhan and 105m*105m in Beijing according to identification method. Findings show popular hotspots are typically surrounded by less popular ones, though regions with many popular hotspots inhibit the presence of less popular ones. We term these configurations as hierarchical accompany and inhibiting patterns. Finally, inspired by both patterns, a KNN-based model is developed to describe these relationships, successfully reproducing the spatial distribution of less popular hotspots based on the most popular ones. These insights enhance understanding of local urban structures and support urban planning. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# 連続的セマンティックセグメンテーションに関する調査-理論・挑戦・方法・応用
A Survey on Continual Semantic Segmentation: Theory, Challenge, Method and Application ( http://arxiv.org/abs/2310.14277v2 ) ライセンス: Link先を確認 | Bo Yuan, Danpei Zhao, | (参考訳) 継続的学習は、漸進的学習または生涯学習としても知られ、ディープラーニングとAIシステムの最前線にある。
クローズセットでの片道トレーニングの障害を突破し、オープンセット条件での継続的適応学習を可能にする。
最近の10年間で、連続学習は、特に分類、検出、セグメンテーションタスクをカバーするコンピュータビジョンにおいて、複数の分野で研究され、応用されてきた。
連続的セマンティックセグメンテーション(CSS)は、密集した予測特異性によって困難で複雑で波及的なタスクとなる。
本稿では,CSSを概観し,問題定式化,主課題,普遍データセット,新奇理論,多言語アプリケーションに関する総合的な調査を行う。
具体的には、問題の定義と主要な課題を解明することから始める。
関連するアプローチの詳細な調査に基づいて、現在のCSSモデルを、データ再生とデータフリーセットを含む2つのメインブランチに分類し、分類する。
各ブランチにおいて、対応するアプローチは類似性に基づいてクラスタ化され、完全に分析され、質的な比較と関連するデータセットの定量的な再現に続く。
さらに、多様なアプリケーションシナリオと開発傾向を持つ4つのCSS特長も導入しています。
さらに、代表参照、評価結果、再現を含むCSSのベンチマークを開発し、~\url{https://github.com/YBIO/SurveyCSS}で利用可能である。
我々は,この調査が,生涯学習分野の発展への基準的かつ刺激的な貢献でありつつ,関連する分野に価値ある視点を提供することができることを願っている。
Continual learning, also known as incremental learning or life-long learning, stands at the forefront of deep learning and AI systems. It breaks through the obstacle of one-way training on close sets and enables continuous adaptive learning on open-set conditions. In the recent decade, continual learning has been explored and applied in multiple fields especially in computer vision covering classification, detection and segmentation tasks. Continual semantic segmentation (CSS), of which the dense prediction peculiarity makes it a challenging, intricate and burgeoning task. In this paper, we present a review of CSS, committing to building a comprehensive survey on problem formulations, primary challenges, universal datasets, neoteric theories and multifarious applications. Concretely, we begin by elucidating the problem definitions and primary challenges. Based on an in-depth investigation of relevant approaches, we sort out and categorize current CSS models into two main branches including data-replay and data-free sets. In each branch, the corresponding approaches are similarity-based clustered and thoroughly analyzed, following qualitative comparison and quantitative reproductions on relevant datasets. Besides, we also introduce four CSS specialities with diverse application scenarios and development tendencies. Furthermore, we develop a benchmark for CSS encompassing representative references, evaluation results and reproductions, which is available at~\url{https://github.com/YBIO/SurveyCSS}. We hope this survey can serve as a reference-worthy and stimulating contribution to the advancement of the life-long learning field, while also providing valuable perspectives for related fields. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# 低次元グラディエントによる分布外検出
Low-Dimensional Gradient Helps Out-of-Distribution Detection ( http://arxiv.org/abs/2310.17163v2 ) ライセンス: Link先を確認 | Yingwen Wu, Tao Li, Xinwen Cheng, Jie Yang, Xiaolin Huang, | (参考訳) 現実世界のシナリオにおいて、ディープニューラルネットワーク(DNN)の信頼性を確保するためには、OOD(out-of-distribution)サンプルの検出が不可欠である。
従来の研究では, 情報分析による内分布(ID)とOODデータの相違について主に検討されてきたが, DNNの後方過程におけるパラメータ勾配の相違は注目されていない。
勾配の相違に関する既存の研究は、主に勾配の基準の利用に焦点を当て、勾配の方向に埋め込まれた情報の豊富さを無視している。
本稿では,このギャップを埋めるため,OOD検出のための勾配情報全体の活用を包括的に検討する。
主な課題は、ネットワークパラメータの多さによる勾配の高次元性から生じる。
この問題を解決するために,主成分を含む指定された部分空間を用いて勾配の線形次元削減を行う。
この革新的な手法により、情報損失を最小限に抑えた勾配の低次元表現が得られる。
その後,様々な検出スコア関数に還元勾配を組み込むことで,幅広い検出タスクにまたがる優れた性能を示す。
例えば、ResNet50モデルを用いたImageNetベンチマークでは、現在の最先端手法と比較して、偽陽性率95$\%$リコール(FPR95)の平均11.15$\%$が達成されている。
コードはリリースされます。
Detecting out-of-distribution (OOD) samples is essential for ensuring the reliability of deep neural networks (DNNs) in real-world scenarios. While previous research has predominantly investigated the disparity between in-distribution (ID) and OOD data through forward information analysis, the discrepancy in parameter gradients during the backward process of DNNs has received insufficient attention. Existing studies on gradient disparities mainly focus on the utilization of gradient norms, neglecting the wealth of information embedded in gradient directions. To bridge this gap, in this paper, we conduct a comprehensive investigation into leveraging the entirety of gradient information for OOD detection. The primary challenge arises from the high dimensionality of gradients due to the large number of network parameters. To solve this problem, we propose performing linear dimension reduction on the gradient using a designated subspace that comprises principal components. This innovative technique enables us to obtain a low-dimensional representation of the gradient with minimal information loss. Subsequently, by integrating the reduced gradient with various existing detection score functions, our approach demonstrates superior performance across a wide range of detection tasks. For instance, on the ImageNet benchmark with ResNet50 model, our method achieves an average reduction of 11.15$\%$ in the false positive rate at 95$\%$ recall (FPR95) compared to the current state-of-the-art approach. The code would be released. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# 近時無期限履歴を用いた汎用検索型医療予測モデル
General-Purpose Retrieval-Enhanced Medical Prediction Model Using Near-Infinite History ( http://arxiv.org/abs/2310.20204v4 ) ライセンス: Link先を確認 | Junu Kim, Chaeeun Shim, Bosco Seong Kyu Yang, Chami Im, Sung Yoon Lim, Han-Gil Jeong, Edward Choi, | (参考訳) 機械学習(ML)は先日,電子健康記録(EHR)を用いた医療予測において有望な結果を示した。
しかし、MLモデルは通常、入力サイズに関して限られた能力を持つため、入力として使用するために EHR から特定の医療イベントを選択する必要がある。
この選択プロセスは、しばしば専門家の意見に依存し、開発においてボトルネックを引き起こす可能性がある。
このような課題に対処するために、検索型医療予測モデル(REMed)を提案する。
REMedは、基本的に無制限の医療イベントを評価し、関連するイベントを選択し、予測する。
これにより、制限なしの入力サイズが可能になり、手動のイベント選択が不要になる。
本研究は,REMedがベースラインを上回った4つの独立したコホートにおける27の臨床予測タスクを含む実験により,これらの特性を検証した。
特に,REMedの嗜好が医療専門家の嗜好と密接に一致していることが判明した。
我々は,手作業による介入の必要性を最小限に抑えて,EHR予測モデルの開発を著しく促進するアプローチを期待する。
Machine learning (ML) has recently shown promising results in medical predictions using electronic health records (EHRs). However, since ML models typically have a limited capability in terms of input sizes, selecting specific medical events from EHRs for use as input is necessary. This selection process, often relying on expert opinion, can cause bottlenecks in development. We propose Retrieval-Enhanced Medical prediction model (REMed) to address such challenges. REMed can essentially evaluate unlimited medical events, select the relevant ones, and make predictions. This allows for an unrestricted input size, eliminating the need for manual event selection. We verified these properties through experiments involving 27 clinical prediction tasks across four independent cohorts, where REMed outperformed the baselines. Notably, we found that the preferences of REMed align closely with those of medical experts. We expect our approach to significantly expedite the development of EHR prediction models by minimizing clinicians' need for manual involvement. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# 砂中の透かし:生成モデルにおける強透かしの可能性
Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models ( http://arxiv.org/abs/2311.04378v3 ) ライセンス: Link先を確認 | Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi, Giuseppe Ateniese, Boaz Barak, | (参考訳) 透かし生成モデルは、モデルの出力に統計信号(透かし)を植えることで、その出力が与えられたモデルによって生成されたことを後から検証することができる。
強い透かし方式は、計算的に拘束された攻撃者が、大幅な品質劣化を引き起こすことなく、透かしを消去できない性質を満たす。
本稿では,強透かし方式の可能性について検討する。
我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
これは、ウォーターマーク挿入と検出のアルゴリズムが攻撃者にとって未知の秘密鍵を共有する、プライベートな検出アルゴリズムの設定にも当てはまる。
この結果を証明するために,攻撃者はスキームの秘密鍵やどのスキームが使用されるかを知る必要がなく,汎用的な効果的なウォーターマーク攻撃を導入する。
我々の攻撃は,(1) 攻撃者は,(1) 候補者の出力がプロンプトに対する高品質な応答であるかどうかを評価することのできる「品質オラクル」にアクセスし,(2) 攻撃者は,品質を維持する非自明な確率で出力を変更できる「摂動オラクル」にアクセスでき,高品質な出力を効率的に混合したランダムウォークを誘導する。
我々は、どちらの仮定も、攻撃者がブラックボックスアクセスしか持たないウォーターマークモデル自体よりも弱い計算能力を持つ攻撃者によって現実的に満足できると論じる。
さらに、私たちの仮定は、モデルが能力とモダリティで成長するにつれて、時間の経過とともに満足しやすくなるでしょう。
我々は、大規模な言語モデルのための既存の3つの透かしスキーム、Kirchenbauer et al (2023)、Kuditipudi et al (2023)、Zhao et al (2023)をインスタンス化して、攻撃の可能性を示す。
同じ攻撃で、3つのスキームすべてで植えられた透かしが取り除かれた。
Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# 医学における大規模言語モデル : 進歩, 応用, 課題
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge ( http://arxiv.org/abs/2311.05112v7 ) ライセンス: Link先を確認 | Hongjian Zhou, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Chenyu You, Xian Wu, Yefeng Zheng, Lei Clifton, Zheng Li, Jiebo Luo, David A. Clifton, | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の言語を理解して生成する能力のために、かなりの注目を集めている。
様々な医療業務(例えば、臨床診断の強化、医学教育の提供)におけるLSMの活用に焦点をあてた研究が盛んに行われているが、これらの取り組み、特にその開発、実践的応用、医学における成果のレビューは乏しいままである。
そこで本報告では,医学におけるLSMの開発と展開について,それらが直面する課題や機会を概観する。
開発に関しては,基礎的なモデル構造,パラメータの数,モデル開発に使用されるデータソースとスケールなど,既存の医療用LCMの原理を詳細に紹介する。
特定のニーズに合わせて医療用LLMを開発する実践者のためのガイドとして機能する。
展開の面では、様々な医療タスクにおける異なるLSMの性能の比較を行い、さらに医学におけるLSMの利点と限界を理解することを目的として、最先端の軽量モデルと比較する。
全体として、このレビューでは、以下の疑問に対処する。
1)医療用LSMの開発における実践
2) 医療現場におけるLCMの医療タスクパフォーマンスの測定方法
3)医療用LLMはどのようにして現実の実践に使われてきたか?
4) 医療用LSMの使用による課題は何か。
そして
5)医療用LLMをより効果的に開発・展開する方法
これらの疑問に答えることにより、医学におけるLSMの機会についての洞察を提供し、実践的な資源として機能することを目的としている。
また、医療用LCMの実践的ガイドをhttps://github.com/AI-in-Health/MedLLMsPracticalGuideで定期的に更新している。
Large language models (LLMs), such as ChatGPT, have received substantial attention due to their capabilities for understanding and generating human language. While there has been a burgeoning trend in research focusing on the employment of LLMs in supporting different medical tasks (e.g., enhancing clinical diagnostics and providing medical education), a review of these efforts, particularly their development, practical applications, and outcomes in medicine, remains scarce. Therefore, this review aims to provide a detailed overview of the development and deployment of LLMs in medicine, including the challenges and opportunities they face. In terms of development, we provide a detailed introduction to the principles of existing medical LLMs, including their basic model structures, number of parameters, and sources and scales of data used for model development. It serves as a guide for practitioners in developing medical LLMs tailored to their specific needs. In terms of deployment, we offer a comparison of the performance of different LLMs across various medical tasks, and further compare them with state-of-the-art lightweight models, aiming to provide an understanding of the advantages and limitations of LLMs in medicine. Overall, in this review, we address the following questions: 1) What are the practices for developing medical LLMs 2) How to measure the medical task performance of LLMs in a medical setting? 3) How have medical LLMs been employed in real-world practice? 4) What challenges arise from the use of medical LLMs? and 5) How to more effectively develop and deploy medical LLMs? By answering these questions, this review aims to provide insights into the opportunities for LLMs in medicine and serve as a practical resource. We also maintain a regularly updated list of practical guides on medical LLMs at https://github.com/AI-in-Health/MedLLMsPracticalGuide | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# PPAD:エンドツーエンド自動運転の予測と計画の反復的相互作用
PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving ( http://arxiv.org/abs/2311.08100v4 ) ライセンス: Link先を確認 | Zhili Chen, Maosheng Ye, Shuangjie Xu, Tongyi Cao, Qifeng Chen, | (参考訳) 本稿では, 予測と計画の時間的相互作用を考慮した, PPAD (Iterative Interaction of Prediction and Planning autonomous Driving) と呼ばれる, エンドツーエンドの自動運転の予測と計画のための新たなインタラクション機構を提案する。
エゴ車両は、周囲のエージェント(例えば、車両、歩行者)とその局所道路条件の軌跡予測に基づいて、各タイミングで運動計画を実行する。
既存のエンドツーエンドの自律走行フレームワークとは異なり、PPADは、予測と計画のプロセスを各タイミングでインターリーブすることで、エゴ、エージェント、動的環境間の相互作用を自己回帰的にモデル化する。
具体的には,ego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,階層的動的キーオブジェクトに着目し,インタラクションをモデル化する。
nuScenesベンチマークの実験により、我々の手法は最先端の手法よりも優れていることが示された。
We present a new interaction mechanism of prediction and planning for end-to-end autonomous driving, called PPAD (Iterative Interaction of Prediction and Planning Autonomous Driving), which considers the timestep-wise interaction to better integrate prediction and planning. An ego vehicle performs motion planning at each timestep based on the trajectory prediction of surrounding agents (e.g., vehicles and pedestrians) and its local road conditions. Unlike existing end-to-end autonomous driving frameworks, PPAD models the interactions among ego, agents, and the dynamic environment in an autoregressive manner by interleaving the Prediction and Planning processes at every timestep, instead of a single sequential process of prediction followed by planning. Specifically, we design ego-to-agent, ego-to-map, and ego-to-BEV interaction mechanisms with hierarchical dynamic key objects attention to better model the interactions. The experiments on the nuScenes benchmark show that our approach outperforms state-of-the-art methods. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# MeLo: 医用画像診断のためのファインチューニングよりも低ランク適応が優れている
MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis ( http://arxiv.org/abs/2311.08236v2 ) ライセンス: Link先を確認 | Yitao Zhu, Zhenrong Shen, Zihao Zhao, Sheng Wang, Xin Wang, Xiangyu Zhao, Dinggang Shen, Qian Wang, | (参考訳) トランスフォーマーアーキテクチャに基づくコンピュータ支援診断(CAD)モデルの開発における一般的な実践は、通常、ImageNet事前学習重量の微調整を伴う。
しかし、近年の大規模事前訓練やスケーリング法則の進歩により、ヴィジュアルトランスフォーマー(ViT)は医療画像のコミュニティではより大きくなり、アクセスしにくくなっている。
さらに、現実のシナリオでは、ストレージスペースの制限や時間を要するモデルスイッチングといった問題により、複数のCADモデルのデプロイが面倒になる可能性がある。
これらの課題に対処するため、我々は、複数の臨床タスクを対象とした単一のCADモデルの開発を軽量に行えるMeLo(医療画像低ランク適応)を提案する。
リソース要求の微調整ではなく、低ランク適応を採用する。
ViTモデルの重みを固定し、少量の低ランクプラグインを追加することで、訓練可能なパラメータのみを用いて、様々な画像モダリティの様々な診断タスクにおける競合結果を得る。
具体的には、約0.17%のトレーニング可能なパラメータを用いて、4つの異なる医用画像データセット上で、完全に微調整されたViTモデルに匹敵する性能を実現する。
さらに、MeLoは約0.5MBのストレージスペースのみを追加し、デプロイと推論において極めて高速なモデルスイッチを可能にする。
私たちのソースコードと事前トレーニングされたウェイトは、私たちのWebサイト(https://absterzhu.github.io/melo.github.io/)で利用可能です。
The common practice in developing computer-aided diagnosis (CAD) models based on transformer architectures usually involves fine-tuning from ImageNet pre-trained weights. However, with recent advances in large-scale pre-training and the practice of scaling laws, Vision Transformers (ViT) have become much larger and less accessible to medical imaging communities. Additionally, in real-world scenarios, the deployments of multiple CAD models can be troublesome due to problems such as limited storage space and time-consuming model switching. To address these challenges, we propose a new method MeLo (Medical image Low-rank adaptation), which enables the development of a single CAD model for multiple clinical tasks in a lightweight manner. It adopts low-rank adaptation instead of resource-demanding fine-tuning. By fixing the weight of ViT models and only adding small low-rank plug-ins, we achieve competitive results on various diagnosis tasks across different imaging modalities using only a few trainable parameters. Specifically, our proposed method achieves comparable performance to fully fine-tuned ViT models on four distinct medical imaging datasets using about 0.17% trainable parameters. Moreover, MeLo adds only about 0.5MB of storage space and allows for extremely fast model switching in deployment and inference. Our source code and pre-trained weights are available on our website (https://absterzhu.github.io/melo.github.io/). | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-22 |
# LDConv:畳み込みニューラルネットワーク改善のための線形変形可能な畳み込み
LDConv: Linear deformable convolution for improving convolutional neural networks ( http://arxiv.org/abs/2311.11587v3 ) ライセンス: Link先を確認 | Xin Zhang, Yingze Song, Tingting Song, Degang Yang, Yichen Ye, Jie Zhou, Liming Zhang, | (参考訳) 畳み込み操作に基づくニューラルネットワークは、ディープラーニングの分野で顕著な成果を上げているが、標準的な畳み込み操作には2つの固有の欠陥がある。
一方、畳み込み操作はローカルウィンドウに制限されているため、他の場所からの情報をキャプチャできず、そのサンプル形状を固定する。
一方、畳み込み核のサイズは k$\times$ k に固定されており、これは固定された正方形であり、パラメータの数はサイズとともに正方形に増加する傾向にある。
変形可能な畳み込み(Deformable Convolution, 変形可能な畳み込み)は、標準畳み込みの固定サンプリングの問題に対処するが、パラメータの数も正方形に増加する傾向にある。
上記の質問に応えて、Linear Deformable Convolution (LDConv) が研究され、畳み込みカーネルに任意の数のパラメータと任意のサンプル形状を与え、ネットワークオーバヘッドとパフォーマンスのトレードオフのためのよりリッチなオプションを提供する。
LDConvでは、任意のサイズの畳み込みカーネルに対して異なる初期サンプル位置を生成するために、新しい座標生成アルゴリズムが定義される。
ターゲットの変化に適応するために、各位置にサンプルの形状を調整するためにオフセットが導入された。
LDConvは、標準畳み込みと変形可能なConvのパラメータ数の成長傾向を線形成長に補正する。
さらに、不規則な畳み込み操作による効率的な特徴抽出のプロセスを完了し、畳み込みサンプル形状に対するさらなる探索オプションを提供する。
代表的なデータセットCOCO2017、VOC 7+12、VisDrone-DET2021のオブジェクト検出実験は、LDConvの利点を十分に証明している。
LDConvは、ネットワーク性能を改善するために畳み込み操作を置き換えることができる、プラグアンドプレイの畳み込み操作である。
関連するタスクのコードはhttps://github.com/CV-ZhangXin/LDConv.orgにある。
Neural networks based on convolutional operations have achieved remarkable results in the field of deep learning, but there are two inherent flaws in standard convolutional operations. On the one hand, the convolution operation is confined to a local window, so it cannot capture information from other locations, and its sampled shapes is fixed. On the other hand, the size of the convolutional kernel are fixed to k $\times$ k, which is a fixed square shape, and the number of parameters tends to grow squarely with size. Although Deformable Convolution (Deformable Conv) address the problem of fixed sampling of standard convolutions, the number of parameters also tends to grow in a squared manner. In response to the above questions, the Linear Deformable Convolution (LDConv) is explored in this work, which gives the convolution kernel an arbitrary number of parameters and arbitrary sampled shapes to provide richer options for the trade-off between network overhead and performance. In LDConv, a novel coordinate generation algorithm is defined to generate different initial sampled positions for convolutional kernels of arbitrary size. To adapt to changing targets, offsets are introduced to adjust the shape of the samples at each position. LDConv corrects the growth trend of the number of parameters for standard convolution and Deformable Conv to a linear growth. Moreover, it completes the process of efficient feature extraction by irregular convolutional operations and brings more exploration options for convolutional sampled shapes. Object detection experiments on representative datasets COCO2017, VOC 7+12, and VisDrone-DET2021 fully demonstrate the advantages of LDConv. LDConv is a plug-and-play convolutional operation that can replace the convolutional operation to improve network performance. The code for the relevant tasks can be found at https://github.com/CV-ZhangXin/LDConv. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-22 |
# セマンティックシフトのための1つのサイズ:継続的学習のための適応型プロンプトチューニング
One Size Fits All for Semantic Shifts: Adaptive Prompt Tuning for Continual Learning ( http://arxiv.org/abs/2311.12048v2 ) ライセンス: Link先を確認 | Doyoung Kim, Susik Yoon, Dongmin Park, Youngjun Lee, Hwanjun Song, Jihwan Bang, Jae-Gil Lee, | (参考訳) 現実世界の連続学習(CL)のシナリオでは、タスクは複雑で予測不可能なセマンティックシフトを示し、一様度(一様または一様に突然)のセマンティックシフトのみを扱うように調整された、固定されたプロンプト管理戦略の課題を提起する。
この制限に対処するため,緩やかな変化と急激な変化が混在する度合いのセマンティックシフトを効果的に対応できる適応的プロンプト手法を提案する。
AdaPromptCLは、タスク間のセマンティックな類似性に応じてプロンプトグループを動的に管理するアサイン・アンド・リファインなセマンティック・グループ化機構を採用し、継続的な改善を通じてグループ化の質を高める。
実験の結果,AdaPromptCLはタスク間のセマンティックシフトの異なるベンチマークデータセットにおいて,既存のプロンプトメソッドを最大21.3%上回る性能を示した。
In real-world continual learning (CL) scenarios, tasks often exhibit intricate and unpredictable semantic shifts, posing challenges for fixed prompt management strategies which are tailored to only handle semantic shifts of uniform degree (i.e., uniformly mild or uniformly abrupt). To address this limitation, we propose an adaptive prompting approach that effectively accommodates semantic shifts of varying degree where mild and abrupt shifts are mixed. AdaPromptCL employs the assign-and-refine semantic grouping mechanism that dynamically manages prompt groups in accordance with the semantic similarity between tasks, enhancing the quality of grouping through continuous refinement. Our experiment results demonstrate that AdaPromptCL outperforms existing prompting methods by up to 21.3%, especially in the benchmark datasets with diverse semantic shifts between tasks. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-22 |
# 3D-GOI:多面・多対象編集のための3D GAN Omni-Inversion
3D-GOI: 3D GAN Omni-Inversion for Multifaceted and Multi-object Editing ( http://arxiv.org/abs/2311.12050v4 ) ライセンス: Link先を確認 | Haoran Li, Long Ma, Yong Liao, Lechao Cheng, Yanbin Hao, Pengyuan Zhou, | (参考訳) 現在のGANインバージョン法は、通常、空間情報を見下ろしながら、単一のオブジェクトと背景の外観と形状を編集するだけである。
本研究では,アフィン情報(スケール,翻訳,回転)の多面的編集を可能にする3D編集フレームワークである3D-GOIを提案する。
3D-GOIは、有名な3D GANであるGIRAFFEによって制御された属性コード(オブジェクト形状/外観/スケール/回転/変換、背景形状/外観、カメラポーズ)を反転させることで、複雑な編集機能を実現する。
3D-GOIは、この課題を3つの主要なステップに従って解決する。
まず、対象物と背景を多目的画像に分割する。
第二に、各オブジェクトの粗いコードを取得するために、カスタムのNeural Inversion Encoderを使用します。
最後に、ラウンドロビン最適化アルゴリズムを用いて正確なコードを取得し、画像を再構成する。
私たちの知る限りでは、3D-GOIは複数のオブジェクトで多面的な編集を可能にする最初のフレームワークです。
定性的かつ定量的な実験は、3D-GOIが複雑な多目的シーンで柔軟で多面的な編集の可能性を秘めていることを示している。
The current GAN inversion methods typically can only edit the appearance and shape of a single object and background while overlooking spatial information. In this work, we propose a 3D editing framework, 3D-GOI, to enable multifaceted editing of affine information (scale, translation, and rotation) on multiple objects. 3D-GOI realizes the complex editing function by inverting the abundance of attribute codes (object shape/appearance/scale/rotation/translation, background shape/appearance, and camera pose) controlled by GIRAFFE, a renowned 3D GAN. Accurately inverting all the codes is challenging, 3D-GOI solves this challenge following three main steps. First, we segment the objects and the background in a multi-object image. Second, we use a custom Neural Inversion Encoder to obtain coarse codes of each object. Finally, we use a round-robin optimization algorithm to get precise codes to reconstruct the image. To the best of our knowledge, 3D-GOI is the first framework to enable multifaceted editing on multiple objects. Both qualitative and quantitative experiments demonstrate that 3D-GOI holds immense potential for flexible, multifaceted editing in complex multi-object scenes.Our project and code are released at https://3d-goi.github.io . | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-22 |
# MergeSFL: 機能マージとバッチサイズ規制を備えたフェデレーション学習
MergeSFL: Split Federated Learning with Feature Merging and Batch Size Regulation ( http://arxiv.org/abs/2311.13348v2 ) ライセンス: Link先を確認 | Yunming Liao, Yang Xu, Hongli Xu, Lun Wang, Zhiwei Yao, Chunming Qiao, | (参考訳) 近年、エッジコンピューティング(EC)システムにおいて、エッジAIが貴重な知識をマイニングするための一般的な技術として、フェデレーションドラーニング(FL)が登場している。
資源制約のある労働者の計算/通信負担を軽減し、モデルのプライバシを保護するため、データとモデル並列性を統合した分割フェデレーションラーニング(SFL)がリリースされた。
資源制限にもかかわらず、SFLはECにおける他の2つの重要な課題、すなわち統計的不均一性とシステム不均一性に直面している。
これらの課題に対処するために,機能マージとバッチサイズ制御をSFLに組み込むことにより,MergeSFLと呼ばれる新しいSFLフレームワークを提案する。
具体的には、IIDデータから得られた特徴とほぼ同等の混合特徴系列に労働者の機能をマージし、モデルの精度を高めることを目的としている。
バッチサイズ規制は、多種多様なバッチサイズを異種労働者に割り当てて、トレーニング効率を向上させることを目的としている。
さらに、MergeSFLは、これらの2つの戦略を結合関係上で協調的に最適化し、SFLの性能向上を図る。
80個のNVIDIA Jetsonエッジデバイスを持つ物理プラットフォーム上で大規模な実験が行われ、実験結果はMergeSFLが最終モデルの精度を5.82%から26.22%改善し、ベースラインに比べて約1.74倍から4.14倍高速化できることを示している。
Recently, federated learning (FL) has emerged as a popular technique for edge AI to mine valuable knowledge in edge computing (EC) systems. To mitigate the computing/communication burden on resource-constrained workers and protect model privacy, split federated learning (SFL) has been released by integrating both data and model parallelism. Despite resource limitations, SFL still faces two other critical challenges in EC, i.e., statistical heterogeneity and system heterogeneity. To address these challenges, we propose a novel SFL framework, termed MergeSFL, by incorporating feature merging and batch size regulation in SFL. Concretely, feature merging aims to merge the features from workers into a mixed feature sequence, which is approximately equivalent to the features derived from IID data and is employed to promote model accuracy. While batch size regulation aims to assign diverse and suitable batch sizes for heterogeneous workers to improve training efficiency. Moreover, MergeSFL explores to jointly optimize these two strategies upon their coupled relationship to better enhance the performance of SFL. Extensive experiments are conducted on a physical platform with 80 NVIDIA Jetson edge devices, and the experimental results show that MergeSFL can improve the final model accuracy by 5.82% to 26.22%, with a speedup by about 1.74x to 4.14x, compared to the baselines. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-22 |
# SEGIC: インコンテキストセグメンテーションのための創発的対応を開放する
SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation ( http://arxiv.org/abs/2311.14671v3 ) ライセンス: Link先を確認 | Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M. Alvarez, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) インコンテキストセグメンテーション(In-context segmentation)は、いくつかのラベル付き例画像を用いて、サンプルとターゲットの間のコンテンツ類似性を探ることを目的としている。
得られたモデルは、新しいセグメンテーションタスクにシームレスに一般化することができ、従来のパイプラインと比較してラベル付けとトレーニングコストを大幅に削減できる。
しかし、コンテキスト内セグメンテーションは、モデルがいくつかのサンプルで条件付けられたセグメンテーションルールを学習する必要がある古典的セグメンテーションよりも難しい。
アドホックや非エンドツーエンドの設計と異なり、単一ビジョン基盤モデル(VFM)上に構築されたエンドツーエンドのセグメント・イン・コンテクストフレームワークであるSEGICを提案する。
特に、SEGICは、VFM内の創発的対応を利用して、ターゲット画像とコンテキスト内サンプル間の密接な関係をキャプチャする。
そのため、文脈内サンプルからの情報は幾何学的、視覚的、メタ的な3種類の命令に抽出され、最終的なマスク予測の明確な条件として機能する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
特に、SEGICは、ビデオオブジェクトのセグメンテーションやオープン語彙のセグメンテーションなど、様々なタスクに簡単に一般化できる。
コードはhttps://github.com/MengLcool/SEGICで入手できる。
In-context segmentation aims at segmenting novel images using a few labeled example images, termed as "in-context examples", exploring content similarities between examples and the target. The resulting models can be generalized seamlessly to novel segmentation tasks, significantly reducing the labeling and training costs compared with conventional pipelines. However, in-context segmentation is more challenging than classic ones requiring the model to learn segmentation rules conditioned on a few samples. Unlike previous work with ad-hoc or non-end-to-end designs, we propose SEGIC, an end-to-end segment-in-context framework built upon a single vision foundation model (VFM). In particular, SEGIC leverages the emergent correspondence within VFM to capture dense relationships between target images and in-context samples. As such, information from in-context samples is then extracted into three types of instructions, i.e. geometric, visual, and meta instructions, serving as explicit conditions for the final mask prediction. SEGIC is a straightforward yet effective approach that yields state-of-the-art performance on one-shot segmentation benchmarks. Notably, SEGIC can be easily generalized to diverse tasks, including video object segmentation and open-vocabulary segmentation. Code will be available at https://github.com/MengLcool/SEGIC. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-22 |
# ユーザインストラクションによるコンテキスト認識型屋内クラウドオブジェクト生成
Context-Aware Indoor Point Cloud Object Generation through User Instructions ( http://arxiv.org/abs/2311.16501v2 ) ライセンス: Link先を確認 | Yiyang Luo, Ke Lin, Chao Gu, | (参考訳) 屋内のシーン修正は、特に拡張現実(AR)と仮想現実(VR)の応用において、コンピュータビジョンにおいて顕著な領域として現れている。
従来のメソッドは、しばしば既存のオブジェクトデータベースと所定のオブジェクト位置に依存し、その柔軟性と新しいシナリオへの適応性を制限する。
この課題に対応するために、テキストによる指示によって駆動される、その周囲とシームレスに統合された点雲オブジェクトを生成することができる、新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。
本モデルでは,既往のオブジェクトレイアウトで新しい環境を作成できるようにし,事前記憶したCADモデルを不要にすることで,シーン修正に革命をもたらす。
生成モデルとしてPoint-Eを活用することで,不明瞭な言語記述から生じる偽陰性問題に対処するため,定量化位置予測やTop-K推定などの革新的な手法を導入する。
さらに,本論文では,生成対象の多様性,テキストによる指示の有効性,定量的指標を総合的に評価し,室内オブジェクト生成におけるモデルの現実性と汎用性を確認した。
モデルにより生成されたシーンの品質とコヒーレンスを保証し,視覚的グラウンド化を付加指標として包含する。
これらの進歩を通じて、屋内のシーン修正における最先端の進歩だけでなく、没入型コンピューティングとデジタル環境創造における将来のイノベーションの基盤も築き上げている。
Indoor scene modification has emerged as a prominent area within computer vision, particularly for its applications in Augmented Reality (AR) and Virtual Reality (VR). Traditional methods often rely on pre-existing object databases and predetermined object positions, limiting their flexibility and adaptability to new scenarios. In response to this challenge, we present a novel end-to-end multi-modal deep neural network capable of generating point cloud objects seamlessly integrated with their surroundings, driven by textual instructions. Our model revolutionizes scene modification by enabling the creation of new environments with previously unseen object layouts, eliminating the need for pre-stored CAD models. Leveraging Point-E as our generative model, we introduce innovative techniques such as quantized position prediction and Top-K estimation to address the issue of false negatives resulting from ambiguous language descriptions. Furthermore, we conduct comprehensive evaluations to showcase the diversity of generated objects, the efficacy of textual instructions, and the quantitative metrics, affirming the realism and versatility of our model in generating indoor objects. To provide a holistic assessment, we incorporate visual grounding as an additional metric, ensuring the quality and coherence of the scenes produced by our model. Through these advancements, our approach not only advances the state-of-the-art in indoor scene modification but also lays the foundation for future innovations in immersive computing and digital environment creation. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-22 |
# DragVideo:インタラクティブなドラッグスタイルのビデオ編集
DragVideo: Interactive Drag-style Video Editing ( http://arxiv.org/abs/2312.02216v3 ) ライセンス: Link先を確認 | Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang, | (参考訳) ビデオ生成モデルは、フォトリアリスティックなビデオを生成する優れた能力を示している。
しかし、ビデオを正確にコントロール(あるいは編集)する方法は、まだまだ難しい課題だ。
主な問題は次のとおりである。
1) 編集における直接的かつ正確なユーザコントロールの実施方法
2 形態、表現、レイアウトの変更等の編集を、目立たない歪みや編集内容のアーティファクトなしに行う方法。
3)編集後のビデオの時空間整合性を維持する方法。
以上の課題に対処するため,一般的なドラッグスタイルのビデオ編集フレームワークであるDragVideoを提案する。
DragGANにインスパイアされたDragVideoは問題に対処する
1)と
2) ドラッグ・スタイルの遅延最適化手法を提案し, ドラッグ・レベル・ドラッグ・オブジェクト・ファンクションを通したドラッグ・インストラクションに従ってノイズの多いビデオ・レイトを更新し, 所望の制御を行う。
We amend issue
3) ビデオ拡散モデルとサンプル特異的なLoRAとDragVideoの相互自己認識を組み合わせることで, 編集結果の時空間的整合性を確保する。
また、ドラッグスタイルのビデオ編集や、モーションやスケルトン編集など、さまざまな困難な編集タスクにわたる広範な実験、DragVideoのアンダースコーリングなど、ユーザの意図に忠実で、ほとんど目立たない歪みやアーティファクトを伴って、ビデオの編集を直感的に行うための一連のテスト例を提示する。
従来のプロンプトベースのビデオ編集では以前の2回は行われず、画像ドラッグの編集を直接適用しても最後には失敗するが、DragVideoの汎用性と汎用性が強調されている。
Githubのリンク:https://github.com/RickySkywalker/DragVideo-Official.com
Video generation models have shown their superior ability to generate photo-realistic video. However, how to accurately control (or edit) the video remains a formidable challenge. The main issues are: 1) how to perform direct and accurate user control in editing; 2) how to execute editings like changing shape, expression, and layout without unsightly distortion and artifacts to the edited content; and 3) how to maintain spatio-temporal consistency of video after editing. To address the above issues, we propose DragVideo, a general drag-style video editing framework. Inspired by DragGAN, DragVideo addresses issues 1) and 2) by proposing the drag-style video latent optimization method which gives desired control by updating noisy video latent according to drag instructions through video-level drag objective function. We amend issue 3) by integrating the video diffusion model with sample-specific LoRA and Mutual Self-Attention in DragVideo to ensure the edited result is spatio-temporally consistent. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion, skeleton editing, etc, underscoring DragVideo can edit video in an intuitive, faithful to the user's intention manner, with nearly unnoticeable distortion and artifacts, while maintaining spatio-temporal consistency. While traditional prompt-based video editing fails to do the former two and directly applying image drag editing fails in the last, DragVideo's versatility and generality are emphasized. Github link: https://github.com/RickySkywalker/DragVideo-Official. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-22 |
# コードの連鎖: 言語モデルの拡張されたコードエミュレータによる推論
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator ( http://arxiv.org/abs/2312.04474v3 ) ライセンス: Link先を確認 | Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter, | (参考訳) Codeは、複雑なプログラムを構築し、コードインタプリタとペアになったときに正確な計算を行うための一般的な構文構造を提供します。
LMはインタプリタで実行できる"detect_sarcasm(string)"の実装を書くのに苦労するかもしれません(エッジケースの処理は不要でしょう)。
しかし、LMはコードを記述するだけでなく、「detect_sarcasm(string)」の出力を生成することでインタプリタを選択的に"エミュレート"する。
本研究では,LMコード駆動推論を改善するシンプルな,驚くほど効果的な拡張であるChain of Code (CoC)を提案する。
キーとなる考え方は、LMがプログラム内のセマンティックサブタスクをフレキシブルな擬似コードとしてフォーマットすることを奨励し、インタープリタが明示的に定義されていない振る舞いをキャッチし、LMでシミュレートする("LMulator")ことである。
さまざまなベンチマークにおいて、Chain of CodeがChain of Thoughtやその他のベースラインよりも優れており、BIG-Bench Hardでは、Chain of Codeが84%、Chain of Thoughtよりも12%向上している。
簡単に言うと、CoCはLMが"コードで考える"ことで答えられるような推論の問題の範囲を広げている。
Code provides a general syntactic structure to build complex programs and perform precise computations when paired with a code interpreter - we hypothesize that language models (LMs) can leverage code-writing to improve Chain of Thought reasoning not only for logic and arithmetic tasks, but also for semantic ones (and in particular, those that are a mix of both). For example, consider prompting an LM to write code that counts the number of times it detects sarcasm in an essay: the LM may struggle to write an implementation for "detect_sarcasm(string)" that can be executed by the interpreter (handling the edge cases would be insurmountable). However, LMs may still produce a valid solution if they not only write code, but also selectively "emulate" the interpreter by generating the expected output of "detect_sarcasm(string)". In this work, we propose Chain of Code (CoC), a simple yet surprisingly effective extension that improves LM code-driven reasoning. The key idea is to encourage LMs to format semantic sub-tasks in a program as flexible pseudocode that the interpreter can explicitly catch undefined behaviors and hand off to simulate with an LM (as an "LMulator"). Experiments demonstrate that Chain of Code outperforms Chain of Thought and other baselines across a variety of benchmarks; on BIG-Bench Hard, Chain of Code achieves 84%, a gain of 12% over Chain of Thought. In a nutshell, CoC broadens the scope of reasoning questions that LMs can answer by "thinking in code". | 翻訳日:2024-07-24 05:16:54 公開日:2024-07-22 |
# サロゲートに基づくベイズ推論における不確かさの定量化と伝播
Uncertainty Quantification and Propagation in Surrogate-based Bayesian Inference ( http://arxiv.org/abs/2312.05153v2 ) ライセンス: Link先を確認 | Philipp Reiser, Javier Enrique Aguilar, Anneli Guthke, Paul-Christian Bürkner, | (参考訳) 代理モデルはより複雑なシミュレーションモデルに対する統計的あるいは概念的な近似である。
この文脈では、限られたシミュレーション予算によって引き起こされる不確実性を伝播し、予測、推論、およびそれに続く決定関連量に対する近似誤差を代理することが重要である。
しかしながら、サロゲートの不確かさの定量化と伝播は通常、特別な分析ケースに限られる。
本稿では,不確実な定量化,伝播,検証を徹底的に行うことによって,拡張性のあるベイズ的手法でモデリングをサロゲートするフレームワークを提案する。
具体的には,測定データを用いた代理モデルを用いたベイズ推定の3つの手法を提案する。
これは、サロゲートの不確実性の伝播が特に関係するタスクであり、その理由を説明できないと、関心のパラメータの偏りや過度な評価につながる可能性があるためである。
本稿では,線形および非線形実世界のモデリングシナリオに関する3つの詳細なケーススタディを紹介する。
代理モデルにおける不確実性伝播は、高価なシミュレータのより信頼性が高く安全な近似を可能にするため、様々な分野の応用に有用である。
Surrogate models are statistical or conceptual approximations for more complex simulation models. In this context, it is crucial to propagate the uncertainty induced by limited simulation budget and surrogate approximation error to predictions, inference, and subsequent decision-relevant quantities. However, quantifying and then propagating the uncertainty of surrogates is usually limited to special analytic cases or is otherwise computationally very expensive. In this paper, we propose a framework enabling a scalable, Bayesian approach to surrogate modeling with thorough uncertainty quantification, propagation, and validation. Specifically, we present three methods for Bayesian inference with surrogate models given measurement data. This is a task where the propagation of surrogate uncertainty is especially relevant, because failing to account for it may lead to biased and/or overconfident estimates of the parameters of interest. We showcase our approach in three detailed case studies for linear and nonlinear real-world modeling scenarios. Uncertainty propagation in surrogate models enables more reliable and safe approximation of expensive simulators and will therefore be useful in various fields of applications. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# Ensemble Kalman Filtering:非平均場とオンライン推論のためのガウスプロセスSSM
Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference ( http://arxiv.org/abs/2312.05910v5 ) ライセンス: Link先を確認 | Zhidi Lin, Yiyong Sun, Feng Yin, Alexandre Hoang Thiéry, | (参考訳) ガウス過程状態空間モデル(GPSSM)は、データ駆動非線形力学系モデルの多用途クラスを表す。
しかし、GPSSMにおける多くの潜伏変数の存在は、既存の変分推論アプローチ、特により現実的な非平均場(NMF)仮定の下では未解決の問題を引き起こす。
本稿では, モデルベースフィルタリング手法であるアンサンブルカルマンフィルタ(EnKF)をNMF変分推論フレームワークに組み込んで, 潜伏状態の後方分布を近似することで, これらの課題に対処する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能な閉形式近似を可能にする。
さらに、EnKFによるパラメータ化の合理化により、オンライン学習アプリケーションでは、新しいGPSSMモデルを容易に利用できる。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
また,提案アルゴリズムの詳細な分析と新たな洞察も提供する。
多様な実・合成データセット間の包括的評価は、既存の手法と比較して、EnKF支援変分推論アルゴリズムの優れた学習と推論性能を裏付ける。
The Gaussian process state-space models (GPSSMs) represent a versatile class of data-driven nonlinear dynamical system models. However, the presence of numerous latent variables in GPSSM incurs unresolved issues for existing variational inference approaches, particularly under the more realistic non-mean-field (NMF) assumption, including extensive training effort, compromised inference accuracy, and infeasibility for online applications, among others. In this paper, we tackle these challenges by incorporating the ensemble Kalman filter (EnKF), a well-established model-based filtering technique, into the NMF variational inference framework to approximate the posterior distribution of the latent states. This novel marriage between EnKF and GPSSM not only eliminates the need for extensive parameterization in learning variational distributions, but also enables an interpretable, closed-form approximation of the evidence lower bound (ELBO). Moreover, owing to the streamlined parameterization via the EnKF, the new GPSSM model can be easily accommodated in online learning applications. We demonstrate that the resulting EnKF-aided online algorithm embodies a principled objective function by ensuring data-fitting accuracy while incorporating model regularizations to mitigate overfitting. We also provide detailed analysis and fresh insights for the proposed algorithms. Comprehensive evaluation across diverse real and synthetic datasets corroborates the superior learning and inference performance of our EnKF-aided variational inference algorithms compared to existing methods. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# 対実世界モデリングによる物理力学の理解
Understanding Physical Dynamics with Counterfactual World Modeling ( http://arxiv.org/abs/2312.06721v3 ) ライセンス: Link先を確認 | Rahul Venkatesh, Honglin Chen, Kevin Feigelis, Daniel M. Bear, Khaled Jedoui, Klemen Kotar, Felix Binder, Wanhee Lee, Sherry Liu, Kevin A. Smith, Judith E. Fan, Daniel L. K. Yamins, | (参考訳) 物理力学を理解する能力は、エージェントが世界で行動するために重要である。
ここでは、動的理解のための視覚構造を抽出するために、CWM(Counterfactual World Modeling)を用いる。
CWMは、アノテーションなしでビデオデータのマスキング予測に時間分解マスキングポリシーを使用する。
このポリシーにより、アノテートされたデータセットを微調整することなく、単一の事前訓練された予測器から視覚構造のスペクトルを抽出することができる。
これらの構造は物理力学の理解に有用であることを示し、CWMがPhilonベンチマークの最先端性能を達成できることを示した。
The ability to understand physical dynamics is critical for agents to act in the world. Here, we use Counterfactual World Modeling (CWM) to extract vision structures for dynamics understanding. CWM uses a temporally-factored masking policy for masked prediction of video data without annotations. This policy enables highly effective "counterfactual prompting" of the predictor, allowing a spectrum of visual structures to be extracted from a single pre-trained predictor without finetuning on annotated datasets. We demonstrate that these structures are useful for physical dynamics understanding, allowing CWM to achieve the state-of-the-art performance on the Physion benchmark. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# GSQA: 創発的質問応答のためのエンドツーエンドモデル
GSQA: An End-to-End Model for Generative Spoken Question Answering ( http://arxiv.org/abs/2312.09781v4 ) ライセンス: Link先を確認 | Min-Han Shih, Ho-Lam Chung, Yu-Chi Pai, Ming-Hao Hsu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee, | (参考訳) 近年の音声質問応答 (QA) の進歩により, エンド・ツー・エンドのモデルは大きな進歩を遂げている。
しかし、これまでの研究では主に抽出スパンの選択に焦点が当てられていた。
この抽出に基づくアプローチは、入力の中に直接回答が存在する場合に有効であるが、解答が直接抽出されるのではなく、与えられた情報から推測されるような抽象的な疑問に対処するには不十分である。
このギャップを埋めるために,システムに抽象的推論を強制する,最初のエンドツーエンドのジェネレーティブ・スポット質問回答(GSQA)モデルを導入する。
GSQAモデルをトレーニングする上での課題は、音声抽象的なQAデータセットがないことです。
本稿では,テキスト生成モデルから音声生成モデルへ知識を伝達するために,抽出されたQAデータセットを初期化および活用するためにテキストモデルを提案する。
実験結果から, 抽出されたQAデータセットでは, 従来の抽出モデルよりも3%上回ったことが示唆された。
さらに、GSQAモデルは、音声抽出QAデータセット上でのみ微調整されている。
音声による抽象的なQAデータを見たことはないが、それでもカスケードモデルの性能と密に一致させることができる。
結論として,我々のGSQAモデルは,より広い範囲の質問に一般化できる可能性を示し,抽象的QAの音声質問応答能力をさらに拡張する。
私たちのコードはhttps://voidful.github.io/GSQAで利用可能です。
In recent advancements in spoken question answering (QA), end-to-end models have made significant strides. However, previous research has primarily focused on extractive span selection. While this extractive-based approach is effective when answers are present directly within the input, it falls short in addressing abstractive questions, where answers are not directly extracted but inferred from the given information. To bridge this gap, we introduce the first end-to-end Generative Spoken Question Answering (GSQA) model that empowers the system to engage in abstractive reasoning. The challenge in training our GSQA model lies in the absence of a spoken abstractive QA dataset. We propose using text models for initialization and leveraging the extractive QA dataset to transfer knowledge from the text generative model to the spoken generative model. Experimental results indicate that our model surpasses the previous extractive model by 3% on extractive QA datasets. Furthermore, the GSQA model has only been fine-tuned on the spoken extractive QA dataset. Despite not having seen any spoken abstractive QA data, it can still closely match the performance of the cascade model. In conclusion, our GSQA model shows the potential to generalize to a broad spectrum of questions, thus further expanding the spoken question answering capabilities of abstractive QA. Our code is available at https://voidful.github.io/GSQA | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# T-MAE:ポイントクラウド表現学習のためのテンポラルマスク付きオートエンコーダ
T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning ( http://arxiv.org/abs/2312.10217v3 ) ライセンス: Link先を確認 | Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald, | (参考訳) LiDARポイントクラウド理解における注釈付きデータの不足は、効果的な表現学習を妨げる。
その結果、学者は自己指導型事前学習パラダイムを積極的に研究している。
それでも、LiDAR点雲列に固有の時間情報は、常に無視されている。
この特性をより有効に活用するために、時間的隣接フレームを入力とし、時間的依存を学習する時間的マスク付きオートエンコーダ(T-MAE)という効果的な事前学習戦略を提案する。
2フレーム入力には、シームズエンコーダとウィンドウ付きクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。
Ego-vehicleの移動が同じインスタンスのビューを変えることを考えると、時間モデリングは頑健で自然なデータ拡張としても機能し、対象オブジェクトの理解を高めます。
SiamWCAは強力なアーキテクチャだが、アノテーション付きデータに大きく依存している。
我々のT-MAE事前学習戦略は、注釈付きデータに対する需要を軽減する。
総合的な実験により、T-MAEは、競争力のあるセルフ教師付きアプローチの中で、WaymoとONCEの両方のデータセット上で最高のパフォーマンスを達成することが示された。
Codesはhttps://github.com/codename 1995/T-MAEでリリースされる。
The scarcity of annotated data in LiDAR point cloud understanding hinders effective representation learning. Consequently, scholars have been actively investigating efficacious self-supervised pre-training paradigms. Nevertheless, temporal information, which is inherent in the LiDAR point cloud sequence, is consistently disregarded. To better utilize this property, we propose an effective pre-training strategy, namely Temporal Masked Auto-Encoders (T-MAE), which takes as input temporally adjacent frames and learns temporal dependency. A SiamWCA backbone, containing a Siamese encoder and a windowed cross-attention (WCA) module, is established for the two-frame input. Considering that the movement of an ego-vehicle alters the view of the same instance, temporal modeling also serves as a robust and natural data augmentation, enhancing the comprehension of target objects. SiamWCA is a powerful architecture but heavily relies on annotated data. Our T-MAE pre-training strategy alleviates its demand for annotated data. Comprehensive experiments demonstrate that T-MAE achieves the best performance on both Waymo and ONCE datasets among competitive self-supervised approaches. Codes will be released at https://github.com/codename1995/T-MAE | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# 単語クロージャに基づく機械翻訳のためのメタモルフィックテスト
Word Closure-Based Metamorphic Testing for Machine Translation ( http://arxiv.org/abs/2312.12056v2 ) ライセンス: Link先を確認 | Xiaoyuan Xie, Shuo Jin, Songqiang Chen, Shing-Chi Cheung, | (参考訳) 機械翻訳の幅広い応用により、機械翻訳システム(MTS)のテストが注目されている。
最近の研究は、MTテストにおけるオラクル問題に対処するために、メタモルフィックテスト(MT)を適用している。
MTSの既存のMT法は一般的に、入力変換と出力関係比較のワークフローに従っており、ソース入力を変更してフォローアップ入力文を生成し、ソースとフォローアップ出力の変換を比較してそれぞれ翻訳エラーを検出する。
これらの手法は様々な入力変換を用いてテストケースペアを生成し、多数の翻訳エラーを発生させることに成功した。
しかし、細粒度と厳密な出力関係の比較を行うには限界があり、多くの誤報を報告し、多くの真の誤りを見逃す可能性がある。
本稿では,既存のMT手法の限界に対処する単語クロージャに基づく出力比較手法を提案する。
まず,単語のクロージャを新しい比較単位として提案する。各クロージャは,テストケースペア内の相関した入力語と出力語のグループを含む。
単語のクロージャは、ソース出力変換における適切なフラグメントと、比較のためのフォローアップアウトプットとのリンクを示唆する。
次に,単語閉鎖レベルの意味論を比較し,翻訳誤りを識別する。
このようにして、出力に対してきめ細かな厳密なセマンティック比較を行い、より効果的な違反識別を実現する。
提案手法は,既存の5つの入力変換と3つのMSSからの変換出力によって生成されるテストケースを用いて評価する。
その結果,F1スコアの平均値が29.9%向上し,精度とリコールが向上し,既存の不正識別方法よりも優れていたことが示唆された。
また、翻訳エラーのF1スコアを35.9%向上させるのに役立つ。
With the wide application of machine translation, the testing of Machine Translation Systems (MTSs) has attracted much attention. Recent works apply Metamorphic Testing (MT) to address the oracle problem in MTS testing. Existing MT methods for MTS generally follow the workflow of input transformation and output relation comparison, which generates a follow-up input sentence by mutating the source input and compares the source and follow-up output translations to detect translation errors, respectively. These methods use various input transformations to generate test case pairs and have successfully triggered numerous translation errors. However, they have limitations in performing fine-grained and rigorous output relation comparison and thus may report many false alarms and miss many true errors. In this paper, we propose a word closure-based output comparison method to address the limitations of the existing MTS MT methods. We first propose word closure as a new comparison unit, where each closure includes a group of correlated input and output words in the test case pair. Word closures suggest the linkages between the appropriate fragment in the source output translation and its counterpart in the follow-up output for comparison. Next, we compare the semantics on the level of word closure to identify the translation errors. In this way, we perform a fine-grained and rigorous semantic comparison for the outputs and thus realize more effective violation identification. We evaluate our method with the test cases generated by five existing input transformations and the translation outputs from three popular MTSs. Results show that our method significantly outperforms the existing works in violation identification by improving the precision and recall and achieving an average increase of 29.9% in F1 score. It also helps to increase the F1 score of translation error localization by 35.9%. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# NFTのダークサイド:ウォッシュトレーディングの大規模実証研究
The Dark Side of NFTs: A Large-Scale Empirical Study of Wash Trading ( http://arxiv.org/abs/2312.12544v3 ) ライセンス: Link先を確認 | Shijian Chen, Jiachi Chen, Jiangshan Yu, Xiapu Luo, Yanlin Wang, | (参考訳) NFT(Non-Fungible Tokens)は2021年に初めて注目されて以来、大きく成長している。
しかし、NFT市場は偽の取引や経済バブル、例えばNFTウォッシュトレーディングに悩まされている。
ウォッシュトレーディング(Wash trading)とは、通常、同一人物または2人の個人を巻き込んだ取引のことであり、NFTエコシステムにとって大きな脅威となっている。
これまでの研究では、金融面からのみNFTウォッシュトレーディングが検出されていたが、現実のウォッシュトレーディングケースはより複雑である(例えば、市場価値を膨らませることを目的としていない)。
NFTウォッシュトレーディングをよりよく理解するためのマルチディメンジョン分析の欠如がある。
そこで本研究では,NFTの輸送イベント8,717,031件,販売イベント3,830,141件を2,701,883件から分析した。
最初に、OpenSea API経由で収集されたデータセットを最適化します。
次に,NFT洗剤取引の3つのタイプを特定し,識別アルゴリズムを提案する。
実験の結果,824件の転送イベントと5,330件のセールイベント(合計で8,857,070.41)および370件のNFT洗剤取引行動に関連するアドレスペアが報告され,最低損失は3,965,247.13であった。
さらに,マーケットプレース設計,収益性,NFTプロジェクト設計,支払トークン,ユーザ行動,NTTエコシステムの6つの側面から洞察を提供する。
NFTs (Non-Fungible Tokens) have seen significant growth since they first captured public attention in 2021. However, the NFT market is plagued by fake transactions and economic bubbles, e.g., NFT wash trading. Wash trading typically refers to a transaction involving the same person or two colluding individuals, and has become a major threat to the NFT ecosystem. Previous studies only detect NFT wash trading from the financial aspect, while the real-world wash trading cases are much more complicated (e.g., not aiming at inflating the market value). There is still a lack of multi-dimension analysis to better understand NFT wash trading. Therefore, we present the most comprehensive study of NFT wash trading, analyzing 8,717,031 transfer events and 3,830,141 sale events from 2,701,883 NFTs. We first optimize the dataset collected via the OpenSea API. Next, we identify three types of NFT wash trading and propose identification algorithms. Our experimental results reveal 824 transfer events and 5,330 sale events (accounting for a total of \$8,857,070.41) and 370 address pairs related to NFT wash trading behaviors, causing a minimum loss of \$3,965,247.13. Furthermore, we provide insights from six aspects, i.e., marketplace design, profitability, NFT project design, payment token, user behavior, and NFT ecosystem. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# 無質量スカラー場のスミア二分布に対する閉形式表現:相対論的量子情報における非摂動的および漸近的結果
Closed-form expressions for smeared bi-distributions of a massless scalar field: non-perturbative and asymptotic results in relativistic quantum information ( http://arxiv.org/abs/2312.13343v3 ) ライセンス: Link先を確認 | T. Rick Perche, | (参考訳) 時空ガウステスト関数を用いて、ミンコフスキー時空の真空における無質量スカラー場のスミア・ワイトマン関数、ファインマン・プロパゲーター、グリーン関数、因果プロパゲーター、対称プロパゲーターの閉形式式を求める。
本研究では,ガウス時空領域の量子場と相互作用する局所量子系に適用し,異なる相対論的量子情報プロトコルについて検討する。
エンタングルメント収穫のプロトコルでは、ガウス時空領域で相互作用し、プロトコルの漸近的な結果を得るプローブによって得られるエンタングルメントのクローズドフォーム式が見つかる。
また、2つの隙間のない検出器の場合を再検討し、その相互作用領域間に双方向の信号が存在する場合、検出器が絡み合うことを示し、検出器の最終状態に対して閉じた形表現を提供する。
Using spacetime Gaussian test functions, we find closed-form expressions for the smeared Wightman function, Feynman propagator, retarded and advanced Green's functions, causal propagator and symmetric propagator of a massless scalar field in the vacuum of Minkowski spacetime. We apply our results to localized quantum systems which interact with a quantum field in Gaussian spacetime regions and study different relativistic quantum information protocols. In the protocol of entanglement harvesting, we find a closed-form expression for the entanglement that can be acquired by probes which interact in Gaussian spacetime regions and obtain asymptotic results for the protocol. We also revisit the case of two gapless detectors and show that the detectors can become entangled if there is two-way signalling between their interaction regions, providing closed-form expressions for the detectors' final state. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# 長期インストラクショナルビデオのための多文グラウンドイング
Multi-Sentence Grounding for Long-term Instructional Video ( http://arxiv.org/abs/2312.14055v2 ) ライセンス: Link先を確認 | Zeqian Li, Qirui Chen, Tengda Han, Ya Zhang, Yanfeng Wang, Weidi Xie, | (参考訳) 本論文では,大規模指導データセットを識別し,複数の記述ステップを監督する高品質なビデオテキストデータセットを構築するための,自動でスケーラブルなパイプラインを構築することを目的とする。
以下に貢献する。
一 音声認識による誤りを低減し、大言語モデルに雑音の多いASR文字を記述段階に変換することにより、データセットの文質を向上させること。
(II)全てのテキストを問合せとしてトランスフォーマーベースのアーキテクチャを提案し、視覚的特徴に反復的に参加し、生成されたステップを対応するビデオセグメントに時間的にアライメントする。
その結果,HT-Stepでは9.0%,HTM-Alignでは5.1%,CrossTaskでは1.9%,HTM-Alignでは1.9%,HTM-Stepでは9.0%,既存手法では9.0%,CrossTaskでは1.9%であった。
すべてのコード、モデル、結果のデータセットが公開されている。
In this paper, we aim to establish an automatic, scalable pipeline for denoising the large-scale instructional dataset and construct a high-quality video-text dataset with multiple descriptive steps supervision, named HowToStep. We make the following contributions: (i) improving the quality of sentences in dataset by upgrading ASR systems to reduce errors from speech recognition and prompting a large language model to transform noisy ASR transcripts into descriptive steps; (ii) proposing a Transformer-based architecture with all texts as queries, iteratively attending to the visual features, to temporally align the generated steps to corresponding video segments. To measure the quality of our curated datasets, we train models for the task of multi-sentence grounding on it, i.e., given a long-form video, and associated multiple sentences, to determine their corresponding timestamps in the video simultaneously, as a result, the model shows superior performance on a series of multi-sentence grounding tasks, surpassing existing state-of-the-art methods by a significant margin on three public benchmarks, namely, 9.0% on HT-Step, 5.1% on HTM-Align and 1.9% on CrossTask. All codes, models, and the resulting dataset have been publicly released. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-22 |
# 大規模言語モデルによるビデオ理解:サーベイ
Video Understanding with Large Language Models: A Survey ( http://arxiv.org/abs/2312.17432v3 ) ライセンス: Link先を確認 | Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao Huang, Zeliang Zhang, Pinxin Liu, Mingqian Feng, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo, Chenliang Xu, | (参考訳) オンラインビデオプラットフォームの急成長とビデオコンテンツの増大に伴い、熟練したビデオ理解ツールの需要は激増している。
言語およびマルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると、この調査はLLM(Vid-LLMs)のパワーを利用した映像理解の最近の進歩の概要を提供する。
Vid-LLMの創発的能力は驚くほど進歩しており、特に、オープンな多粒度推論(一般、時空間、時空間)とコモンセンスの知識が組み合わさり、将来的なビデオ理解の道のりを示唆している。
ビデオアナライザー x LLM, ビデオエンベッドダー x LLM, および (アナライザー + エンベッドダー) x LLM の3つのタイプに分類し, その特徴と機能について検討する。
さらに,LLMをSummarizer,LLM as Manager,LLM as Text Decoder,LLM as Regressor,LLM as Hidden Layer の5つのサブタイプを同定した。
さらに、この調査では、Vid-LLMのタスク、データセット、ベンチマーク、評価方法論について包括的に研究している。
さらに、さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
最後に、既存のVid-LLMの限界を要約し、今後の研究の方向性を概説する。
詳細については、https://github.com/yunlong10/Awesome-LLMs-for-Video-Understandingのリポジトリを参照してほしい。
With the burgeoning growth of online video platforms and the escalating volume of video content, the demand for proficient video understanding tools has intensified markedly. Given the remarkable capabilities of large language models (LLMs) in language and multimodal tasks, this survey provides a detailed overview of recent advancements in video understanding that harness the power of LLMs (Vid-LLMs). The emergent capabilities of Vid-LLMs are surprisingly advanced, particularly their ability for open-ended multi-granularity (general, temporal, and spatiotemporal) reasoning combined with commonsense knowledge, suggesting a promising path for future video understanding. We examine the unique characteristics and capabilities of Vid-LLMs, categorizing the approaches into three main types: Video Analyzer x LLM, Video Embedder x LLM, and (Analyzer + Embedder) x LLM. Furthermore, we identify five sub-types based on the functions of LLMs in Vid-LLMs: LLM as Summarizer, LLM as Manager, LLM as Text Decoder, LLM as Regressor, and LLM as Hidden Layer. Furthermore, this survey presents a comprehensive study of the tasks, datasets, benchmarks, and evaluation methodologies for Vid-LLMs. Additionally, it explores the expansive applications of Vid-LLMs across various domains, highlighting their remarkable scalability and versatility in real-world video understanding challenges. Finally, it summarizes the limitations of existing Vid-LLMs and outlines directions for future research. For more information, readers are recommended to visit the repository at https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# チューリングテスト:美しい思考実験
Turing's Test, a Beautiful Thought Experiment ( http://arxiv.org/abs/2401.00009v3 ) ライセンス: Link先を確認 | Bernardo Gonçalves, | (参考訳) 人工知能(AI)の最近のトレンドを受けて、チューリングテストとその価値に関する主張や疑問が復活し、これは数十年にわたる実践的な「チューリング」テストを思い起こさせる。
もしAIが量子物理学なら、現在までに数匹の"Schr\"オジンジャーの"猫が殺されただろう。
チューリングの美しい思考実験の歴史的復元の時期である。
本稿では,新しい考古学的資料を含む豊富な証拠を提示し,1950年のチューリングの論文について,初期のAIとの関係を含むいくつかのオープンな質問に対して,原文の回答を与える。
In the wake of the latest trends of artificial intelligence (AI), there has been a resurgence of claims and questions about the Turing test and its value, which are reminiscent of decades of practical "Turing" tests. If AI were quantum physics, by now several "Schr\"odinger's" cats would have been killed. It is time for a historical reconstruction of Turing's beautiful thought experiment. This paper presents a wealth of evidence, including new archival sources, and gives original answers to several open questions about Turing's 1950 paper, including its relation with early AI. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# TTP分析の強化:検索生成による大規模言語モデルのパワーのハーネス化
Advancing TTP Analysis: Harnessing the Power of Large Language Models with Retrieval Augmented Generation ( http://arxiv.org/abs/2401.00280v3 ) ライセンス: Link先を確認 | Reza Fayyazi, Rozhina Taghdimi, Shanchieh Jay Yang, | (参考訳) TTP(Tactics, Techniques, and Procedures)は、攻撃者が脆弱性を悪用するために使用する方法の概要である。
MITRE ATT&CKフレームワークにおけるTPの解釈は、想定される専門知識と複雑な依存関係のため、サイバーセキュリティ実践者にとって困難である。
一方、LLM(Large Language Models)による進歩は、サイバーセキュリティの運用におけるその利用を探求する研究の急増につながっている。
しかしながら、LLMがサイバーセキュリティのような重要なドメインに対して正確な応答を提供するために、効率的かつ適切な方法でどのように使用できるかは、不明である。
これにより、小型エンコーダオンリー(eg, RoBERTa)と大型デコーダオンリー(eg, GPT-3.5)の2種類のLSMを用いて、TTPをサイバー攻撃手順の意図した目的(すなわち戦術)で理解し、まとめる方法について検討する。
この研究は、デコーダのみのLLM(encoder-only LLM)とRetrieval Augmented Generation(retrieval Augmented Generation:RAG)の教師付き微調整(encoder-only LLM)を(微調整なしで)使用し、比較する。
SFTとRAGの技術はいずれも、サイバー攻撃手順ごとに関連する文脈でLSMを強化していると考えられる。
本研究では,RAG を用いたデコーダのみの LLM が SFT を用いたエンコーダのみのモデルよりも優れた性能を実現していることを示す。
デコーダのみの結果は ‘Precision’ が低く、高い ‘Recall’ が達成される可能性がある。
我々の発見は、より汎用的なプロンプトは、より具体的に調整されたものよりも、より優れたサイバー攻撃戦術の予測をもたらす傾向があるという反直感的な観察をさらに強調している。
Tactics, Techniques, and Procedures (TTPs) outline the methods attackers use to exploit vulnerabilities. The interpretation of TTPs in the MITRE ATT&CK framework can be challenging for cybersecurity practitioners due to presumed expertise and complex dependencies. Meanwhile, advancements with Large Language Models (LLMs) have led to recent surge in studies exploring its uses in cybersecurity operations. It is, however, unclear how LLMs can be used in an efficient and proper way to provide accurate responses for critical domains such as cybersecurity. This leads us to investigate how to better use two types of LLMs: small-scale encoder-only (e.g., RoBERTa) and larger decoder-only (e.g., GPT-3.5) LLMs to comprehend and summarize TTPs with the intended purposes (i.e., tactics) of a cyberattack procedure. This work studies and compares the uses of supervised fine-tuning (SFT) of encoder-only LLMs vs. Retrieval Augmented Generation (RAG) for decoder-only LLMs (without fine-tuning). Both SFT and RAG techniques presumably enhance the LLMs with relevant contexts for each cyberattack procedure. Our studies show decoder-only LLMs with RAG achieves better performance than encoder-only models with SFT, particularly when directly relevant context is extracted by RAG. The decoder-only results could suffer low `Precision' while achieving high `Recall'. Our findings further highlight a counter-intuitive observation that more generic prompts tend to yield better predictions of cyberattack tactics than those that are more specifically tailored. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# 欠落データを用いた機械学習に基づく粒子識別
Machine-learning-based particle identification with missing data ( http://arxiv.org/abs/2401.01905v2 ) ライセンス: Link先を確認 | Miłosz Kasak, Kamil Deja, Maja Karwowska, Monika Jakubowska, Łukasz Graczykowski, Małgorzata Janik, | (参考訳) 本研究では,CERNの大型ハドロン衝突型加速器におけるALICE実験の範囲内での粒子同定(PID)の新たな手法を提案する。
LHCによる超相対論的衝突の産物の同定はALICEの重要な目的の1つである。
一般的に使われているPID法は、実験データと理論シミュレーションを比較する手作りの選択に依存している。
ベースライン手法の性能を向上させるため、新しい手法では、分類タスクにおける適切な割り当てを学習する機械学習モデルを使用する。
しかし、異なるサブ検出器が使用する様々な検出技術、および限られた検出器効率と受け入れのため、生成粒子は必ずしも全てのALICE成分の信号を生成するとは限らない。
これにより、値が不足したデータが生成される。
機械学習のテクニックはそのような例ではトレーニングできないため、トレーニング中にデータの大部分はスキップされる。
本研究では,不完全データを含むすべてのデータ例をトレーニング可能なPIDの最初の手法を提案する。
提案手法は,全粒子種に対して選択された試料のPID純度と効率を向上する。
In this work, we introduce a novel method for Particle Identification (PID) within the scope of the ALICE experiment at the Large Hadron Collider at CERN. Identifying products of ultrarelativisitc collisions delivered by the LHC is one of the crucial objectives of ALICE. Typically employed PID methods rely on hand-crafted selections, which compare experimental data to theoretical simulations. To improve the performance of the baseline methods, novel approaches use machine learning models that learn the proper assignment in a classification task. However, because of the various detection techniques used by different subdetectors, as well as the limited detector efficiency and acceptance, produced particles do not always yield signals in all of the ALICE components. This results in data with missing values. Machine learning techniques cannot be trained with such examples, so a significant part of the data is skipped during training. In this work, we propose the first method for PID that can be trained with all of the available data examples, including incomplete ones. Our approach improves the PID purity and efficiency of the selected sample for all investigated particle species. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# 量子回帰を用いたシミュレーションに基づく推論
Simulation-Based Inference with Quantile Regression ( http://arxiv.org/abs/2401.02413v2 ) ライセンス: Link先を確認 | He Jia, | (参考訳) 条件付き量子化回帰に基づく新しいシミュレーションベース推論(SBI)手法であるニューラル量子化推定(NQE)を提案する。
NQEは、各後次元の個々の1次元量子を自己回帰的に学習し、データとそれ以前の後次元に条件付けする。
単調な立方晶Hermiteスプラインを用いて予測量子化物を補間し, 尾部挙動と多モード分布を特異的に処理することにより, 後部試料を得ることができた。
本稿では,局所的累積密度関数 (CDF) を用いたベイジアン・クレディブル領域の代替定義を導入し,従来の高次後方密度領域 (HPDR) よりもかなり高速な評価を行う。
限られたシミュレーション予算と/または既知のモデルミススペクテーションの場合、後処理のキャリブレーションステップをNQEに統合して、追加の計算コストが無視できる後処理推定の不偏性を保証する。
我々は,NQEが様々なベンチマーク問題に対して最先端の性能を達成することを実証した。
We present Neural Quantile Estimation (NQE), a novel Simulation-Based Inference (SBI) method based on conditional quantile regression. NQE autoregressively learns individual one dimensional quantiles for each posterior dimension, conditioned on the data and previous posterior dimensions. Posterior samples are obtained by interpolating the predicted quantiles using monotonic cubic Hermite spline, with specific treatment for the tail behavior and multi-modal distributions. We introduce an alternative definition for the Bayesian credible region using the local Cumulative Density Function (CDF), offering substantially faster evaluation than the traditional Highest Posterior Density Region (HPDR). In case of limited simulation budget and/or known model misspecification, a post-processing calibration step can be integrated into NQE to ensure the unbiasedness of the posterior estimation with negligible additional computational cost. We demonstrate that NQE achieves state-of-the-art performance on a variety of benchmark problems. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# 大規模言語モデルに対する高速かつ効果的なウェイトアップデート
Fast and Effective Weight Update for Pruned Large Language Models ( http://arxiv.org/abs/2401.02938v2 ) ライセンス: Link先を確認 | Vladimír Boža, | (参考訳) 大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。
一番の難易度は刈り込み後のモデルを微調整することであり、これは減量による損失性能の回復に必要である。
近年のアプローチでは、効率的な刈り取り基準に焦点をあてるなど、微調整を完全に無視したり、各層の挙動を保ちながら、レイヤワイド・ウェイト・アップデートを試みたりしている。
しかし、レイヤワイド・ウェイト・アップデートでさえLCMにはコストがかかり、以前の研究は様々な近似に頼っている。
本稿では,マルチプライヤの交互方向法(ADMM)に基づく,切断層に対する高速かつ効果的な重み更新アルゴリズムを提案する。
さらに、簡単な段階的なプルーニングマスクの選択で拡張し、幅広いLLMに対して最先端のプルーニング性能を実現する。
コードはhttps://github.com/fmfi-compbio/admm-pruning.comで入手できる。
Pruning large language models (LLMs) is a challenging task due to their enormous size. The primary difficulty is fine-tuning the model after pruning, which is needed to recover the lost performance caused by dropping weights. Recent approaches have either ignored fine-tuning entirely, focusing on efficient pruning criteria, or attempted layer-wise weight updates, preserving the behavior of each layer. However, even layer-wise weight updates can be costly for LLMs, and previous works have resorted to various approximations. In our paper, we propose a fast and effective weight update algorithm for pruned layers based on the Alternating Direction Method of Multipliers (ADMM). We further extend it with a simple gradual pruning mask selection and achieve state-of-the-art pruning performance across a wide range of LLMs. Code is available at https://github.com/fmfi-compbio/admm-pruning. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# 視覚変換器のノイズ化
Denoising Vision Transformers ( http://arxiv.org/abs/2401.02957v2 ) ライセンス: Link先を確認 | Jiawei Yang, Katie Z Luo, Jiefeng Li, Congyue Deng, Leonidas Guibas, Dilip Krishnan, Kilian Q Weinberger, Yonglong Tian, Yue Wang, | (参考訳) これらのモデルの特徴マップはグリッドのようなアーチファクトを示し、セマンティックセグメンテーションや深度予測、オブジェクト発見といった下流の密集予測タスクにおけるViTの性能を損なう。
この問題は、入力段階での位置埋め込みにまで遡る。
そこで本研究では,DVT(Denoising Vision Transformers)と呼ばれる2段階のデノナイジング手法を提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
この画像ごとの最適化プロセスは、生のViT出力からアーティファクトフリーの機能を抽出し、オフラインアプリケーションのクリーンな機能推定を提供する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
我々の手法であるDVTは、既存のトレーニング済みのViTを再学習する必要はなく、任意のVision Transformerアーキテクチャに適用できる。
提案手法は,様々な代表的 ViT (DINO, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg) に対して評価し,DVTが複数のデータセットにまたがる意味的および幾何学的タスクにおける既存の汎用モデルを改善することを示す。
我々の研究は、特に位置埋め込みの素直な使用に関して、ViT設計の再評価を促進することを願っている。
私たちのコードとチェックポイントは公開されています。
We study a crucial yet often overlooked issue inherent to Vision Transformers (ViTs): feature maps of these models exhibit grid-like artifacts, which hurt the performance of ViTs in downstream dense prediction tasks such as semantic segmentation, depth prediction, and object discovery. We trace this issue down to the positional embeddings at the input stage. To mitigate this, we propose a two-stage denoising approach, termed Denoising Vision Transformers (DVT). In the first stage, we separate the clean features from those contaminated by positional artifacts by enforcing cross-view feature consistency with neural fields on a per-image basis. This per-image optimization process extracts artifact-free features from raw ViT outputs, providing clean feature estimates for offline applications. In the second stage, we train a lightweight transformer block to predict clean features from raw ViT outputs, leveraging the derived estimates of the clean features as supervision. Our method, DVT, does not require re-training the existing pre-trained ViTs, and is immediately applicable to any Vision Transformer architecture. We evaluate our method on a variety of representative ViTs (DINO, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg) and demonstrate that DVT consistently improves existing state-of-the-art general-purpose models in semantic and geometric tasks across multiple datasets. We hope our study will encourage a re-evaluation of ViT design, especially regarding the naive use of positional embeddings. Our code and checkpoints are publicly available. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# ダイアリゼーションLM:大規模言語モデルを用いた話者ダイアリゼーション後処理
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v8 ) ライセンス: Link先を確認 | Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao, | (参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。
提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。
この枠組みでは、自動音声認識(ASR)と話者ダイアリゼーションシステムの出力を、任意に微調整されたLLMのプロンプトに含まれるコンパクトテキスト形式として表現する。
LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。
後処理のステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、市販のASRおよび話者ダイアリゼーションシステムに容易に適用することができる。
実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。
Fisher 電話の会話データセットで55.5%、rel。
44.9%であった。
In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# 3次元ガウス平滑化に関する調査研究
A Survey on 3D Gaussian Splatting ( http://arxiv.org/abs/2401.03890v4 ) ライセンス: Link先を確認 | Guikun Chen, Wenguan Wang, | (参考訳) 3D Gaussian splatting (GS) は、近年、明示的なラディアンス場とコンピュータグラフィックスの領域において、トランスフォーメーション技術として登場した。
この革新的なアプローチは、数百万の学習可能な3Dガウスの活用を特徴とし、主に暗黙的な座標に基づくモデルを用いて空間座標をピクセル値にマッピングする主流の神経放射場アプローチから著しく離れている。
3D GSは、明示的なシーン表現と差別化可能なレンダリングアルゴリズムを持ち、リアルタイムレンダリング能力を約束するだけでなく、前例のないレベルの編集性も導入している。
これにより、3D GSは次世代の3D再構成と表現のための潜在的なゲームチェンジャーとして位置づけられる。
本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。
まず、3D GSの出現の背景にある基礎となる原理と推進力の詳細な調査から始め、その意義を理解するための基礎を築き上げます。
議論の焦点は、3D GSの実用性である。
前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアまで、さまざまなアプリケーションを開きます。
これは、主要な3D GSモデルの比較分析によって補完され、様々なベンチマークタスクで評価され、パフォーマンスと実用性を強調している。
この調査は、現在の課題を特定し、この領域における将来の研究への潜在的な道を提案することで締めくくられる。
本調査は,新入生研究者と調味研究者の双方にとって貴重な資源を提供することを目標とし,適用可能で明示的な放射野表現のさらなる探索と発展を促進することを目的とする。
3D Gaussian splatting (GS) has recently emerged as a transformative technique in the realm of explicit radiance field and computer graphics. This innovative approach, characterized by the utilization of millions of learnable 3D Gaussians, represents a significant departure from mainstream neural radiance field approaches, which predominantly use implicit, coordinate-based models to map spatial coordinates to pixel values. 3D GS, with its explicit scene representation and differentiable rendering algorithm, not only promises real-time rendering capability but also introduces unprecedented levels of editability. This positions 3D GS as a potential game-changer for the next generation of 3D reconstruction and representation. In the present paper, we provide the first systematic overview of the recent developments and critical contributions in the domain of 3D GS. We begin with a detailed exploration of the underlying principles and the driving forces behind the emergence of 3D GS, laying the groundwork for understanding its significance. A focal point of our discussion is the practical applicability of 3D GS. By enabling unprecedented rendering speed, 3D GS opens up a plethora of applications, ranging from virtual reality to interactive media and beyond. This is complemented by a comparative analysis of leading 3D GS models, evaluated across various benchmark tasks to highlight their performance and practical utility. The survey concludes by identifying current challenges and suggesting potential avenues for future research in this domain. Through this survey, we aim to provide a valuable resource for both newcomers and seasoned researchers, fostering further exploration and advancement in applicable and explicit radiance field representation. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# マルチ話者音声認識のためのクロススピーカー符号化ネットワーク
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition ( http://arxiv.org/abs/2401.04152v2 ) ライセンス: Link先を確認 | Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng, | (参考訳) 複数話者から重畳された音声を直接書き起こす効果的な手法として,エンド・ツー・エンドのマルチトーカー音声認識が注目されている。
現在のメソッドは通常、どちらかを採用する。
1) 分岐エンコーダを用いたシングルインプット多重出力(SIMO)モデル
2) 注記型エンコーダデコーダアーキテクチャに基づく単一入出力シングルアウトプット(SISO)モデルとシリアライズ出力トレーニング(SOT)について検討した。
本研究では,話者間表現を集約することでSIMOモデルの限界に対処するクロススピーカ符号化(CSE)ネットワークを提案する。
さらに、CSEモデルはSOTと統合され、SIMOとSISOの利点を両立させながら欠点を緩和する。
我々の知る限り、この研究はSIMOとSISOを統合したマルチトーカー音声認識の初期の試みである。
2話者LibrispeechMixデータセットの実験では、CESモデルはSIMOベースラインよりもワードエラー率(WER)を8%削減している。
CSE-SOTモデルは、SOTモデルと比較して、WER全体を10%削減し、ハイオーバーラップ音声を16%削減する。
コードはhttps://github.com/kjw11/CSEnet-ASRで公開されている。
End-to-end multi-talker speech recognition has garnered great interest as an effective approach to directly transcribe overlapped speech from multiple speakers. Current methods typically adopt either 1) single-input multiple-output (SIMO) models with a branched encoder, or 2) single-input single-output (SISO) models based on attention-based encoder-decoder architecture with serialized output training (SOT). In this work, we propose a Cross-Speaker Encoding (CSE) network to address the limitations of SIMO models by aggregating cross-speaker representations. Furthermore, the CSE model is integrated with SOT to leverage both the advantages of SIMO and SISO while mitigating their drawbacks. To the best of our knowledge, this work represents an early effort to integrate SIMO and SISO for multi-talker speech recognition. Experiments on the two-speaker LibrispeechMix dataset show that the CES model reduces word error rate (WER) by 8% over the SIMO baseline. The CSE-SOT model reduces WER by 10% overall and by 16% on high-overlap speech compared to the SOT model. Code is available at https://github.com/kjw11/CSEnet-ASR. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# 限られた情報を持つチャネルに対する仮想コムによる未知の量子プロセスの反転
Reversing Unknown Quantum Processes via Virtual Combs for Channels with Limited Information ( http://arxiv.org/abs/2401.04672v2 ) ライセンス: Link先を確認 | Chengkai Zhu, Yin Mo, Yu-Ao Chen, Xin Wang, | (参考訳) 開系に対する量子力学の固有の不可逆性は、未知の量子過程の反転に重大な障壁をもたらす。
この課題に対処するために、未知のプロセスを反復的に活用する仮想コムのフレームワークと、そのプロセス逆をシミュレートする古典的な後処理を提案する。
特に、$n+1$の仮想コムは、$n+1$の潜在的な候補から1つの未知のノイズパラメータを持つ非偏極チャネルを正確に反転することができ、1-スロット仮想コムは、任意の量子チャネルのペアを正確に反転させることができることを示す。
さらに、与えられたチャネルセット内の未知チャネルの近似逆転について検討する。
指定されたノイズ領域内のチャネルを非偏極化するために、$\mathcal{O}(n^{-1})$の最悪のエラー崩壊を公表する。
さらに、仮想コムはユニタリ操作を普遍的に反転させ、スロット番号とサンプリングオーバーヘッドの間のトレードオフを調査できることを示す。
The inherent irreversibility of quantum dynamics for open systems poses a significant barrier to the inversion of unknown quantum processes. To tackle this challenge, we propose the framework of virtual combs that exploit the unknown process iteratively with additional classical post-processing to simulate the process inverse. Notably, we demonstrate that an $n$-slot virtual comb can exactly reverse a depolarizing channel with one unknown noise parameter out of $n+1$ potential candidates, and a 1-slot virtual comb can exactly reverse an arbitrary pair of quantum channels. We further explore the approximate inversion of an unknown channel within a given channel set. A worst-case error decay of $\mathcal{O}(n^{-1})$ is unveiled for depolarizing channels within a specified noise region. Moreover, we show that virtual combs can universally reverse unitary operations and investigate the trade-off between the slot number and the sampling overhead. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-22 |
# 航空機の予測維持のためのサロゲートニューラルネットワークの局所安定性
Surrogate Neural Networks Local Stability for Aircraft Predictive Maintenance ( http://arxiv.org/abs/2401.06821v3 ) ライセンス: Link先を確認 | Mélanie Ducoffe, Guillaume Povéda, Audrey Galametz, Ryma Boumazouza, Marion-Cécile Martin, Julien Baris, Derk Daverschot, Eugene O'Higgins, | (参考訳) サーロゲートニューラルネットワークは、今日では、計算に要求されるエンジニアリングシミュレーション(例:構造解析)の代用として、産業で日常的に使われている。
製品設計、テスト、監視フェーズなどにおいて、より高速な予測を生成できるため、産業アプリケーションでの分析が可能になる。
性能と時間効率のため、これらのサロゲートモデルは安全クリティカルなアプリケーションでの使用のために開発されている。
ニューラルネットワークの検証、特にその堅牢性(例えば摂動)の評価は、現実のアプリケーションや認定に組み込むための次の重要なステップである。
航空機の外部負荷から航空機が持続する応力を予測するために設計されたサロゲートニューラルネットワークに対する航空機の予測保守の文脈における経験的および形式的手法の適用性とスケーラビリティを評価する。
ケーススタディは高次元の入出力空間をカバーし、検証プロセスは多目的制約を許容する。
本稿では,そのような代理モデルの局所安定性特性を入力雑音に対して評価する際の検証手法の相補性について検討する。
1つの検証「パイプライン」におけるメソッドの逐次結合の有効性を示すとともに、対象プロパティの評価に必要な実行時の利得を示す。
Surrogate Neural Networks are nowadays routinely used in industry as substitutes for computationally demanding engineering simulations (e.g., in structural analysis). They allow to generate faster predictions and thus analyses in industrial applications e.g., during a product design, testing or monitoring phases. Due to their performance and time-efficiency, these surrogate models are now being developed for use in safety-critical applications. Neural network verification and in particular the assessment of their robustness (e.g., to perturbations) is the next critical step to allow their inclusion in real-life applications and certification. We assess the applicability and scalability of empirical and formal methods in the context of aircraft predictive maintenance for surrogate neural networks designed to predict the stress sustained by an aircraft part from external loads. The case study covers a high-dimensional input and output space and the verification process thus accommodates multi-objective constraints. We explore the complementarity of verification methods in assessing the local stability property of such surrogate models to input noise. We showcase the effectiveness of sequentially combining methods in one verification 'pipeline' and demonstrate the subsequent gain in runtime required to assess the targeted property. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# MAPLE:大規模言語モデルのパラメータ効率的なファインタニングの多言語評価
MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models ( http://arxiv.org/abs/2401.07598v3 ) ライセンス: Link先を確認 | Divyanshu Aggarwal, Ashutosh Sathe, Ishaan Watts, Sunayana Sitaram, | (参考訳) パラメータ効率のよいファインタニング(PEFT)は,大規模言語モデル(LLM)の性能向上のための実現可能なソリューションとして,膨大なリソースや計算資源を必要としない。
多言語評価に関する先行研究は、英語と他の言語におけるLLMの性能の間に大きなギャップがあることを証明している。
さらに、より小さなオープンソースモデルとより大きなLLMのパフォーマンスの間には大きなギャップがある。
ファインタニングは、このギャップを埋め、言語モデルをより公平にするための効果的な方法です。
本研究では,LLama-2-7BとMistral-7Bを2つの合成多言語命令チューニングデータセット上で微調整し,そのモデル性能が40言語をカバーする6つの下流タスクに与える影響を判定する。
さらに、低ランク適応のランクや量子化の値など、様々なパラメータを実験して、下流の性能への影響を判定し、高位と高位の量子化値が低リソース言語に有効であることを示す。
小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
また、ファインタニングによって低リソース言語のパフォーマンスが向上し、高リソース言語のパフォーマンスが低下することもあります。
Parameter Efficient Finetuning (PEFT) has emerged as a viable solution for improving the performance of Large Language Models (LLMs) without requiring massive resources and compute. Prior work on multilingual evaluation has shown that there is a large gap between the performance of LLMs on English and other languages. Further, there is also a large gap between the performance of smaller open-source models and larger LLMs. Finetuning can be an effective way to bridge this gap and make language models more equitable. In this work, we finetune the LLama-2-7B and Mistral-7B models on two synthetic multilingual instruction tuning datasets to determine its effect on model performance on six downstream tasks covering forty languages in all. Additionally, we experiment with various parameters, such as rank for low-rank adaptation and values of quantisation to determine their effects on downstream performance and find that higher rank and higher quantisation values benefit low-resource languages. We find that PEFT of smaller open-source models sometimes bridges the gap between the performance of these models and the larger ones, however, English performance can take a hit. We also find that finetuning sometimes improves performance on low-resource languages, while degrading performance on high-resource languages. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# AIのインターロゲーティング:ChatGPTとの創発的なプレイフルインタラクションを特徴付ける
Interrogating AI: Characterizing Emergent Playful Interactions with ChatGPT ( http://arxiv.org/abs/2401.08405v2 ) ライセンス: Link先を確認 | Mohammad Ronagh Nikghalb, Jinghui Cheng, | (参考訳) AIの能力と影響力の増大の時代において、最近の進歩はHCIとCSCWのAI観を常に変えつつある。
AIシステムとの遊び心は、ユーザーが常に変化するテクノロジーを理解するための重要な方法として自然に現れました。
しかし、これらの創発的で遊び心のある相互作用は過小評価される。
我々は、新興AI技術のユーザであるChatGPTが提示する遊び心のあるインタラクションを調査することによって、このギャップを狙う。
また,ChatGPTサブレディット上での372件のユーザ生成記事のテーマ分析により,ユーザ談話の半数以上が遊び心のあるインタラクションを中心に展開していることがわかった。
この分析により、これらの相互作用を記述するための予備的なフレームワークを構築することができ、それらを6つのタイプに分類することができます。
この研究は、AIとの多面的相互作用の多面的性質を解明し、AIエージェンシーの評価を支援し、人間とAIの関係を形作り、AIシステム設計に豊富な影響を及ぼすことによって、HCIとCSCWの分野に貢献する。
In an era of AI's growing capabilities and influences, recent advancements are constantly reshaping HCI and CSCW's view of AI. Playful interactions with AI systems naturally emerged as an important way for users to make sense of the ever-changing technology. However, these emergent and playful interactions are underexamined. We target this gap by investigating playful interactions exhibited by users of an emerging AI technology, ChatGPT. Through a thematic analysis of 372 user-generated posts on the ChatGPT subreddit, we found that more than half of user discourse revolves around playful interactions. The analysis further allowed us to construct a preliminary framework to describe these interactions, categorizing them into six types: reflecting, jesting, imitating, challenging, tricking, and contriving; each included sub-categories. This study contributes to the field of HCI and CSCW by illuminating the multifaceted nature of playful interactions with AI, underlining their significance in helping users assess AI agency, shaping the human-AI relationship, and offering rich implications to AI system design. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# Efficient4D:シングルビュー映像からの高速ダイナミック3Dオブジェクト生成
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video ( http://arxiv.org/abs/2401.08742v3 ) ライセンス: Link先を確認 | Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang, | (参考訳) シングルビュービデオから動的3Dオブジェクトを生成するのは、4Dラベル付きデータがないため困難である。
直感的なアプローチは,従来のイメージ・ツー・3Dパイプラインを,スコア蒸留サンプリングなどのオフ・ザ・シェルフ画像生成モデルを転送することで拡張することである。
そこで本研究では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビュー下で高品質な時空一貫性画像を生成し、ラベル付きデータとして使用し、4Dガウススプラッティングモデルにより4Dコンテンツを直接再構成する。
重要なこととして,本手法は連続カメラ軌道下でリアルタイムなレンダリングを実現することができる。
スパースビュー下でのロバストな再構築を実現するため,不整合性を考慮した信頼度重み付き損失設計と軽量なスコア蒸留損失を導入する。
合成ビデオと実ビデオの両方での大規模な実験により、エフィシエント4Dは、新しいビュー合成の質を保ちながら、先行技術に比べて10倍の速度で向上することが示された。
例えば、Efficient4Dは動的オブジェクトをモデル化するのに10分しかかからないが、以前のアートモデルであるConsistent4Dでは120分しかかからない。
Generating dynamic 3D object from a single-view video is challenging due to the lack of 4D labeled data. An intuitive approach is to extend previous image-to-3D pipelines by transferring off-the-shelf image generation models such as score distillation sampling.However, this approach would be slow and expensive to scale due to the need for back-propagating the information-limited supervision signals through a large pretrained model. To address this, we propose an efficient video-to-4D object generation framework called Efficient4D. It generates high-quality spacetime-consistent images under different camera views, and then uses them as labeled data to directly reconstruct the 4D content through a 4D Gaussian splatting model. Importantly, our method can achieve real-time rendering under continuous camera trajectories. To enable robust reconstruction under sparse views, we introduce inconsistency-aware confidence-weighted loss design, along with a lightly weighted score distillation loss. Extensive experiments on both synthetic and real videos show that Efficient4D offers a remarkable 10-fold increase in speed when compared to prior art alternatives while preserving the quality of novel view synthesis. For example, Efficient4D takes only 10 minutes to model a dynamic object, vs 120 minutes by the previous art model Consistent4D. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# ログアクセス不要のブラックボックス大言語モデル強化のためのスケッチガイド付き制約付き復号法
Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access ( http://arxiv.org/abs/2401.09967v4 ) ライセンス: Link先を確認 | Saibo Geng, Berkay Döner, Chris Wendler, Martin Josifoski, Robert West, | (参考訳) 制約付き復号化(Constrained decoding)は、言語モデル出力の制約を強制するテクニックで、再訓練やアーキテクチャの変更なしにテキスト生成を制御する手段を提供する。
しかしながら、そのアプリケーションは一般的に、ユーザーが次のトーケン分布(通常はソフトマックスロジットを介して)にアクセスできるモデルに限定されており、ブラックボックスの大規模言語モデル(LLM)で制限される。
本稿では,ブラックボックスLLMのロジットにアクセスせずに動作するブラックボックスLLMの制約付き復号法であるスケッチ誘導制約復号法(SGCD)を提案する。
SGCDは、ローカルにホストされた補助モデルを使用して、制約のないブラックボックスLSMの出力を洗練し、この初期出力を「スケッチ」として効果的に処理し、さらなる実験を行う。
このアプローチは、従来のロジットベースのテクニックを補完するものであり、完全なモデルの透明性が利用できない設定で制約付きデコードの適用を可能にする。
本研究では,複雑なNLPタスクに対するブラックボックスLLMの有用性と柔軟性をいかに向上させるかを示す。
Constrained decoding, a technique for enforcing constraints on language model outputs, offers a way to control text generation without retraining or architectural modifications. Its application is, however, typically restricted to models that give users access to next-token distributions (usually via softmax logits), which poses a limitation with blackbox large language models (LLMs). This paper introduces sketch-guided constrained decoding (SGCD), a novel approach to constrained decoding for blackbox LLMs, which operates without access to the logits of the blackbox LLM. SGCD utilizes a locally hosted auxiliary model to refine the output of an unconstrained blackbox LLM, effectively treating this initial output as a "sketch" for further elaboration. This approach is complementary to traditional logit-based techniques and enables the application of constrained decoding in settings where full model transparency is unavailable. We demonstrate the efficacy of SGCD through experiments in closed information extraction and constituency parsing, showing how it enhances the utility and flexibility of blackbox LLMs for complex NLP tasks. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# Graph Condensation: 調査
Graph Condensation: A Survey ( http://arxiv.org/abs/2401.11720v2 ) ライセンス: Link先を確認 | Xinyi Gao, Junliang Yu, Tong Chen, Guanhua Ye, Wentao Zhang, Hongzhi Yin, | (参考訳) グラフデータの急速な成長は、ストレージ、送信、特にグラフニューラルネットワーク(GNN)のトレーニングにおいて大きな課題となる。
これらの課題に対処するために、グラフ凝縮(GC)が革新的な解決策として登場した。
GCはコンパクトだが非常に代表的なグラフの合成に重点を置いており、トレーニングされたGNNが元の大きなグラフでトレーニングされたグラフに匹敵するパフォーマンスを達成することができる。
GCの顕著な有効性とその幅広い展望は、大きな注目を集め、広範な研究を刺激している。
本稿では,GC評価基準に適合する5つのカテゴリ(有効性,一般化性,効率性,公正性,堅牢性)に,既存研究を整理する。
本稿では,GCの深い包括的理解を促進するため,各カテゴリの様々な手法について検討し,GCの最適化戦略と凝縮グラフ生成という2つの重要な要素について徹底的に考察する。
また,提案した5つのGC評価基準に基づいて,代表GC手法と多種多様な最適化戦略を実証的に比較,解析する。
最後に、様々な分野におけるGCの適用について検討し、関連するオープンソースライブラリの概要を概説し、今後の研究の進展を促進することを目的として、現在の課題と新しい洞察を強調した。
関連するリソースはhttps://github.com/XYGaoG/Graph-Condensation-Papersにある。
The rapid growth of graph data poses significant challenges in storage, transmission, and particularly the training of graph neural networks (GNNs). To address these challenges, graph condensation (GC) has emerged as an innovative solution. GC focuses on synthesizing a compact yet highly representative graph, enabling GNNs trained on it to achieve performance comparable to those trained on the original large graph. The notable efficacy of GC and its broad prospects have garnered significant attention and spurred extensive research. This survey paper provides an up-to-date and systematic overview of GC, organizing existing research into five categories aligned with critical GC evaluation criteria: effectiveness, generalization, efficiency, fairness, and robustness. To facilitate an in-depth and comprehensive understanding of GC, this paper examines various methods under each category and thoroughly discusses two essential components within GC: optimization strategies and condensed graph generation. We also empirically compare and analyze representative GC methods with diverse optimization strategies based on the five proposed GC evaluation criteria. Finally, we explore the applications of GC in various fields, outline the related open-source libraries, and highlight the present challenges and novel insights, with the aim of promoting advancements in future research. The related resources can be found at https://github.com/XYGaoG/Graph-Condensation-Papers. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# グラフ条件付き画像合成:シーングラフのためのCLIP誘導拡散モデル
Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs ( http://arxiv.org/abs/2401.14111v3 ) ライセンス: Link先を確認 | Rameshwar Mishra, A V Subramanyam, | (参考訳) 生成モデルの進歩は、特定の構造的ガイドラインに固執しながら、画像の生成に大きな関心を喚起した。
シーングラフから画像生成までのタスクは、与えられたシーングラフと整合した画像を生成するタスクである。
しかし、視覚的なシーンの複雑さは、シーングラフ内の特定の関係に基づいてオブジェクトを正確に整列させることに挑戦する。
既存の手法では、まずシーンレイアウトを予測し、これらのレイアウトから画像を生成する。
本研究では,シーングラフから画像を生成する手法を提案する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
そこで我々はまず,GANベースのトレーニングを用いて,グラフ特徴と対応する画像のCLIP特徴とを一致させるために,グラフエンコーダを事前訓練する。
さらに、所定のシーングラフに存在するオブジェクトラベルをCLIPに埋め込み、グラフ一貫性のあるCLIP誘導条件信号を生成する。
条件付け入力では、オブジェクト埋め込みは画像の粗い構造を提供し、グラフ特徴はオブジェクト間の関係に基づいた構造的アライメントを提供する。
最後に、再構成とCLIPアライメント損失を伴うグラフ一貫した条件付け信号を用いて、事前学習した拡散モデルを微調整する。
実験により,COCO-stuffデータセットとVisual Genomeデータセットの標準ベンチマークにおいて,本手法が既存の手法よりも優れていることが明らかになった。
Advancements in generative models have sparked significant interest in generating images while adhering to specific structural guidelines. Scene graph to image generation is one such task of generating images which are consistent with the given scene graph. However, the complexity of visual scenes poses a challenge in accurately aligning objects based on specified relations within the scene graph. Existing methods approach this task by first predicting a scene layout and generating images from these layouts using adversarial training. In this work, we introduce a novel approach to generate images from scene graphs which eliminates the need of predicting intermediate layouts. We leverage pre-trained text-to-image diffusion models and CLIP guidance to translate graph knowledge into images. Towards this, we first pre-train our graph encoder to align graph features with CLIP features of corresponding images using a GAN based training. Further, we fuse the graph features with CLIP embedding of object labels present in the given scene graph to create a graph consistent CLIP guided conditioning signal. In the conditioning input, object embeddings provide coarse structure of the image and graph features provide structural alignment based on relationships among objects. Finally, we fine tune a pre-trained diffusion model with the graph consistent conditioning signal with reconstruction and CLIP alignment loss. Elaborate experiments reveal that our method outperforms existing methods on standard benchmarks of COCO-stuff and Visual Genome dataset. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# 映像予測に関する調査:決定論的アプローチから生成的アプローチへ
A Survey on Video Prediction: From Deterministic to Generative Approaches ( http://arxiv.org/abs/2401.14718v3 ) ライセンス: Link先を確認 | Ruibo Ming, Zhewei Huang, Zhuoxuan Ju, Jianming Hu, Lihui Peng, Shuchang Zhou, | (参考訳) コンピュータビジョンの基本課題である映像予測は、モデルが既存の映像コンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。
このタスクは様々なドメインにまたがって広く応用されている。
本稿では,この分野でもっとも広く使われているデータセットとアルゴリズムを網羅的に調査する。
本稿では,コンピュータビジョンの領域における映像予測の課題と展望について検討する。
本稿では,映像予測アルゴリズムの確率的性質に着目した新しい分類法を提案する。
この分類学は、決定論的から生成的予測方法論への段階的な移行をアクセント化し、アプローチの大幅な進歩とシフトを説明している。
Video prediction, a fundamental task in computer vision, aims to enable models to generate sequences of future frames based on existing video content. This task has garnered widespread application across various domains. In this paper, we comprehensively survey both historical and contemporary works in this field, encompassing the most widely used datasets and algorithms. Our survey scrutinizes the challenges and evolving landscape of video prediction within the realm of computer vision. We propose a novel taxonomy centered on the stochastic nature of video prediction algorithms. This taxonomy accentuates the gradual transition from deterministic to generative prediction methodologies, underlining significant advancements and shifts in approach. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-22 |
# ベイズ推論による力学系同定・モデル選択・モデル不確かさの定量化
Dynamical System Identification, Model Selection and Model Uncertainty Quantification by Bayesian Inference ( http://arxiv.org/abs/2401.16943v2 ) ライセンス: Link先を確認 | Robert K. Niven, Laurent Cordier, Ali Mohammad-Djafari, Markus Abel, Markus Quade, | (参考訳) 本研究は,時系列データから動的システム同定を行うため,ベイジアン最大値である 'textit{a~posteriori} (MAP) フレームワークを提案する。
これは一般化されたチコノフ正則化と同値であることが示され、確率と先行分布の負の対数から、残留項と正則化項の選択をそれぞれ合理的に正当化する。
モデル係数の推定に加えて、ベイズ解釈はモデルランキング、モデル不確実性の定量化、未知(ノイズ)ハイパーパラメータの推定を含むベイズ推論の完全な装置へのアクセスを与える。
2つのベイズアルゴリズム、ジョイント最大値 \textit{a~posteriori} (JMAP) と変分ベイズ近似 (VBA) を比較した。
多変量ガウス確率と事前分布について、ベイジアン定式化はガウス的後続および証拠分布を与え、そこでは数項項をマハラノビス距離の項で表すことができ、例えば ``ガウス的ノルム'' $|\vec{y}-\hat{\vec{y}}||^2_{M^{-1}} = (\vec{y}-\hat{\vec{y}})^\top {M^{-1}} (\vec{y}-\hat{\vec{y}})$, ここで$\vec{y}$はベクトル変数であり、$M$Mは行列である。
後ガウスノルムは、測定された異なるシステムとノイズモデルに対して、定量的モデル選択のための堅牢な計量を提供する。
※
This study presents a Bayesian maximum \textit{a~posteriori} (MAP) framework for dynamical system identification from time-series data. This is shown to be equivalent to a generalized Tikhonov regularization, providing a rational justification for the choice of the residual and regularization terms, respectively, from the negative logarithms of the likelihood and prior distributions. In addition to the estimation of model coefficients, the Bayesian interpretation gives access to the full apparatus for Bayesian inference, including the ranking of models, the quantification of model uncertainties and the estimation of unknown (nuisance) hyperparameters. Two Bayesian algorithms, joint maximum \textit{a~posteriori} (JMAP) and variational Bayesian approximation (VBA), are compared to the {LASSO, ridge regression and SINDy algorithms for sparse} regression, by application to several dynamical systems with added {Gaussian or Laplace} noise. For multivariate Gaussian likelihood and prior distributions, the Bayesian formulation gives Gaussian posterior and evidence distributions, in which the numerator terms can be expressed in terms of the Mahalanobis distance or ``Gaussian norm'' $||\vec{y}-\hat{\vec{y}}||^2_{M^{-1}} = (\vec{y}-\hat{\vec{y}})^\top {M^{-1}} (\vec{y}-\hat{\vec{y}})$, where $\vec{y}$ is a vector variable, $\hat{\vec{y}}$ is its estimator and $M$ is the covariance matrix. The posterior Gaussian norm is shown to provide a robust metric for quantitative model selection {for the different systems and noise models examined.} | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-22 |
# 検索によるタブラリデータの深部異常検出
Retrieval Augmented Deep Anomaly Detection for Tabular Data ( http://arxiv.org/abs/2401.17052v2 ) ライセンス: Link先を確認 | Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Liên Doan, | (参考訳) 近年,表形式のデータに対する深層学習が注目されているが,構造化データに対する深層モデルの採用は依然として困難である。
これらのモデルは非構造化データで優れているが、構造化データでの有効性は制限されている。
近年の研究では、このギャップに対処する検索強化モデルを導入し、分類や回帰といった教師付きタスクにおいて有望な結果を示した。
本研究では,検索拡張モデルを用いて表データの異常検出を行う。
本稿では,変圧器モデルを用いて<textit{normal} サンプルのマスク付き特徴を再構成する再構成手法を提案する。
対象サンプルの再構成プロセスにおいて,KNNおよび注目型モジュールの有効性を検証し,関連サンプルの選択に役立てる。
本研究は,31個の表付きデータセットのベンチマーク実験により,この再構成に基づく異常検出(AD)手法をサンプルサンプルに依存した検索モジュールで拡張することにより,性能が著しく向上することを示した。
本研究は,検索モジュールが深部AD法を拡張して表データの異常検出を強化するのに有用であるという考えを支持する。
Deep learning for tabular data has garnered increasing attention in recent years, yet employing deep models for structured data remains challenging. While these models excel with unstructured data, their efficacy with structured data has been limited. Recent research has introduced retrieval-augmented models to address this gap, demonstrating promising results in supervised tasks such as classification and regression. In this work, we investigate using retrieval-augmented models for anomaly detection on tabular data. We propose a reconstruction-based approach in which a transformer model learns to reconstruct masked features of \textit{normal} samples. We test the effectiveness of KNN-based and attention-based modules to select relevant samples to help in the reconstruction process of the target sample. Our experiments on a benchmark of 31 tabular datasets reveal that augmenting this reconstruction-based anomaly detection (AD) method with sample-sample dependencies via retrieval modules significantly boosts performance. The present work supports the idea that retrieval module are useful to augment any deep AD method to enhance anomaly detection on tabular data. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-22 |
# 異常検出のための量子正規化フロー
Quantum Normalizing Flows for Anomaly Detection ( http://arxiv.org/abs/2402.02866v3 ) ライセンス: Link先を確認 | Bodo Rosenhahn, Christoph Hirche, | (参考訳) 正規化フローは、任意の分布から予め定義された(例えば正規化)分布への単射写像を計算する。
このようなフローは、例えば異常検出のように、そのようなマッピングが学習されると、異なるタスクに対処するために使用することができる。
本稿では、量子アーキテクチャのための正規化フローを紹介し、そのようなフローをモデル化し、最適化する方法を説明し、サンプルデータセット上でメソッドを評価する。
提案モデルでは,すでに量子インスパイアされたアルゴリズムが存在するような古典的手法と比較して,異常検出の競合性能を示す。
実験では, 森林の隔離, 局所降水率 (LOF) , 単一クラスSVMとの比較を行った。
A Normalizing Flow computes a bijective mapping from an arbitrary distribution to a predefined (e.g. normal) distribution. Such a flow can be used to address different tasks, e.g. anomaly detection, once such a mapping has been learned. In this work we introduce Normalizing Flows for Quantum architectures, describe how to model and optimize such a flow and evaluate our method on example datasets. Our proposed models show competitive performance for anomaly detection compared to classical methods, esp. those ones where there are already quantum inspired algorithms available. In the experiments we compare our performance to isolation forests (IF), the local outlier factor (LOF) or single-class SVMs. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-22 |
# 不定時間方向と因果順序をもつ量子過程の記憶
Memory in quantum processes with indefinite time direction and causal order ( http://arxiv.org/abs/2402.05517v2 ) ライセンス: Link先を確認 | Göktuğ Karpat, Barış Çakmak, | (参考訳) 時間方向と因果順序が不確定な量子過程における動的メモリ効果の出現について検討する。
特に、最も重要なパラダイム的オープン量子システムモデルを含む位相共変量子ビットチャネルのクラスに焦点を当てる。
システムの時間的進化における記憶を評価するために、トレース距離と非マルコビアン性の絡み合いに基づく測度を利用する。
不定時間方向は、前方および後方プロセスのコヒーレントな重ね合わせを実現する量子時間反転演算により得られるが、不定因数順序は量子スイッチマップを介して達成され、2つの量子過程を2つの可能な順序のコヒーレントな重ね合わせで実装する。
位相共変量子ビットチャネルの様々なファミリを考慮すると、メモリレス量子プロセスに実装されると、量子タイムフリップと量子スイッチ演算の両方が、特定の条件下でのトレース距離に基づく測定に基づいて、動的にメモリ効果を生成できることが示される。
一方、絡み合いに基づく測度では、量子時間フリップも量子スイッチも考慮された位相共変チャネルの動的メモリを誘導できないことを示す。
We examine the emergence of dynamical memory effects in quantum processes having indefinite time direction and causal order. In particular, we focus on the class of phase-covariant qubit channels, which encompasses some of the most significant paradigmatic open quantum system models. In order to assess the memory in the time evolution of the system, we utilize the trace distance and the entanglement based measures of non-Markovianity. While the indefinite time direction is obtained through the quantum time flip operation that realizes a coherent superposition of forward and backward processes, the indefinite causal order is achieved via the quantum switch map, which implements two quantum processes in a coherent superposition of their two possible orders. Considering various different families of phase-covariant qubit channels, we demonstrate that, when implemented on memoryless quantum processes, both the quantum time flip and the quantum switch operations can generate memory effects in the dynamics according to the trace distance based measure under certain conditions. On the other hand, with respect to the entanglement based measure, we show that neither the quantum time flip nor the quantum switch could induce dynamical memory for any of the considered phase-covariant channels. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-22 |
# 半導体バンド状態におけるg因子対称性とトポロジー
g-factor symmetry and topology in semiconductor band states ( http://arxiv.org/abs/2402.06310v2 ) ライセンス: Link先を確認 | Mira Sharma, David P. DiVincenzo, | (参考訳) 応用磁場に対するクラマーズ退化状態の反応を決定する$\bf{g}$tensorは、スピン量子ビットの現在の設計において重要である。
これはヘテロ構造組成、障害、電場の詳細に影響されているが、結晶格子レベルで働くスピン軌道相互作用の影響から、その構造の多くを継承している。
ここでは, ケイ素, ゲルマニウム, ヒ素中の重要な原子価および伝導帯に対する$\bf{g}=\bf{g}_L+\bf{g}_S$の新しい対称性とトポロジカルな特徴を明らかにする。
高い(キュビックな)対称性を持つ全ての結晶に対して、非相対論的値$g=2$からの大きな離脱は対称性によって保証されることを示す。
特にスピン部分 $\bf{g}_S(\bf{k})$ を考えると、スピン軌道のカップリングがどんなに弱いとしても、スカラー函数 $det(\bf{g}_S(\bf{k}))$ がブリルアンゾーンの閉曲面上で 0 となることを証明する。
また、これらの曲面上の波動ベクトル $\bf{k}$ に対して、ブロッホ状態 $|u_{n\bf{k}}\rangle$ は極大スピン軌道絡みを持つ。
強結合計算を用いて、曲面 $det(\bf{g}(\bf{k}))=0$ が多くの興味深い位相的特徴を示し、フェルミ曲面理論で理解されているようなリフシッツ臨界点を示す。
The $\bf{g}$ tensor, which determines the reaction of Kramers-degenerate states to an applied magnetic field, is of increasing importance in the current design of spin qubits. It is affected by details of heterostructure composition, disorder, and electric fields, but it inherits much of its structure from the effect of the spin-orbit interaction working at the crystal-lattice level. Here we uncover new symmetry and topological features of $\bf{g}=\bf{g}_L+\bf{g}_S$ for important valence and conduction bands in silicon, germanium, and gallium arsenide. For all crystals with high (cubic) symmetry, we show that large departures from the nonrelativistic value $g=2$ are guaranteed by symmetry. In particular, considering the spin part $\bf{g}_S(\bf{k})$, we prove that the scalar function $det(\bf{g}_S(\bf{k}))$ must go to zero on closed surfaces in the Brillouin zone, no matter how weak the spin-orbit coupling is. We also prove that for wave vectors $\bf{k}$ on these surfaces, the Bloch states $|u_{n\bf{k}}\rangle$ have maximal spin-orbital entanglement. Using tight-binding calculations, we observe that the surfaces $det(\bf{g}(\bf{k}))=0$ exhibit many interesting topological features, exhibiting Lifshitz critical points as understood in Fermi-surface theory. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-22 |
# SelfSwapper:シェイプ・アグノスティック・マスクド・オートエンコーダによる自己監督型顔スワップ
SelfSwapper: Self-Supervised Face Swapping via Shape Agnostic Masked AutoEncoder ( http://arxiv.org/abs/2402.07370v2 ) ライセンス: Link先を確認 | Jaeseong Lee, Junha Hyung, Sohyun Jeong, Jaegul Choo, | (参考訳) 顔交換は様々な用途で注目されている。
以前のフェイススワップアプローチは、標的指向アプローチとしても知られるシーソーゲームトレーニングスキームに依存していた。
しかし、これはしばしばモデルトレーニングの不安定性を招き、ターゲットのアイデンティティリーク問題により、混合されたアイデンティティを持つ望ましくないサンプルが生じる。
ソース指向の手法は、自己再構成目標によるより安定したトレーニングを実現するが、しばしばターゲット画像の肌の色と照明を正確に反映することができない。
本稿では,ターゲット指向とソース指向の両アプローチの長所を組み合わせた,新たな自己教師型アプローチであるShape Agnostic Masked AutoEncoder(SAMAE)について紹介する。
本手法は,従来のシーソーゲームを回避することによる従来の訓練手法の限界に対処する。
本モデルでは,識別情報の漏洩を効果的に軽減し,学習対象のアルベドや照明を不整合性や非同一性の特徴によって反映する。
さらに, 穿孔混入や乱れメッシュスケーリングなどの新しい手法を用いて, 形状の不整合や体積差の問題に密接に取り組んだ。
SAMAEは、新しい最先端のメソッドを確立し、どちらの側面も犠牲にすることなく、アイデンティティと非アイデンティティ属性の両方を保存する。
Face swapping has gained significant attention for its varied applications. Most previous face swapping approaches have relied on the seesaw game training scheme, also known as the target-oriented approach. However, this often leads to instability in model training and results in undesired samples with blended identities due to the target identity leakage problem. Source-oriented methods achieve more stable training with self-reconstruction objective but often fail to accurately reflect target image's skin color and illumination. This paper introduces the Shape Agnostic Masked AutoEncoder (SAMAE) training scheme, a novel self-supervised approach that combines the strengths of both target-oriented and source-oriented approaches. Our training scheme addresses the limitations of traditional training methods by circumventing the conventional seesaw game and introducing clear ground truth through its self-reconstruction training regime. Our model effectively mitigates identity leakage and reflects target albedo and illumination through learned disentangled identity and non-identity features. Additionally, we closely tackle the shape misalignment and volume discrepancy problems with new techniques, including perforation confusion and random mesh scaling. SAMAE establishes a new state-of-the-art, surpassing other baseline methods, preserving both identity and non-identity attributes without sacrificing on either aspect. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-22 |
# エッジ強調拡散によるディープニューラルネットワークのテクスチャバイアス低減
Reducing Texture Bias of Deep Neural Networks via Edge Enhancing Diffusion ( http://arxiv.org/abs/2402.09530v2 ) ライセンス: Link先を確認 | Edgar Heinert, Matthias Rottmann, Kira Maag, Karsten Kahl, | (参考訳) 画像処理のための畳み込みニューラルネットワーク(CNN)は、一般的にテクスチャバイアスと呼ばれる局所的なテクスチャパターンに焦点を当てる傾向がある。
これまでの文献では画像分類の課題に焦点が当てられていたが、それを超えて、セマンティックセグメンテーションにおけるCNNのテクスチャバイアスを研究する。
本研究では, テクスチャのバイアスを低減するために, テクスチャの少ない前処理画像上でCNNを訓練することを提案する。
これにより、形状情報を保持しながら、画像のテクスチャを抑えることが課題となる。
この目的のために、画像圧縮に最初に導入された異方性画像拡散法であるエッジ拡張拡散(EED)を用いて、既存のデータセットのテクスチャを低減した複製を生成する。
CNNとビジョントランスフォーマーモデルの両方で、オリジナルデータとCityscapesデータセットとCARLA駆動シミュレータのEED処理データに基づいて、広範囲にわたる数値的研究を行う。
我々はCNNの強いテクスチャ依存性と変換器の適度なテクスチャ依存性を観察する。
EED処理された画像上でのCNNのトレーニングにより、モデルはテクスチャに関して完全に無知になり、テクスチャの再帰に関するレジリエンスを示すことができる。
さらに,セマンティックセグメンテーションにおける連結成分のレベルでの性能低下を解析し,EED前処理がドメインの一般化や対向ロバスト性に与える影響について検討する。
Convolutional neural networks (CNNs) for image processing tend to focus on localized texture patterns, commonly referred to as texture bias. While most of the previous works in the literature focus on the task of image classification, we go beyond this and study the texture bias of CNNs in semantic segmentation. In this work, we propose to train CNNs on pre-processed images with less texture to reduce the texture bias. Therein, the challenge is to suppress image texture while preserving shape information. To this end, we utilize edge enhancing diffusion (EED), an anisotropic image diffusion method initially introduced for image compression, to create texture reduced duplicates of existing datasets. Extensive numerical studies are performed with both CNNs and vision transformer models trained on original data and EED-processed data from the Cityscapes dataset and the CARLA driving simulator. We observe strong texture-dependence of CNNs and moderate texture-dependence of transformers. Training CNNs on EED-processed images enables the models to become completely ignorant with respect to texture, demonstrating resilience with respect to texture re-introduction to any degree. Additionally we analyze the performance reduction in depth on a level of connected components in the semantic segmentation and study the influence of EED pre-processing on domain generalization as well as adversarial robustness. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-22 |
# 極長文脈のギスト記憶を持つ人型読解エージェント
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts ( http://arxiv.org/abs/2402.09727v3 ) ライセンス: Link先を確認 | Kuang-Huei Lee, Xinyun Chen, Hiroki Furuta, John Canny, Ian Fischer, | (参考訳) 現在のLarge Language Models (LLM) は、ある最大コンテキスト長に制限されるだけでなく、長い入力を堅牢に消費することができない。
これらの制約に対処するため,LLMエージェントシステムであるReadAgentを提案する。
人間が長い文書を対話的に読み取る方法に着想を得て,LLMの先進的な言語機能を利用した単純なプロンプトシステムとしてReadAgentを実装し,(1)記憶エピソードに格納するコンテンツを決定すること,(2)記憶エピソードをgistメモリと呼ばれる短いエピソード記憶に圧縮すること,(3)ReadAgentがタスクを完了させるために関連する詳細を思い出す必要がある場合,元のテキストのパスを検索するためにアクションを取る。
本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。
これらの評価は、QuALITY、NarrativeQA、QMSumの3つの長文読解タスクにおいて行われる。
ReadAgentは、有効コンテキストウィンドウを3.5~20倍拡張しながら、3つのタスクのベースラインを上回ります。
Current Large Language Models (LLMs) are not only limited to some maximum context length, but also are not able to robustly consume long inputs. To address these limitations, we propose ReadAgent, an LLM agent system that increases effective context length up to 20x in our experiments. Inspired by how humans interactively read long documents, we implement ReadAgent as a simple prompting system that uses the advanced language capabilities of LLMs to (1) decide what content to store together in a memory episode, (2) compress those memory episodes into short episodic memories called gist memories, and (3) take actions to look up passages in the original text if ReadAgent needs to remind itself of relevant details to complete a task. We evaluate ReadAgent against baselines using retrieval methods, using the original long contexts, and using the gist memories. These evaluations are performed on three long-document reading comprehension tasks: QuALITY, NarrativeQA, and QMSum. ReadAgent outperforms the baselines on all three tasks while extending the effective context window by 3.5-20x. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-22 |
# データ中心の観点からの効率的なマルチモーダル学習
Efficient Multimodal Learning from Data-centric Perspective ( http://arxiv.org/abs/2402.11530v3 ) ライセンス: Link先を確認 | Muyang He, Yexin Liu, Boya Wu, Jianhao Yuan, Yueze Wang, Tiejun Huang, Bo Zhao, | (参考訳) MLLM(Multimodal Large Language Models)は、一般的な視覚的理解と推論タスクにおいて顕著な機能を示す。
しかし、それらのデプロイメントは、トレーニングと推論の両方において相当な計算コストによって妨げられ、より広範な研究とユーザコミュニティへのアクセシビリティが制限される。
簡単な解決策は、トレーニング済みのより小さなビジョンと言語モデルを活用することだ。
本稿では,より小型で優れたMLLMを高品質なトレーニングデータでトレーニングする可能性を実証する。
具体的には、フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し、選択したトレーニングデータから効率的なマルチモーダル学習を実現する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
この作業がコミュニティに、さらなる研究と開発のためのクリーンで柔軟なオープンソースツールを提供することを期待しています。
コード、モデル、データはhttps://github.com/BAAI-DCAI/Bunny.comにある。
Multimodal Large Language Models (MLLMs) have demonstrated notable capabilities in general visual understanding and reasoning tasks. However, their deployment is hindered by substantial computational costs in both training and inference, limiting accessibility to the broader research and user communities. A straightforward solution is to leverage smaller pre-trained vision and language models, which inevitably cause significant performance drops. In this paper, we demonstrate the possibility of training a smaller but better MLLM with high-quality training data. Specifically, we introduce Bunny, a family of lightweight MLLMs with flexible vision and language backbones for efficient multimodal learning from selected training data. Experiments show that our Bunny-4B/8B outperforms the state-of-the-art large MLLMs on multiple benchmarks. We expect that this work can provide the community with a clean and flexible open-source tool for further research and development. The code, models, and data can be found in https://github.com/BAAI-DCAI/Bunny. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-22 |
# 目的分解による自動決定論的オークション設計
Automated Deterministic Auction Design with Objective Decomposition ( http://arxiv.org/abs/2402.11904v2 ) ライセンス: Link先を確認 | Zhijian Duan, Haoran Sun, Yichong Xia, Siqiang Wang, Zhilin Zhang, Chuan Yu, Jian Xu, Bo Zheng, Xiaotie Deng, | (参考訳) 主要な戦略インセンティブ互換(DSIC)と個人的合理的(IR)の両方である高頻度メカニズムの同定は、オークションデザインにおける根本的な課題である。
理論的アプローチは、マルチイテムオークションにおいてボトルネックに直面してきたが、機械学習を用いてそのようなメカニズムを自動設計する上で、多くの経験的な進歩があった。
しかし、既存の研究は主にランダム化オークションに焦点を当てており、より実践的な決定論的オークションには注目されていない。
そこで本研究では, 決定論的オークションの自動設計について検討し, VVCA(Virtual Valuations Combinatorial Auctions)の自動設計のための客観的分解手法であるOD-VVCAを紹介する。
まず,このメカニズムをDSICとIRに固有の決定論的VVCAに限定する。
その後、並列化可能な動的プログラミングアルゴリズムを用いて、VVCAの割り当てと収益を効率的に計算する。
次に、収益目標関数を連続的かつ一括的に不連続なコンポーネントに分解し、それぞれを異なる手法で最適化する。
大規模な実験により、OD-VVCAは、特にランダム化ベースラインと決定論的ベースラインの両方を上回り、その有効性とスケーラビリティを示す大規模セッティングにおいて、マルチテムオークションにおいて高い収益を達成することが示された。
Identifying high-revenue mechanisms that are both dominant strategy incentive compatible (DSIC) and individually rational (IR) is a fundamental challenge in auction design. While theoretical approaches have encountered bottlenecks in multi-item auctions, there has been much empirical progress in automated designing such mechanisms using machine learning. However, existing research primarily focuses on randomized auctions, with less attention given to the more practical deterministic auctions. Therefore, this paper investigates the automated design of deterministic auctions and introduces OD-VVCA, an objective decomposition approach for automated designing Virtual Valuations Combinatorial Auctions (VVCAs). Firstly, we restrict our mechanism to deterministic VVCAs, which are inherently DSIC and IR. Afterward, we utilize a parallelizable dynamic programming algorithm to compute the allocation and revenue outcomes of a VVCA efficiently. We then decompose the revenue objective function into continuous and piecewise constant discontinuous components, optimizing each using distinct methods. Extensive experiments show that OD-VVCA achieves high revenue in multi-item auctions, especially in large-scale settings where it outperforms both randomized and deterministic baselines, indicating its efficacy and scalability. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-22 |
# レインボー・ボウリング:多角形逆転プロンプトのオープンエンド世代
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts ( http://arxiv.org/abs/2402.16822v2 ) ライセンス: Link先を確認 | Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu, | (参考訳) 大規模言語モデル(LLM)が現実世界の多くのアプリケーションで普及するにつれて、敵攻撃に対する堅牢性を理解し、強化することが最重要視される。
既存の敵のプロンプトを特定する方法は、特定のドメインに焦点を当てたり、多様性を欠いたり、広範囲の人間のアノテーションを必要とする傾向がある。
このような制約に対処するために、様々な敵のプロンプトを生産するための新しいブラックボックスアプローチであるレインボー・チーム(Rainbow Teaming)を提案する。
Rainbow Teamingは、品質多様性の問題として敵のプロンプト生成をキャストし、オープンな検索を使用して、効果的かつ多様なプロンプトを生成する。
安全領域に着目して、私たちはRainbow Teamingを使用して、Llama 2やLlama 3など、最先端のLLMをターゲットにしています。
提案手法では, 攻撃成功率は全試験モデルで90%を超え, 効果的に対戦するプロンプトが数百あることが明らかとなった。
さらに,Rainbow Teaming法により生成した合成データを用いた微調整モデルは,汎用性能や有用性を犠牲にすることなく,安全性を著しく向上することを示した。
また、Rainbow Teamingを質問応答やサイバーセキュリティに適用することで、幅広いアプリケーションにおいて堅牢なオープンな自己改善を促進する可能性を示すことで、その汎用性についても検討する。
As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to adversarial attacks is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel black-box approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem, and uses open-ended search to generate prompts that are both effective and diverse. Focusing on the safety domain, we use Rainbow Teaming to target various state-of-the-art LLMs, including the Llama 2 and Llama 3 models. Our approach reveals hundreds of effective adversarial prompts, with an attack success rate exceeding 90% across all tested models. Furthermore, we demonstrate that fine-tuning models with synthetic data generated by the Rainbow Teaming method significantly enhances their safety without sacrificing general performance or helpfulness. We additionally explore the versatility of Rainbow Teaming by applying it to question answering and cybersecurity, showcasing its potential to drive robust open-ended self-improvement in a wide range of applications. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-22 |
# メタタスクプロンプティングは大規模言語モデルからの埋め込みを緩和する
Meta-Task Prompting Elicits Embeddings from Large Language Models ( http://arxiv.org/abs/2402.18458v2 ) ライセンス: Link先を確認 | Yibin Lei, Di Wu, Tianyi Zhou, Tao Shen, Yu Cao, Chongyang Tao, Andrew Yates, | (参考訳) 本稿では,大規模言語モデル (LLM) から高品質な文埋め込みを生成するためのメタタスク・プロンプティング(MetaEOL)を導入した。
メタタスクプロンプトを活用して、MetaEOLは、複数の表現的側面に対処する、慎重に設計された一連のプロンプトを通じて、LDMを誘導して埋め込みを生成する。
総合的な実験により,様々なメタタスクから平均化された埋め込みは,セマンティックテキスト類似性(STS)ベンチマーク上での競争性能を向上する汎用な埋め込みであり,対照的に訓練されたモデルを超えた下流タスクに優れることが示された。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
We introduce a new unsupervised text embedding method, Meta-Task Prompting with Explicit One-Word Limitation (MetaEOL), for generating high-quality sentence embeddings from Large Language Models (LLMs) without the need for model fine-tuning. Leveraging meta-task prompting, MetaEOL guides LLMs to produce embeddings through a series of carefully designed prompts that address multiple representational aspects. Our comprehensive experiments demonstrate that embeddings averaged from various meta-tasks are versatile embeddings that yield competitive performance on Semantic Textual Similarity (STS) benchmarks and excel in downstream tasks, surpassing contrastive-trained models. Our findings suggest a new scaling law, offering a versatile and resource-efficient approach for embedding generation across diverse scenarios. | 翻訳日:2024-07-24 02:30:51 公開日:2024-07-22 |
# シリコンバレーの群衆の知恵: LLM Ensemble Prediction Capability Rival Human Crowd Accuracy
Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy ( http://arxiv.org/abs/2402.19379v6 ) ライセンス: Link先を確認 | Philipp Schoenegger, Indre Tuminauskaite, Peter S. Park, Philip E. Tetlock, | (参考訳) 実際の人間の予測精度は、「群衆の知恵」効果に依存しており、個々の予測者の群集に集結することで、将来の出来事に関する予測が著しく改善される。
大規模言語モデル(LLM)の予測能力に関する過去の研究は、フロンティアのLLMは、個人予測家として、人間の群衆予測トーナメントアグリゲーションのゴールドスタンダードに比べて性能が劣っていることを示唆している。
研究1では、12個のLLMの群集からなるLLMアンサンブルアプローチを用いて、この研究を拡大する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントの925人の予測者の群集と比較した。
我々の事前登録された主要な分析は、LLMの群集が単純な非情報ベンチマークよりも優れており、統計的にヒトの群集と異なるものではないことを示している。
探索的解析において、これらの2つのアプローチは中規模効果の同値境界に対して等価であることがわかった。
また, 正解と負解がほぼ均等に分かれているにもかかわらず, 平均モデル予測が50%以上であるような収差効果も観測した。
さらに,研究2では,人間の認知的アウトプットに基づいてLCM予測(GPT-4とClaude 2)を改善することができるかどうかを検証した。
両モデルの予測精度は、中央値の人間の予測を情報として露出することで、精度を17%から28%向上させることで得られる。
以上の結果から, LLMは, 簡易かつ実用的な予測集計手法により, 人体予測トーナメントに匹敵する予測精度を達成できることが示唆された。
これはLLMの「群集の知恵」効果を再現し、社会全体で様々な用途に利用を開放する。
Human forecasting accuracy in practice relies on the 'wisdom of the crowd' effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our preregistered main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is not statistically different from the human crowd. In exploratory analyses, we find that these two approaches are equivalent with respect to medium-effect-size equivalence bounds. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models' forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the 'wisdom of the crowd' effect for LLMs, and opens up their use for a variety of applications throughout society. | 翻訳日:2024-07-24 02:30:51 公開日:2024-07-22 |
# Query-OPT:ミーティング要約におけるマルチクエリ命令による大規模言語モデルの推論の最適化
Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization ( http://arxiv.org/abs/2403.00067v3 ) ライセンス: Link先を確認 | Md Tahmid Rahman Laskar, Elena Khasanova, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN, | (参考訳) 本研究は,特定の問合せに応答してコンテキスト(書き起こし)の要約を生成する,問合せに基づく会議要約のタスクに焦点をあてる。
このタスクにLarge Language Models (LLM)を使用する場合、コンテキストが同じであっても、通常、新しいクエリ毎にLLM推論エンドポイント/APIへの新しい呼び出しがトリガーされる。
しかし、LLM推論エンドポイントへの繰り返し呼び出しは、実運用で使用するコストを大幅に増加させ、LLMを現実の多くのユースケースでは実用的でないものにする。
この問題に対処するために,本稿では,同一の入力コンテキストに対するクエリを単一のプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える手法が,要約に有効であるかどうかを検討する。
そこで本研究では,GPT-4,Gemini,Claude-3,LLaMA-2,Mistral,Phi-3,Qwen-2を単一クエリ,複数クエリで比較した。
期待フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に限られており、ほとんどのオープンソース LLM は遅れている(Mistral や Phi-3 のような7B パラメータを除く)。
マルチクエリのプロンプトは,要約を満足する際の推論コストを大幅に最適化するのに有用である,と結論付けている。
This work focuses on the task of query-based meeting summarization in which the summary of a context (meeting transcript) is generated in response to a specific query. When using Large Language Models (LLMs) for this task, usually a new call to the LLM inference endpoint/API is triggered for each new query, even if the context stays the same. However, repeated calls to the LLM inference endpoints would significantly increase the costs of using them in production, making LLMs impractical for many real-world use cases. To address this problem, in this paper, we investigate whether combining the queries for the same input context in a single prompt to minimize repeated calls can be successfully used in meeting summarization. In this regard, we conduct extensive experiments by comparing the performance of various popular LLMs: GPT-4, Gemini, Claude-3, LLaMA-2, Mistral, Phi-3, and Qwen-2 in single-query and multi-query settings. We observe that 100% reliability in generating the response in the expected format is usually limited to certain closed-source LLMs, with most open-source LLMs lagging behind (except a few 7B parameters LLMs like Mistral and Phi-3). We conclude that multi-query prompting could be useful to significantly optimize the inference costs in meeting summarization. | 翻訳日:2024-07-24 02:30:51 公開日:2024-07-22 |
# ランダム化試験における厳密な推論の効率を高める機械学習支援調整
Machine Learning Assisted Adjustment Boosts Efficiency of Exact Inference in Randomized Controlled Trials ( http://arxiv.org/abs/2403.03058v2 ) ライセンス: Link先を確認 | Han Yu, Alan D. Hutson, Xiaoyi Ma, | (参考訳) 本研究では、ランダム化制御試験のための機械学習に基づく調整を補助する新しい推論手順を提案する。
この手法は、共変量調整を用いたランダム化実験において、正確なテストを行うRosenbaumの枠組みの下で開発された。
広範囲にわたるシミュレーション実験により,提案手法はI型エラーを頑健に制御し,ランダム化比較試験(RCT)の統計的効率を高めることができることを示した。
この利点は実例でさらに証明された。
提案手法の単純さ,柔軟性,堅牢性により,特に共変量間の非線形な関連性や相互作用が期待される場合,RCTの規則推論手法として競合する候補となる。
その応用は、第III相臨床試験のような、RCTの必要なサンプルサイズとコストを著しく削減する可能性がある。
In this work, we proposed a novel inferential procedure assisted by machine learning based adjustment for randomized control trials. The method was developed under the Rosenbaum's framework of exact tests in randomized experiments with covariate adjustments. Through extensive simulation experiments, we showed the proposed method can robustly control the type I error and can boost the statistical efficiency for a randomized controlled trial (RCT). This advantage was further demonstrated in a real-world example. The simplicity, flexibility, and robustness of the proposed method makes it a competitive candidate as a routine inference procedure for RCTs, especially when nonlinear association or interaction among covariates is expected. Its application may remarkably reduce the required sample size and cost of RCTs, such as phase III clinical trials. | 翻訳日:2024-07-24 02:30:51 公開日:2024-07-22 |
# ベルの不等式に対するシカのアプローチのいくつかの結果
Some consequences of Sica's approach to Bell's inequalities ( http://arxiv.org/abs/2403.03236v2 ) ライセンス: Link先を確認 | Alejandro Andrés Hnilo, | (参考訳) ルイ・シカ(Louis Sica)は、ベルの不等式は、あるステーションで観測された結果の時系列が、他の(別の)ステーションの設定が変更されたときに変化しないという仮説から導いた。
この導出は算術的性質のみに基づいている。
局所性とリアリズムの議論を巻き起こす定義は含まないが、確率の定義は必要とせず、任意の長さの連続に対して有効である。
本稿では,Sicaのアプローチを非理想的効率と実時間構造に拡張する。
最初の拡張は、絡み合いパラメータSCHSHと効率性を含む興味深い関係につながり、いわゆる「検出ループホール」を新しい光の下に配置する。
第2の拡張機能では、異なる設定での計測が避けられないのは、異なるタイミングでシリーズを記録することである。
これは「局所リアリズム」(ベルの不等式の有効性の検証に必要な仮定として)を置き換えるもので、記録された級数が任意に再順序付けできるという仮定である。
この後者の仮定の違反は、私の意見では、局所現実主義の違反よりも直観に受け入れられる。
2つ目の拡張は、ベルの不等式に違反する観察がシカの仮説が有効でないことを示唆していることも示している。
この結果は「量子非局所性」に正確な意味を与え、メッセージ送信に使用できない理由を説明する。
最後に、ベルの不等式に違反したとしても、一連の結果が常にシカの仮説が有効である実データと反実データに埋め込まれることが示される。
結果として、事実的宇宙は量子的(古典的でない)かどうかが論じられるが、事実的宇宙と反事実的宇宙の融合は常に古典的である。
Louis Sica derived Bell's inequalities from the hypothesis that the time series of outcomes observed in one station does not change if the setting in the other (distant) station is changed. This derivation is based on arithmetical properties only. It does not involve the controversial definitions of Locality and Realism, it does not require the definition of probabilities, and is valid for series of any length. In this paper, Sica's approach is extended to series with non ideal efficiency and to the actual time structure of experimental data. The first extension leads to an interesting relationship, involving the entanglement parameter SCHSH and efficiency, that places the so-called 'detection loophole' under new light. The second extension makes visible that measuring with different settings unavoidably means recording series at different times. It replaces 'Local Realism' (as the assumption necessary for the validity of Bell's inequalities), with the assumption that the recorded series can be arbitrarily reordered. Violation of this latter assumption is, in my opinion, more acceptable to intuition than violation of Local Realism. The second extension also shows that the observation of a violation of Bell's inequalities implies that Sica's hypothesis is not valid, i.e., that the series in one station is different if the setting in the other station is changed. This result gives precise meaning to 'quantum non-locality', and also explains why it cannot be used for sending messages. Finally, it is demonstrated that a series of outcomes, even if it violates Bell's inequalities, can be always embedded in a set of factual and counter-factual data in which Sica's hypothesis is valid. In consequence, factual universe may be quantum (non-classical) or not, but the union of factual and counter-factual universes is always classical. | 翻訳日:2024-07-24 02:30:51 公開日:2024-07-22 |
# メモリ化を超えて - 言語モデルにおけるランダムメモリアクセスの課題
Beyond Memorization: The Challenge of Random Memory Access in Language Models ( http://arxiv.org/abs/2403.07805v3 ) ライセンス: Link先を確認 | Tongyao Zhu, Qian Liu, Liang Pang, Zhengbao Jiang, Min-Yen Kan, Min Lin, | (参考訳) 言語モデル(LM)の最近の進歩は、NLPタスク、特に知識集約タスクにおいてその効果を示している。
しかし、そのパラメータ内の知識記憶とメモリアクセスのメカニズムは、いまだ解明されていない。
本稿では、生成型LM(eg, GPT-2)がそのメモリに逐次的またはランダムにアクセスできるかどうかを検討する。
入念に設計した合成タスクを通じて, 記憶されたコンテンツをランダムにアクセスする際の課題に遭遇しながら, LMが連続的にメモリにアクセスできることを明らかにする。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
さらに、この介入をオープンドメイン質問応答の現実的なシナリオに適用することにより、リサイクリングによるランダムアクセスの強化が質問応答の顕著な改善につながることを検証した。
実験を再現するコードは https://github.com/sail-sg/lm-random-Memory- Access にある。
Recent developments in Language Models (LMs) have shown their effectiveness in NLP tasks, particularly in knowledge-intensive tasks. However, the mechanisms underlying knowledge storage and memory access within their parameters remain elusive. In this paper, we investigate whether a generative LM (e.g., GPT-2) is able to access its memory sequentially or randomly. Through carefully-designed synthetic tasks, covering the scenarios of full recitation, selective recitation and grounded question answering, we reveal that LMs manage to sequentially access their memory while encountering challenges in randomly accessing memorized content. We find that techniques including recitation and permutation improve the random memory access capability of LMs. Furthermore, by applying this intervention to realistic scenarios of open-domain question answering, we validate that enhancing random access by recitation leads to notable improvements in question answering. The code to reproduce our experiments can be found at https://github.com/sail-sg/lm-random-memory-access. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-22 |
# 非平衡構造の一般化による等変力場の改善
Generalizing Denoising to Non-Equilibrium Structures Improves Equivariant Force Fields ( http://arxiv.org/abs/2403.09549v2 ) ライセンス: Link先を確認 | Yi-Lun Liao, Tess Smidt, Muhammed Shuaibi, Abhishek Das, | (参考訳) 3次元原子論システムにおける力などの原子の相互作用を理解することは、分子動力学や触媒設計といった多くの応用に基本的である。
しかし、これらの相互作用をシミュレートするには、計算集約的なab initio計算が必要であり、結果として、ニューラルネットワークをトレーニングするための限られたデータが得られる。
本稿では,非平衡構造(DeNS)を補助的タスクとして用いて,トレーニングデータをより活用し,性能を向上させることを提案する。
DeNSを用いたトレーニングでは,まず3次元座標にノイズを加え,そのノイズを予測することで3次元構造を破損させた。
従来の非平衡構造に制限されたデノナイジングの研究とは異なり、提案手法はより大きな非平衡構造の集合にデノナイジングを一般化する。
主な違いは、非平衡構造は局所的なエネルギー最小値に対応せず、非ゼロの力を持ち、したがって平衡構造と比較して多くの原子位置を持つことができることである。
これにより、非平衡構造をデノナイジングの対象が一意に定義されていないため、デノナイジングが不適切な問題となる。
我々の重要な洞察は、元の非平衡構造の力を付加的にエンコードして、どの非平衡構造がどの非平衡構造かを特定することである。
具体的には、破損した非平衡構造と元の非平衡構造の力を考えると、任意の構造ではなく入力力を満たす非平衡構造を予測する。
DeNSはエンコーディング力を必要とするため、DNSはノード埋め込みに力やその他の高次テンソルを容易に組み込むことができる同変ネットワークを好んでいる。
我々は, OC20, OC22, MD17データセット上で, DeNSと等価ネットワークのトレーニングの有効性について検討し, OC20, OC22におけるDeNSの新たな最先端化を実現し, MD17におけるトレーニング効率を大幅に向上できることを実証した。
Understanding the interactions of atoms such as forces in 3D atomistic systems is fundamental to many applications like molecular dynamics and catalyst design. However, simulating these interactions requires compute-intensive ab initio calculations and thus results in limited data for training neural networks. In this paper, we propose to use denoising non-equilibrium structures (DeNS) as an auxiliary task to better leverage training data and improve performance. For training with DeNS, we first corrupt a 3D structure by adding noise to its 3D coordinates and then predict the noise. Different from previous works on denoising, which are limited to equilibrium structures, the proposed method generalizes denoising to a much larger set of non-equilibrium structures. The main difference is that a non-equilibrium structure does not correspond to local energy minima and has non-zero forces, and therefore it can have many possible atomic positions compared to an equilibrium structure. This makes denoising non-equilibrium structures an ill-posed problem since the target of denoising is not uniquely defined. Our key insight is to additionally encode the forces of the original non-equilibrium structure to specify which non-equilibrium structure we are denoising. Concretely, given a corrupted non-equilibrium structure and the forces of the original one, we predict the non-equilibrium structure satisfying the input forces instead of any arbitrary structures. Since DeNS requires encoding forces, DeNS favors equivariant networks, which can easily incorporate forces and other higher-order tensors in node embeddings. We study the effectiveness of training equivariant networks with DeNS on OC20, OC22 and MD17 datasets and demonstrate that DeNS can achieve new state-of-the-art results on OC20 and OC22 and significantly improve training efficiency on MD17. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-22 |
# ソーシャル統合ナビゲーション: 深層強化学習型ソーシャルアクティベーションロボット
Socially Integrated Navigation: A Social Acting Robot with Deep Reinforcement Learning ( http://arxiv.org/abs/2403.09793v2 ) ライセンス: Link先を確認 | Daniel Flögel, Lars Fischer, Thomas Rudolf, Tobias Schürmann, Sören Hohmann, | (参考訳) 移動ロボットは様々な混み合った状況で大規模に使われており、私たちの社会の一部になっている。
個人を考慮した移動ロボットの社会的に許容されるナビゲーション行動は、スケーラブルなアプリケーションと人間の受容にとって必須の要件である。
深層強化学習(DRL)アプローチは、ロボットのナビゲーションポリシーを学習し、ロボットと人間の複雑な相互作用をモデル化するために最近使用されている。
本稿では,ロボットが提示する社会的行動に基づいて既存のDRLベースのナビゲーションアプローチを分割し,社会的行動の欠如による社会的衝突回避と,社会的行動を明確に定義した社会的行動を伴う社会的認知アプローチを区別することを提案する。
さらに,ロボットの社会的行動が適応的であり,人間との相互作用から生じる,社会的統合ナビゲーション手法を提案する。
我々のアプローチの定式化は、社会的行為が他者の行動に向けられているという社会学的定義から導かれる。
DRLポリシーは、他のエージェントが社会的に統合された相互作用を行い、ロボットの振る舞いを個別に報酬する環境で訓練される。
シミュレーションの結果,提案手法は,環境中のすべてのエージェントに対する負の影響を著しく低減しつつ,エゴナビゲーション性能の観点から社会的に認識されたアプローチよりも優れていたことが示唆された。
Mobile robots are being used on a large scale in various crowded situations and become part of our society. The socially acceptable navigation behavior of a mobile robot with individual human consideration is an essential requirement for scalable applications and human acceptance. Deep Reinforcement Learning (DRL) approaches are recently used to learn a robot's navigation policy and to model the complex interactions between robots and humans. We propose to divide existing DRL-based navigation approaches based on the robot's exhibited social behavior and distinguish between social collision avoidance with a lack of social behavior and socially aware approaches with explicit predefined social behavior. In addition, we propose a novel socially integrated navigation approach where the robot's social behavior is adaptive and emerges from the interaction with humans. The formulation of our approach is derived from a sociological definition, which states that social acting is oriented toward the acting of others. The DRL policy is trained in an environment where other agents interact socially integrated and reward the robot's behavior individually. The simulation results indicate that the proposed socially integrated navigation approach outperforms a socially aware approach in terms of ego navigation performance while significantly reducing the negative impact on all agents within the environment. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-22 |
# 文脈認識型動き予測を用いた大規模言語モデル
Large Language Models Powered Context-aware Motion Prediction ( http://arxiv.org/abs/2403.11057v2 ) ライセンス: Link先を確認 | Xiaoji Zheng, Lixiu Wu, Zhijie Yan, Yuanrong Tang, Hao Zhao, Chen Zhong, Bokui Chen, Jiangtao Gong, | (参考訳) 運動予測は、自律運転における最も基本的なタスクの1つである。
従来の動き予測法は、主に地図のベクトル情報と交通参加者の履歴軌跡データをエンコードし、全体的な交通意味論の包括的理解を欠いているため、予測タスクのパフォーマンスに影響を及ぼす。
本稿では,Large Language Models (LLMs) を用いて,動き予測タスクのグローバルトラフィックコンテキスト理解を強化する。
我々はまず、複雑な交通環境と交通参加者の歴史的軌跡情報を画像プロンプトに可視化する、系統的なプロンプトエンジニアリングを行い、対応するテキストプロンプトを伴ってトランスポートコンテキストマップ(TC-Map)を構築した。
このアプローチにより,LLMから豊富なトラフィックコンテキスト情報を得た。
この情報を動き予測モデルに統合することにより、動き予測の精度を高めることができることを示す。
さらに, LLM に関連するコストを考慮すると, 0.7 % の LLM 拡張データセットを用いて, 大規模での動作予測タスクの精度を向上させる, コスト効率の良い展開戦略を提案する。
我々の研究は、LLMの交通シーンの理解と自動運転の動作予測性能を高めるための貴重な洞察を提供する。
ソースコードは \url{https://github.com/AIR-DISCOVER/LLM-Augmented-MTR} と \url{https://aistudio.baidu.com/projectdetail/7809548} で入手できる。
Motion prediction is among the most fundamental tasks in autonomous driving. Traditional methods of motion forecasting primarily encode vector information of maps and historical trajectory data of traffic participants, lacking a comprehensive understanding of overall traffic semantics, which in turn affects the performance of prediction tasks. In this paper, we utilized Large Language Models (LLMs) to enhance the global traffic context understanding for motion prediction tasks. We first conducted systematic prompt engineering, visualizing complex traffic environments and historical trajectory information of traffic participants into image prompts -- Transportation Context Map (TC-Map), accompanied by corresponding text prompts. Through this approach, we obtained rich traffic context information from the LLM. By integrating this information into the motion prediction model, we demonstrate that such context can enhance the accuracy of motion predictions. Furthermore, considering the cost associated with LLMs, we propose a cost-effective deployment strategy: enhancing the accuracy of motion prediction tasks at scale with 0.7\% LLM-augmented datasets. Our research offers valuable insights into enhancing the understanding of traffic scenes of LLMs and the motion prediction performance of autonomous driving. The source code is available at \url{https://github.com/AIR-DISCOVER/LLM-Augmented-MTR} and \url{https://aistudio.baidu.com/projectdetail/7809548}. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-22 |
# DynoSurf:ニューラルな変形に基づく時間的動的表面再構成
DynoSurf: Neural Deformation-based Temporally Consistent Dynamic Surface Reconstruction ( http://arxiv.org/abs/2403.11586v2 ) ライセンス: Link先を確認 | Yuxin Yao, Siyu Ren, Junhui Hou, Zhi Deng, Juyong Zhang, Wenping Wang, | (参考訳) 本稿では3次元点雲列から時間的に一貫した表面を対応なく再構成する問題について考察する。
この課題に対処するために,テンプレート表面表現と学習可能な変形場を統合した教師なし学習フレームワークDynoSurfを提案する。
具体的には、変形可能な四面体表現に基づいてテンプレート表面を学習するための粗大な戦略を設計する。
さらに,学習可能な制御点とブレンディングウェイトに基づく学習可能な変形表現を提案し,局所形状の整合性を維持しながらテンプレート表面を非剛性に変形させることができる。
実験により、DynoSurfは現在の最先端アプローチよりも大幅に優れていることが示され、動的メッシュ再構築の強力なツールとしての可能性を示している。
コードはhttps://github.com/yaoyx689/DynoSurf.comで公開されている。
This paper explores the problem of reconstructing temporally consistent surfaces from a 3D point cloud sequence without correspondence. To address this challenging task, we propose DynoSurf, an unsupervised learning framework integrating a template surface representation with a learnable deformation field. Specifically, we design a coarse-to-fine strategy for learning the template surface based on the deformable tetrahedron representation. Furthermore, we propose a learnable deformation representation based on the learnable control points and blending weights, which can deform the template surface non-rigidly while maintaining the consistency of the local shape. Experimental results demonstrate the significant superiority of DynoSurf over current state-of-the-art approaches, showcasing its potential as a powerful tool for dynamic mesh reconstruction. The code is publicly available at https://github.com/yaoyx689/DynoSurf. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-22 |
# NISQプロセッサ上の100ビット以上の深部量子回路の最適レイアウト合成
Optimal Layout Synthesis for Deep Quantum Circuits on NISQ Processors with 100+ Qubits ( http://arxiv.org/abs/2403.11598v2 ) ライセンス: Link先を確認 | Irfansha Shaik, Jaco van de Pol, | (参考訳) レイアウト合成とは、量子回路を量子プロセッサにマッピングすることである。
SWAPゲート挿入は、接続された物理量子ビットのみに2ビットゲートをスケジューリングするために必要である。
NISQプロセッサにおける量子ビットの増大に伴い、スケーラブルなレイアウト合成が最も重要である。
ヒューリスティックなアプローチで観測される大きな最適性ギャップでは、スケーラブルな正確な方法が必要である。
最近の正確でほぼ最適のアプローチは、中程度の回路にスケールするが、大きな深層回路はまだスコープ外である。
本研究では,1つのSWAPとCNOTのグループを各ステップで適用する並列計画に基づくSAT符号化を提案する。
ドメイン固有情報を用いて,大規模・深層回路へのスケーリング中に並列計画における最適性を維持する。
以上の結果から,提案手法のスケーラビリティは,高精度かつほぼ最適なアプローチ(最大100倍)よりも大幅に向上することを示した。
初めて、8, 14, 16量子ビット回路を最大17個のSWAPを持つ54, 80, 127量子ビットプラットフォームに最適にマッピングできる。
SWAPを最適に加える一方で、マッピングした回路に準最適深度を報告した。
Layout synthesis is mapping a quantum circuit to a quantum processor. SWAP gate insertions are needed for scheduling 2-qubit gates only on connected physical qubits. With the ever-increasing number of qubits in NISQ processors, scalable layout synthesis is of utmost importance. With large optimality gaps observed in heuristic approaches, scalable exact methods are needed. While recent exact and near-optimal approaches scale to moderate circuits, large deep circuits are still out of scope. In this work, we propose a SAT encoding based on parallel plans that apply 1 SWAP and a group of CNOTs at each time step. Using domain-specific information, we maintain optimality in parallel plans while scaling to large and deep circuits. From our results, we show the scalability of our approach which significantly outperforms leading exact and near-optimal approaches (up to 100x). For the first time, we can optimally map several 8, 14, and 16 qubit circuits onto 54, 80, and 127 qubit platforms with up to 17 SWAPs. While adding optimal SWAPs, we also report near-optimal depth in our mapped circuits. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-22 |
# Long-CLIP: CLIPの長文機能をアンロックする
Long-CLIP: Unlocking the Long-Text Capability of CLIP ( http://arxiv.org/abs/2403.15378v3 ) ライセンス: Link先を確認 | Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang, | (参考訳) コントラスト言語-画像事前学習(CLIP)はゼロショット分類、テキスト画像検索、画像とテキストのモダリティの整列によるテキスト画像生成の基盤となっている。
広く採用されているにもかかわらず、CLIPの大幅な制限はテキスト入力の不十分な長さにある。
テキストトークンの長さは77に制限され、実証的研究により実際の有効長が20未満であることが示されている。
これにより、CLIPは詳細な記述を処理できなくなり、画像検索やテキスト・ツー・イメージ生成への応用を広範囲の前提条件で制限する。
この目的のために、Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持し、CLIPの潜在空間を調整し、下流フレームワークにさらなる適応なしにCLIPを置き換えることのできる、CLIPのプラグアンドプレイ代替品として提案する。
それでもこの目標を達成するのは簡単ではない。単純化された微調整によってCLIPのパフォーマンスが大幅に低下する可能性があるからだ。
さらに、長いコンテキストをサポートする言語モデルでテキストエンコーダを置換するには、大量のデータで事前学習する必要があるため、かなりの費用がかかる。
そこでLong-CLIPは,(1)位置埋め込みの知識保存型ストレッチング,(2)CLIP機能の主成分マッチング,という2つの新しい手法により,CLIP上の効率的な微調整ソリューションを導入している。
わずか100万の長文画像ペアを活用することで、Long-CLIPは、長文画像検索で約20%、従来のテキスト画像検索タスクで6%、例えば、COCO、Flickr30kでCLIPよりも優れていることを示した。
さらに、Long-CLIPはCLIPをプラグアンドプレイで置き換えることで、詳細なテキスト記述から画像を生成する機能を強化している。
Contrastive Language-Image Pre-training (CLIP) has been the cornerstone for zero-shot classification, text-image retrieval, and text-image generation by aligning image and text modalities. Despite its widespread adoption, a significant limitation of CLIP lies in the inadequate length of text input. The length of the text token is restricted to 77, and an empirical study shows the actual effective length is even less than 20. This prevents CLIP from handling detailed descriptions, limiting its applications for image retrieval and text-to-image generation with extensive prerequisites. To this end, we propose Long-CLIP as a plug-and-play alternative to CLIP that supports long-text input, retains or even surpasses its zero-shot generalizability, and aligns the CLIP latent space, making it readily replace CLIP without any further adaptation in downstream frameworks. Nevertheless, achieving this goal is far from straightforward, as simplistic fine-tuning can result in a significant degradation of CLIP's performance. Moreover, substituting the text encoder with a language model supporting longer contexts necessitates pretraining with vast amounts of data, incurring significant expenses. Accordingly, Long-CLIP introduces an efficient fine-tuning solution on CLIP with two novel strategies designed to maintain the original capabilities, including (1) a knowledge-preserved stretching of positional embedding and (2) a primary component matching of CLIP features. With leveraging just one million extra long text-image pairs, Long-CLIP has shown the superiority to CLIP for about 20% in long caption text-image retrieval and 6% in traditional text-image retrieval tasks, e.g., COCO and Flickr30k. Furthermore, Long-CLIP offers enhanced capabilities for generating images from detailed text descriptions by replacing CLIP in a plug-and-play manner. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-22 |
# 拡散モデルによる3次元RF-Visionからの優れた電位推定
Diffusion Model is a Good Pose Estimator from 3D RF-Vision ( http://arxiv.org/abs/2403.16198v2 ) ライセンス: Link先を確認 | Junqiao Fan, Jianfei Yang, Yuecong Xu, Lihua Xie, | (参考訳) RFビジョン(Radio Frequency Vision)からのヒューマンポーズ推定(HPE)は、プライバシーを明かさずに障害物を貫通するRF信号(顔情報など)を用いて人間のセンシングを行う。
近年、mWaveレーダーは有望なRFビジョンセンサとして登場し、RF信号を処理してレーダー点雲を提供する。
しかし、mmWaveレーダはノイズの多い解像度が限られており、不正確で一貫性のない人間のポーズ推定に繋がる。
本研究は,ノイズレーダデータに適した拡散型ポーズ推定器mmDiffを提案する。
提案手法は拡散モデルの条件として信頼性の高いガイダンスを提供することを目的としている。
mmDiffでは,(1)異なる身体部位から特徴抽出を分離するモジュールによる人体の一部のミス検出,(2)環境干渉による信号の不整合,という2つの課題に対処する。
いくつかのモジュールはこれらの目標を達成するために設計されており、その特徴はその後の拡散モデルの条件として機能し、RFビジョンに基づくHPEのミス検出と不安定性を排除している。
大規模な実験により、mmDiffは既存の手法を著しく上回り、公開データセット上で最先端のパフォーマンスを達成している。
Human pose estimation (HPE) from Radio Frequency vision (RF-vision) performs human sensing using RF signals that penetrate obstacles without revealing privacy (e.g., facial information). Recently, mmWave radar has emerged as a promising RF-vision sensor, providing radar point clouds by processing RF signals. However, the mmWave radar has a limited resolution with severe noise, leading to inaccurate and inconsistent human pose estimation. This work proposes mmDiff, a novel diffusion-based pose estimator tailored for noisy radar data. Our approach aims to provide reliable guidance as conditions to diffusion models. Two key challenges are addressed by mmDiff: (1) miss-detection of parts of human bodies, which is addressed by a module that isolates feature extraction from different body parts, and (2) signal inconsistency due to environmental interference, which is tackled by incorporating prior knowledge of body structure and motion. Several modules are designed to achieve these goals, whose features work as the conditions for the subsequent diffusion model, eliminating the miss-detection and instability of HPE based on RF-vision. Extensive experiments demonstrate that mmDiff outperforms existing methods significantly, achieving state-of-the-art performances on public datasets. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-22 |
# $\forall$uto$\exists$val: 形式的合成および解釈タスクにおけるLCMの自動評価
$\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks ( http://arxiv.org/abs/2403.18327v2 ) ライセンス: Link先を確認 | Rushang Karia, Daniel Bramblett, Daksh Dobhal, Pulkit Verma, Siddharth Srivastava, | (参考訳) 本稿では,一階述語論理や正規表現などの形式構文を自然言語(解釈)や逆(コンパイル)に翻訳する手法である$\forall$uto$\exists$valを提案する。
これらの分野での既存のLCM評価のアプローチでは、労働集約的な地道の創造が必要であり、それによってトレーニングとテストセットの分離が損なわれる。
さらに、これらのデータセットは通常、LSMの精度が決定される手書きテストケースが比較的少ないため、生成された出力の安全性や正確性を決定するには不十分である。
本研究では, 文脈自由文法(CFG)を用いて, 人間の介入なしにLLM出力の正しさを保証するための形式検証器を用いて, LLM能力の分布外データセットを生成し, 閉ループテストを行う新しい手法を提案する。
私たちは、データセットとベンチマークをオープンソースコードとして、 \url{https://github.com/AAIR-lab/auto-llm-assessment}でリリースしています。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
実験の結果,SOTA LLMは正規翻訳を適切に解くことができないことがわかった。
This paper presents $\forall$uto$\exists$val, a new approach for scaling LLM assessment in translating formal syntax -- such as first-order logic, regular expressions, etc -- to natural language (interpretation) or vice versa (compilation), thereby facilitating their use in applications such as generating/explaining logic and control flow for programs etc. Existing approaches for LLM assessment in these areas require labor-intensive ground-truth creation, the availability of which undermines the separation of training and test sets. Furthermore, such datasets typically include relatively few hand-coded test cases over which LLM accuracy is determined, thus making them inadequate for determining the safety or correctness of their generated outputs. We introduce a new approach that utilizes context-free grammars (CFGs) to generate out-of-distribution datasets on the fly and perform closed-loop testing of LLM capabilities using formal verifiers to guarantee the correctness of LLM outputs without any human intervention. We release our dataset and benchmark as open-source code at \url{https://github.com/AAIR-lab/auto-llm-assessment}. We also conduct an assessment of several SOTA closed and open-source LLMs to showcase the feasibility and scalability of this paradigm. Our experiments reveal that SOTA LLMs are unable to solve the formal translation task adequately. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-22 |
# PIPNet3D:MRIにおけるアルツハイマーの検出
PIPNet3D: Interpretable Detection of Alzheimer in MRI Scans ( http://arxiv.org/abs/2403.18328v3 ) ライセンス: Link先を確認 | Lisa Anita De Santi, Jörg Schlötterer, Michael Scheschenja, Joel Wessendorf, Meike Nauta, Vincenzo Positano, Christin Seifert, | (参考訳) 神経画像検査からの情報は、認知症、例えばアルツハイマー病の診断を支援するためにますます利用されている。
現在の臨床は、主に視覚検査と特徴工学に基づいているが、Deep Learningアプローチは分析の自動化と新しいイメージバイオマーカーの発見に利用できる。
パートプロトタイプニューラルネットワーク(PP-NN)は、標準的なブラックボックスモデルの代替であり、一般的なコンピュータビジョンにおいて有望な結果を示している。
PP-NNは、完全に教師なし学習され、簡単に理解できる決定層と組み合わせられる原型画像領域の推論を基盤としている。
ボリューム画像のためのPP-NNであるPIPNet3Dを提案する。
構造型磁気共鳴画像(sMRI)によるアルツハイマー病の臨床診断にPIPNet3Dを適用した。
システム評価フレームワークを用いてプロトタイプの品質評価を行い、脳のプロトタイプを評価するための新しい機能的基盤メトリクスを提案し、ドメインの専門家との一貫性を評価するための評価スキームを開発した。
以上の結果から,PIPNet3Dはアルツハイマー病の診断の解釈可能でコンパクトなモデルであり,医学領域の知識に整合性があることが示唆された。
特に、PIPNet3Dはブラックボックスと同じ精度を達成しており、その決定プロセスから臨床に無関係なプロトタイプを除去しても予測性能は低下しない。
Information from neuroimaging examinations is increasingly used to support diagnoses of dementia, e.g., Alzheimer's disease. While current clinical practice is mainly based on visual inspection and feature engineering, Deep Learning approaches can be used to automate the analysis and to discover new image-biomarkers. Part-prototype neural networks (PP-NN) are an alternative to standard blackbox models, and have shown promising results in general computer vision. PP-NN's base their reasoning on prototypical image regions that are learned fully unsupervised, and combined with a simple-to-understand decision layer. We present PIPNet3D, a PP-NN for volumetric images. We apply PIPNet3D to the clinical diagnosis of Alzheimer's Disease from structural Magnetic Resonance Imaging (sMRI). We assess the quality of prototypes under a systematic evaluation framework, propose new functionally grounded metrics to evaluate brain prototypes and develop an evaluation scheme to assess their coherency with domain experts. Our results show that PIPNet3D is an interpretable, compact model for Alzheimer's diagnosis with its reasoning well aligned to medical domain knowledge. Notably, PIPNet3D achieves the same accuracy as its blackbox counterpart; and removing the remaining clinically irrelevant prototypes from its decision process does not decrease predictive performance. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-22 |
# ELITR-Bench: 長期言語モデルのための会議アシスタントベンチマーク
ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models ( http://arxiv.org/abs/2403.20262v2 ) ライセンス: Link先を確認 | Thibaut Thonet, Jos Rozen, Laurent Besacier, | (参考訳) 大規模言語モデル(LLMs)の研究は、長いドキュメント内の依存関係をよりよく捉えるために、モデルのコンテキストサイズを拡張することへの関心が高まっているのを最近目撃した。
ベンチマークは長距離能力を評価するために提案されているが、既存の取り組みは、必ずしも現実世界のアプリケーションと一致しない汎用的なタスクを主に検討している。
対照的に,本研究では,現実的な会議支援シナリオに着目した長文LLMのための新しいベンチマークを提案する。
このシナリオでは、長いコンテキストは自動音声認識によって得られた転写物から成り、そのようなデータの本質的なノイズと口頭における性質から、LSMに固有の課題を提示する。
ELITR-Benchという名前のベンチマークでは、既存のERLITRコーパスの書き起こしを271の手作業による質問と、その真真正な回答で強化しています。
ELITR-Bench上でのLLMによる最近の実験は、オープンソースモデルとプロプライエタリモデルとのギャップを浮き彫りにした。
また,クラウドソーシング研究から得られた知見を包含して,GPT-4に基づく評価手法の徹底的な分析を行った。
以上の結果から,GPT-4の評価スコアは人間の判断値と相関するが,3つ以上の評価値と区別できる能力は限定的である可能性が示唆された。
Research on Large Language Models (LLMs) has recently witnessed an increasing interest in extending models' context size to better capture dependencies within long documents. While benchmarks have been proposed to assess long-range abilities, existing efforts primarily considered generic tasks that are not necessarily aligned with real-world applications. In contrast, our work proposes a new benchmark for long-context LLMs focused on a practical meeting assistant scenario. In this scenario, the long contexts consist of transcripts obtained by automatic speech recognition, presenting unique challenges for LLMs due to the inherent noisiness and oral nature of such data. Our benchmark, named ELITR-Bench, augments the existing ELITR corpus' transcripts with 271 manually crafted questions and their ground-truth answers. Our experiments with recent long-context LLMs on ELITR-Bench highlight a gap between open-source and proprietary models, especially when questions are asked sequentially within a conversation. We also provide a thorough analysis of our GPT-4-based evaluation method, encompassing insights from a crowdsourcing study. Our findings suggest that while GPT-4's evaluation scores are correlated with human judges', its ability to differentiate among more than three score levels may be limited. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-22 |
# ボソニック応用によるトロッターおよびゼノ生成物の強境界について
On Strong Bounds for Trotter and Zeno Product Formulas with Bosonic Applications ( http://arxiv.org/abs/2404.01422v3 ) ライセンス: Link先を確認 | Tim Möbus, | (参考訳) トロッター積公式と量子ゼノ効果は、実験的に実現可能なビルディングブロックを用いて時間進化を構築するために必要なツールである。
本研究では、バナッハ空間上の強作用素位相において量的境界が証明できる仮定について議論し、自然ボソニックな例を示す。
特に、関連する生成元を相対的に有界にし、安定な制限付き極限半群の不変部分空間を生成する、連続的に埋め込まれたバナッハ空間の存在を仮定する。
許容可能部分空間のわずかに強い仮定は、結果が拡張される双曲進化系(時依存半群)の領域においてよく認識される。
連続埋め込みバナッハ空間の階層へのアクセスを仮定することで、鈴木高階境界が証明できる。
ボソニックな応用において、これらの埋め込みバナッハ空間は自然に数演算子を通して生じ、オルンシュタイン・ウレンベック半群やボソニックな誤差補正に使用される多光子駆動散逸のような顕著な例を含む様々な例をもたらす。
The Trotter product formula and the quantum Zeno effect are both indispensable tools for constructing time-evolutions using experimentally feasible building blocks. In this work, we discuss assumptions under which quantitative bounds can be proven in the strong operator topology on Banach spaces and provide natural bosonic examples. Specially, we assume the existence of a continuously embedded Banach space, which relatively bounds the involved generators and creates an invariant subspace of the limiting semigroup with a stable restriction. The slightly stronger assumption of admissible subspaces is well-recognized in the realm of hyperbolic evolution systems (time-dependent semigroups), to which the results are extended. By assuming access to a hierarchy of continuously embedded Banach spaces, Suzuki-higher-order bounds can be demonstrated. In bosonic applications, these embedded Banach spaces naturally arise through the number operator, leading to a diverse set of examples encompassing notable instances such as the Ornstein-Uhlenbeck semigroup and multi-photon driven dissipation used in bosonic error correction. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-22 |
# 圧電量子望遠鏡:超ロバストで効率の良い指数精度
Piecemeal Quantum Telescope: Exponential Precision with Super Robustness and Efficiency ( http://arxiv.org/abs/2404.03432v3 ) ライセンス: Link先を確認 | Jian Leng, Yi-Xin Shen, Zhou-Kai Cao, Xiang-Bin Wang, | (参考訳) 本稿では,異なるベースラインを用いたビット・バイ・ビット・イテレーションによる量子望遠鏡を提案する。
ベースライン数で指数関数的に精度を向上し、統計誤差やチャネルノイズ、運用エラーなど、大きな観測誤差の下では頑健に機能する。
例えば、ランダム位相ドリフトのノイズチャネルの下では、検出されたデータが完全にノイズではないような指数的精度を提供できる。
統計的誤差に耐性があるため、指数的精度で恒星角を検出する際には、少数の入射単光子しか要求しない。
結果として、ターゲット星から数百個の光子しか検出せず、古典的極限を4~5等級の精度で破ることが要求された。
これは超効率性を示す。
We propose the piecemeal quantum telescope through bit-by-bit iteration using different baselines. It improves precision exponentially with number of baselines, and it works robustly under large observation errors such as statistical errors, channel noise, operational errors and so on. For example, under the noisy channel of random phase drifts, our method can provide an exponential precision provided that the detected data is not entirely noisy. Being fault tolerant to statistical error, it requests only a small number of incident single-photons in detecting the star angle with exponential precision. As a result, it requests to detect only a few hundreds of photons from the target star for a precision breaking classical limit by 4 to 5 magnitude orders. This demonstrates a super efficiency. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-22 |
# MedIAnomaly:医療画像における異常検出の比較研究
MedIAnomaly: A comparative study of anomaly detection in medical images ( http://arxiv.org/abs/2404.04518v2 ) ライセンス: Link先を確認 | Yu Cai, Weiwen Zhang, Hao Chen, Kwang-Ting Cheng, | (参考訳) 異常検出(AD)は、期待される正常なパターンから逸脱する異常なサンプルを検出することを目的としている。
一般的には、正常なデータに基づいて、異常なサンプルを必要とせずに訓練することができるため、医療領域における稀な疾患の認識や健康診断において重要な役割を果たす。
医学的ADのための多くの方法が出現したにもかかわらず、公平で包括的な評価が欠如しており、不明瞭な結論を導き、この分野の発展を妨げている。
この問題に対処するため,本論文では,比較を統一したベンチマークを構築した。
胸部X線, 脳MRI, 網膜基底像, 皮膚内視鏡像, 病理組織像を含む5つの画像モダリティを持つ7つの医用データセットを, 広範囲な評価のためにキュレートした。
画像レベルの異常分類と画素レベルの異常セグメンテーションの比較には,再構成法や自己教師型学習法を含む30種類のAD手法が関与している。
さらに,既存の手法におけるキーコンポーネントの効果を公式に検討し,未解決の課題と今後の方向性を明らかにした。
データセットとコードは \url{https://github.com/caiyu6666/MedIAnomaly} で公開されている。
Anomaly detection (AD) aims at detecting abnormal samples that deviate from the expected normal patterns. Generally, it can be trained merely on normal data, without a requirement for abnormal samples, and thereby plays an important role in the recognition of rare diseases and health screening in the medical domain. Despite the emergence of numerous methods for medical AD, we observe a lack of a fair and comprehensive evaluation, which causes ambiguous conclusions and hinders the development of this field. To address this problem, this paper builds a benchmark with unified comparison. Seven medical datasets with five image modalities, including chest X-rays, brain MRIs, retinal fundus images, dermatoscopic images, and histopathology whole slide images, are curated for extensive evaluation. Thirty typical AD methods, including reconstruction and self-supervised learning-based methods, are involved in comparison of image-level anomaly classification and pixel-level anomaly segmentation. Furthermore, for the first time, we formally explore the effect of key components in existing methods, clearly revealing unresolved challenges and potential future directions. The datasets and code are available at \url{https://github.com/caiyu6666/MedIAnomaly}. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-22 |
# ツリーベースとハイブリッドグラフィカルテキストモデルエディタ:テスト仕様に関する実証的研究
Tree-Based versus Hybrid Graphical-Textual Model Editors: An Empirical Study of Testing Specifications ( http://arxiv.org/abs/2404.05846v2 ) ライセンス: Link先を確認 | Ionut Predoaia, James Harbin, Simos Gerasimou, Christina Vasiliou, Dimitris Kolovos, Antonio García-Domínguez, | (参考訳) ツリーベースのモデルエディタとハイブリッドなグラフィカルテキストモデルエディタは、ドメインモデルを編集する際の利点と制限がある。
データは木ベースのモデルエディターに階層的に表示されるが、ハイブリッドなグラフィカルテキストモデルエディターは高レベルのドメイン概念をグラフィカルに、低レベルのドメインの詳細をテキスト的にキャプチャする。
筆者らは22名の被験者とともに実験的なユーザスタディを行い,ハイブリッド表記が優れているというシステムモデラーの暗黙の仮定を評価し,デフォルトのEMFベースのツリーモデルエディタとSirius/Xtextベースのハイブリッドモデルエディタとのトレードオフについて検討した。
ユーザスタディの結果は、ユーザが主にハイブリッドエディタを好んでおり、条件の意味を理解するためのハイブリッド表記に自信があることを示唆している。
さらに, モデル要素の順序付きリストを解析する上で, ツリーエディタが優れた性能を示したのに対し, 複雑な条件の理解やモデル化を必要とするアクティビティは, ハイブリッドエディタによってより高速に実行されることがわかった。
Tree-based model editors and hybrid graphical-textual model editors have advantages and limitations when editing domain models. Data is displayed hierarchically in tree-based model editors, whereas hybrid graphical-textual model editors capture high-level domain concepts graphically and low-level domain details textually. We conducted an empirical user study with 22 participants to evaluate the implicit assumption of system modellers that hybrid notations are superior, and to investigate the tradeoffs between the default EMF-based tree model editor and a Sirius/Xtext-based hybrid model editor. The results of the user study indicate that users largely prefer the hybrid editor and are more confident with hybrid notations for understanding the meaning of conditions. Furthermore, we found that the tree editor provided superior performance for analysing ordered lists of model elements, whereas activities requiring the comprehension or modelling of complex conditions were carried out faster through the hybrid editor. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-22 |
# UltraEval: LLMのフレキシブルで総合的な評価のための軽量プラットフォーム
UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs ( http://arxiv.org/abs/2404.07584v3 ) ライセンス: Link先を確認 | Chaoqun He, Renjie Luo, Shengding Hu, Yuanqian Zhao, Jie Zhou, Hanghao Wu, Jiajie Zhang, Xu Han, Zhiyuan Liu, Maosong Sun, | (参考訳) 評価は、LLM(Large Language Models)の精細化、その能力の特定、改善の指針となる。
LLMの急速な開発により、迅速な評価デプロイメントのための軽量で使いやすいフレームワークが求められている。
しかし、様々な実装の詳細を考慮すると、総合的な評価プラットフォームの開発は容易ではない。
既存のプラットフォームはしばしば複雑でモジュール化が不十分で、研究ワークフローへのシームレスな統合を妨げる。
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
モデル評価(モデル、データ、メトリクス)の3つのコアコンポーネントを特定し、再実装します。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
さらにUltraEvalは、統一HTTPサービスによる多様なモデルをサポートし、十分な推論アクセラレーションを提供する。
UltraEvalは現在、研究者向けに公開されている。
Evaluation is pivotal for refining Large Language Models (LLMs), pinpointing their capabilities, and guiding enhancements. The rapid development of LLMs calls for a lightweight and easy-to-use framework for swift evaluation deployment. However, considering various implementation details, developing a comprehensive evaluation platform is never easy. Existing platforms are often complex and poorly modularized, hindering seamless incorporation into research workflows. This paper introduces UltraEval, a user-friendly evaluation framework characterized by its lightweight nature, comprehensiveness, modularity, and efficiency. We identify and reimplement three core components of model evaluation (models, data, and metrics). The resulting composability allows for the free combination of different models, tasks, prompts, benchmarks, and metrics within a unified evaluation workflow. Additionally, UltraEval supports diverse models owing to a unified HTTP service and provides sufficient inference acceleration. UltraEval is now available for researchers publicly. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-22 |
# ゼロショット学習のためのプログレッシブ・セマンティック・ガイド型視覚変換器
Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning ( http://arxiv.org/abs/2404.07713v2 ) ライセンス: Link先を確認 | Shiming Chen, Wenjin Hou, Salman Khan, Fahad Shahbaz Khan, | (参考訳) ゼロショット学習(ZSL)は、視覚と意味の相互作用を行ない、目に見えるクラスから目に見えないクラスへ意味的な知識を伝達し、意味情報(例えば属性)によって支えられる。
しかし、既存のZSL手法では、事前に訓練されたネットワークバックボーン(例えばCNNやViT)を使って視覚的特徴を抽出するだけで、意味情報のガイダンスが欠如しているため、意味に関連した視覚的特徴を表現するために一致した視覚的意味的対応を学習できず、望ましくない視覚的意味的相互作用をもたらす。
この問題に対処するため,ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは主にネットワーク全体の2つの特性について検討している。
一 意味関連視覚表現を明示的に発見し、
二 意味不明の視覚情報を破棄すること。
具体的には、セマンティックエンハンスメントによる視覚・セマンティック対応を改善するために、セマンティックエンベッドドトークン学習を導入し、セマンティックエンハンスメントを用いて意味関連視覚トークンを明示的に発見する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
これら2つの操作は様々なエンコーダに統合され、ZSLにおける正確な視覚-意味的相互作用のための意味関連視覚表現を徐々に学習する。
大規模な実験により、我々のZSLViTは、CUB、SUN、AWA2という3つの人気のあるベンチマークデータセットにおいて、大幅なパフォーマンス向上を実現していることが示された。
コードは、https://github.com/shiming-chen/ZSLViT で入手できる。
Zero-shot learning (ZSL) recognizes the unseen classes by conducting visual-semantic interactions to transfer semantic knowledge from seen classes to unseen ones, supported by semantic information (e.g., attributes). However, existing ZSL methods simply extract visual features using a pre-trained network backbone (i.e., CNN or ViT), which fail to learn matched visual-semantic correspondences for representing semantic-related visual features as lacking of the guidance of semantic information, resulting in undesirable visual-semantic interactions. To tackle this issue, we propose a progressive semantic-guided vision transformer for zero-shot learning (dubbed ZSLViT). ZSLViT mainly considers two properties in the whole network: i) discover the semantic-related visual representations explicitly, and ii) discard the semantic-unrelated visual information. Specifically, we first introduce semantic-embedded token learning to improve the visual-semantic correspondences via semantic enhancement and discover the semantic-related visual tokens explicitly with semantic-guided token attention. Then, we fuse low semantic-visual correspondence visual tokens to discard the semantic-unrelated visual information for visual enhancement. These two operations are integrated into various encoders to progressively learn semantic-related visual representations for accurate visual-semantic interactions in ZSL. The extensive experiments show that our ZSLViT achieves significant performance gains on three popular benchmark datasets, i.e., CUB, SUN, and AWA2. Codes are available at: https://github.com/shiming-chen/ZSLViT . | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-22 |
# 無線ネットワーク上での協調マルチタスク処理のための意味コミュニケーション
Semantic Communication for Cooperative Multi-Task Processing over Wireless Networks ( http://arxiv.org/abs/2404.08483v4 ) ライセンス: Link先を確認 | Ahmad Halimi Razlighi, Carsten Bockelmann, Armin Dekorsy, | (参考訳) 本稿では,情報理論を用いたマルチタスク処理のセマンティックコミュニケーションについて検討した。
我々は「セマンティックソース」の概念を導入し、単一の観察から複数の意味論的解釈を可能にした。
通信チャネルを考慮したエンドツーエンド最適化問題を定式化し、意味的変数間の統計的関係を利用した意味的エンコーディングおよび復号プロセスの設計のために相互情報(infomax)を最大化する。
この問題を解決するために,変分近似を用いたデータ駆動型深層学習を行う。
我々のセマンティックエンコーダは、協調マルチタスク処理を容易にするために、共通ユニットと複数の特定ユニットに分けられる。
シミュレーションの結果、統計的関係が存在する場合のセマンティックソースとシステム設計の有効性を示し、協調タスク処理と独立タスク処理を比較した。
しかし, 協調型マルチタスクは必ずしも有用ではなく, タスク間の統計的関係の重要性を強調し, 複数タスクのセマンティックな処理のさらなる検討の必要性を示唆している。
In this paper, we investigated semantic communication for multi-task processing using an information-theoretic approach. We introduced the concept of a "semantic source", allowing multiple semantic interpretations from a single observation. We formulated an end-to-end optimization problem taking into account the communication channel, maximizing mutual information (infomax) to design the semantic encoding and decoding process exploiting the statistical relations between semantic variables. To solve the problem we perform data-driven deep learning employing variational approximation techniques. Our semantic encoder is divided into a common unit and multiple specific units to facilitate cooperative multi-task processing. Simulation results demonstrate the effectiveness of our proposed semantic source and system design when statistical relationships exist, comparing cooperative task processing with independent task processing. However, our findings highlight that cooperative multi-tasking is not always beneficial, emphasizing the importance of statistical relationships between tasks and indicating the need for further investigation into the semantically processing of multiple tasks. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-22 |
# フェースボイス・アソシエーションと多言語環境(FAME) : 2024年度評価計画
Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan ( http://arxiv.org/abs/2404.09342v3 ) ライセンス: Link先を確認 | Muhammad Saad Saeed, Shah Nawaz, Muhammad Salman Tahir, Rohan Kumar Das, Muhammad Zaigham Zaheer, Marta Moscati, Markus Schedl, Muhammad Haris Khan, Karthik Nandakumar, Muhammad Haroon Yousaf, | (参考訳) 技術の進歩により、様々な現実世界のアプリケーションにマルチモーダルシステムが使われるようになった。
その中でも、オーディオ視覚システムは広く使われているマルチモーダルシステムの一つである。
近年,人の顔と声の関連付けが注目されている。
フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
この状態は、世界の人口の半分がバイリンガルであり、ほとんどの人は多言語シナリオの下でコミュニケーションしているという事実から着想を得ている。
この課題は、マルチ言語環境における顔声関連を探索するために、Multilingual Audio-Visual (MAV-Celeb) というデータセットを使用する。
本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。
The advancements of technology have led to the use of multimodal systems in various real-world applications. Among them, the audio-visual systems are one of the widely used multimodal systems. In the recent years, associating face and voice of a person has gained attention due to presence of unique correlation between them. The Face-voice Association in Multilingual Environments (FAME) Challenge 2024 focuses on exploring face-voice association under a unique condition of multilingual scenario. This condition is inspired from the fact that half of the world's population is bilingual and most often people communicate under multilingual scenario. The challenge uses a dataset namely, Multilingual Audio-Visual (MAV-Celeb) for exploring face-voice association in multilingual environments. This report provides the details of the challenge, dataset, baselines and task details for the FAME Challenge. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-22 |
# ビジュアルファウンデーションモデルとオフラインRLによる身体的視覚追跡の強化
Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL ( http://arxiv.org/abs/2404.09857v2 ) ライセンス: Link先を確認 | Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen, | (参考訳) 身体的な視覚追跡は、エージェントの自我中心のビジョンを使用して、ダイナミックな3D環境でターゲットオブジェクトを追従することである。
これは、エンボディされたエージェントにとって、不可欠で挑戦的なスキルです。
しかし、既存の手法は非効率な訓練と一般化の欠如に悩まされている。
本稿では,視覚基盤モデル(VFM)とオフライン強化学習(オフラインRL)を組み合わせた新しいフレームワークを提案する。
我々は、テキストプロンプトでセマンティックセグメンテーションマスクを抽出するために、"Tracking Anything"のような事前訓練されたVFMを使用する。
次に、オフラインのRL、例えば保守的なQ-Learningでリカレントポリシーネットワークをトレーニングし、オンラインインタラクションなしで収集されたデモから学習する。
また,ポリシーネットワークの堅牢性と一般化をさらに向上するため,マスク再ターゲット機構とマルチレベルデータ収集戦略を導入する。
このようにして、コンシューマレベルのGPU、例えばNvidia RTX 3090上で、1時間以内に堅牢なポリシをトレーニングすることができます。
我々は,注意散らしや閉塞といった難易度の高い環境において,エージェントの評価を行った。
その結果, エージェントは, サンプル効率, 邪魔者に対する堅牢性, 目に見えないシナリオやターゲットへの一般化の観点から, 最先端の手法よりも優れていた。
また,仮想環境から実環境ロボットへの学習エージェントの移動可能性を示す。
Embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor generalization. In this paper, we propose a novel framework that combines visual foundation models(VFM) and offline reinforcement learning(offline RL) to empower embodied visual tracking. We use a pre-trained VFM, such as "Tracking Anything", to extract semantic segmentation masks with text prompts. We then train a recurrent policy network with offline RL, e.g., Conservative Q-Learning, to learn from the collected demonstrations without online interactions. To further improve the robustness and generalization of the policy network, we also introduce a mask re-targeting mechanism and a multi-level data collection strategy. In this way, we can train a robust policy within an hour on a consumer-level GPU, e.g., Nvidia RTX 3090. We evaluate our agent on several high-fidelity environments with challenging situations, such as distraction and occlusion. The results show that our agent outperforms state-of-the-art methods in terms of sample efficiency, robustness to distractors, and generalization to unseen scenarios and targets. We also demonstrate the transferability of the learned agent from virtual environments to a real-world robot. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-22 |
# Consistent Diffusion Meet with Tweedie: Training Exact Ambient Diffusion Models with Noisy Data
Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data ( http://arxiv.org/abs/2404.10177v2 ) ライセンス: Link先を確認 | Giannis Daras, Alexandros G. Dimakis, Constantinos Daskalakis, | (参考訳) アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散)は、
Ambient Diffusionと別のSUREベースのアプローチは、劣化したデータリゾートから性能を低下させる近似まで、拡散モデルを学習する。
本稿では, ノイズの多い学習データのみを用いて, 故障のない分布から, 確実にサンプリング可能な拡散モデルのトレーニングフレームワークを提案する。
我々の重要な技術的貢献は、ツイーディの公式の二重応用と、観測されたデータノイズの下のノイズレベルにおけるサンプリングを拡張できる一貫性損失関数を利用する方法である。
さらに、拡散モデルは、ほぼ完全に再構成された極端に破損した画像を特定し、著作権やプライバシーの懸念を提起することで、トレーニングセットから記憶する証拠も提供します。
本手法では, この問題を緩和するために, 劣化したサンプルを用いたトレーニング法を用いることができる。
本研究では, 安定拡散XLを微調整し, ノイズサンプルのみを用いて分布から試料を生成する。
我々のフレームワークは、競争性能を維持しながら、微調整データセットの記憶量を削減します。
Ambient diffusion is a recently proposed framework for training diffusion models using corrupted data. Both Ambient Diffusion and alternative SURE-based approaches for learning diffusion models from corrupted data resort to approximations which deteriorate performance. We present the first framework for training diffusion models that provably sample from the uncorrupted distribution given only noisy training data, solving an open problem in this space. Our key technical contribution is a method that uses a double application of Tweedie's formula and a consistency loss function that allows us to extend sampling at noise levels below the observed data noise. We also provide further evidence that diffusion models memorize from their training sets by identifying extremely corrupted images that are almost perfectly reconstructed, raising copyright and privacy concerns. Our method for training using corrupted samples can be used to mitigate this problem. We demonstrate this by fine-tuning Stable Diffusion XL to generate samples from a distribution using only noisy samples. Our framework reduces the amount of memorization of the fine-tuning dataset, while maintaining competitive performance. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-22 |
# SPVLoc: 見知らぬ環境下での6次元カメラローカライゼーションのためのセマンティックパノラマビューポートマッチング
SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Localization in Unseen Environments ( http://arxiv.org/abs/2404.10527v2 ) ライセンス: Link先を確認 | Niklas Gard, Anna Hilsmann, Peter Eisert, | (参考訳) 本稿では,クエリ画像の6次元カメラポーズを正確に決定するグローバル屋内ローカライズ手法であるSPVLocについて述べる。
提案手法では,室内環境のパノラマ的セマンティックなレイアウト表現のセット内に,RGB画像として与えられる視点カメラのビューポートをローカライズする手法を用いている。
パノラマは、ドアや窓のアノテーションとともに、部屋の形状に関する近似的な構造情報のみを含む、テクスチャのない3D参照モデルから描画される。
簡単な畳み込みネットワーク構造により,画像からパノラマ,最終的には画像からモデルへのマッチングが実現可能であることを示す。
ビューポート分類スコアを用いて、参照パノラマをランク付けし、クエリ画像のベストマッチを選択する。
そして、選択したパノラマとクエリ画像との間に6D相対的なポーズを推定する。
我々の実験は、このアプローチがドメインギャップを効率的に橋渡しするだけでなく、トレーニングデータの一部ではない未確認シーンにもうまく一般化することを示した。
さらに、最先端の手法に比べて位置決め精度が優れており、カメラポーズの自由度も高いと見積もっている。
私たちのソースコードはhttps://fraunhoferhhi.github.io/spvloc で公開されています。
In this paper, we present SPVLoc, a global indoor localization method that accurately determines the six-dimensional (6D) camera pose of a query image and requires minimal scene-specific prior knowledge and no scene-specific training. Our approach employs a novel matching procedure to localize the perspective camera's viewport, given as an RGB image, within a set of panoramic semantic layout representations of the indoor environment. The panoramas are rendered from an untextured 3D reference model, which only comprises approximate structural information about room shapes, along with door and window annotations. We demonstrate that a straightforward convolutional network structure can successfully achieve image-to-panorama and ultimately image-to-model matching. Through a viewport classification score, we rank reference panoramas and select the best match for the query image. Then, a 6D relative pose is estimated between the chosen panorama and query image. Our experiments demonstrate that this approach not only efficiently bridges the domain gap but also generalizes well to previously unseen scenes that are not part of the training data. Moreover, it achieves superior localization accuracy compared to the state of the art methods and also estimates more degrees of freedom of the camera pose. Our source code is publicly available at https://fraunhoferhhi.github.io/spvloc . | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-22 |
# フェデレーテッド・アナリティクスに関する調査 : 分類学,エナリング技術,応用,オープン・イシュー
A Survey on Federated Analytics: Taxonomy, Enabling Techniques, Applications and Open Issues ( http://arxiv.org/abs/2404.12666v2 ) ライセンス: Link先を確認 | Zibo Wang, Haichao Ji, Yifei Zhu, Dan Wang, Zhu Han, | (参考訳) ネットワーク化されたエッジデバイスが生成するデータのエスカレーションは、データプライバシの認識の高まりと相まって、エッジデータが集中型サーバによって収集され、データアナリストによってさらに活用されるような、従来のデータ分析ワークフローを制限している。
さまざまなデータ中心のアプリケーションをサポートするために、巨大なエッジデータを引き続き活用するために、中央集権データ処理からプライバシ保存された分散データ処理への変革的なシフトが、コンピューティングパラダイムにおいて促進される。
プライベートエッジデータでデータ分析を実行する必要性は、フェデレーション分析(FA)を動機付けている。
FAの産業・アカデミックへの応用は広く行われているが、FAにおける既存の研究成果の総合的な調査は特に欠落している。
この調査は、まずFAの概要を提供し、鍵となる概念を解明し、同様の概念との関係を議論することで、このギャップを埋めることを目的としています。
次に,FAの課題,分類,技術の実現など,FAの徹底的な検討を行う。
統計メトリクス、周波数関連アプリケーション、データベースクエリ操作、FL支援FAタスク、その他の無線ネットワークアプリケーションを含む様々なFAアプリケーションは、慎重にレビューされる。
いくつかのオープンな研究課題、今後の方向性、総合的な教訓で調査を完了しました。
本調査は、新たなFA技術に関する総合的な理解を提供し、新興ネットワーク社会におけるプライバシ保存型分散データ処理の継続的な進化を促進することを目的としている。
The escalating influx of data generated by networked edge devices, coupled with the growing awareness of data privacy, has restricted the traditional data analytics workflow, where the edge data are gathered by a centralized server to be further utilized by data analysts. To continue leveraging vast edge data to support various data-incentive applications, a transformative shift is promoted in computing paradigms from centralized data processing to privacy-preserved distributed data processing. The need to perform data analytics on private edge data motivates federated analytics (FA), an emerging technique to support collaborative data analytics among diverse data owners without centralizing the raw data. Despite the wide applications of FA in industry and academia, a comprehensive examination of existing research efforts in FA has been notably absent. This survey aims to bridge this gap by first providing an overview of FA, elucidating key concepts, and discussing its relationship with similar concepts. We then conduct a thorough examination of FA, including its key challenges, taxonomy, and enabling techniques. Diverse FA applications, including statistical metrics, frequency-related applications, database query operations, FL-assisting FA tasks, and other wireless network applications are then carefully reviewed. We complete the survey with several open research issues, future directions, and a comprehensive lessons learned part. This survey intends to provide a holistic understanding of the emerging FA techniques and foster the continued evolution of privacy-preserving distributed data processing in the emerging networked society. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-22 |
# Mélange:GPUヘテロジニティの爆発によって実現されるコスト効率のよい大規模言語モデル
Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity ( http://arxiv.org/abs/2404.14527v4 ) ライセンス: Link先を確認 | Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica, | (参考訳) 大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、高価なGPUインスタンスを必要とするため、デプロイにはコストがかかる。
これまでは推論エンジンの改善によってLLMの高コスト化に取り組んできたが、特定のLLMサービスに対して最もコスト効率のよいGPUタイプを選択することにはあまり注意が向けられていない。
GPUタイプの大規模で成長する状況があり、これらのオプションでは、高コストがパフォーマンス向上につながるとは限らない。
その代わりに、包括的な調査により、3つの主要なLLMサービス特性(要求サイズ、要求率、SLO)がGPUコスト効率に強く影響を与え、異なるGPUタイプが異なるLLMサービス設定に対して最もコスト効率がよいことがわかった。
結果として、与えられたサービスの最もコスト効率のよい割り当ては、通常、異種GPUタイプの混合である。
この分析に基づいて、これらの多様なLLMサービス特性とヘテロジニアスGPUオプション空間をナビゲートし、与えられたLLMサービスの最小コストGPUアロケーションを自動かつ効率的に導出するGPUアロケーションフレームワークであるM\'elangeを紹介する。
我々は、GPU割り当てタスクを、GPUがビンであり、アイテムがサービスのワークロードのスライスである、コスト対応のビンパッキング問題として定式化する。
私たちの定式化の制約は、サービスのユニークな特性を考慮し、M\'elangeは、さまざまなサービス設定と、GPUアロケーションを特定のサービスに適応するためのヘテロジニティアウェアをサポートするためにフレキシブルになる。
単一のGPUタイプのみを使用する場合と比較して、M\'elangeは、会話設定で最大77%、ドキュメントベースの設定で33%、混合設定で51%のデプロイメントコストを削減する。
Large language models (LLMs) are increasingly integrated into many online services, yet they remain cost-prohibitive to deploy due to the requirement of expensive GPU instances. Prior work has addressed the high cost of LLM serving by improving the inference engine, but less attention has been given to selecting the most cost-efficient GPU type(s) for a specific LLM service. There is a large and growing landscape of GPU types and, within these options, higher cost does not always lead to increased performance. Instead, through a comprehensive investigation, we find that three key LLM service characteristics (request size, request rate, SLO) strongly influence GPU cost efficiency, and differing GPU types are most cost efficient for differing LLM service settings. As a result, the most cost-efficient allocation for a given service is typically a mix of heterogeneous GPU types. Based on this analysis, we introduce M\'elange, a GPU allocation framework that navigates these diverse LLM service characteristics and heterogeneous GPU option space to automatically and efficiently derive the minimal-cost GPU allocation for a given LLM service. We formulate the GPU allocation task as a cost-aware bin packing problem where GPUs are bins and items are slices of the service workload. Our formulation's constraints account for a service's unique characteristics, allowing M\'elange to be flexible to support diverse service settings and heterogeneity-aware to adapt the GPU allocation to a specific service. Compared to using only a single GPU type, M\'elange reduces deployment costs by up to 77% in conversational settings, 33% in document-based settings, and 51% in a mixed setting. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-22 |
# 協調認知のためのフェデレーション学習フレームワークについて
On the Federated Learning Framework for Cooperative Perception ( http://arxiv.org/abs/2404.17147v2 ) ライセンス: Link先を確認 | Zhenrong Zhang, Jianan Liu, Xi Zhou, Tao Huang, Qing-Long Han, Jingxin Liu, Hongbin Liu, | (参考訳) 協力的な認識は将来の輸送システムの効率性と安全性を高めるために不可欠であり、道路上の車両間での広範なデータ共有が必要であり、プライバシー上の懸念を生じさせる。
フェデレーション学習は、コネクテッドおよび自律走行車(CAV)間の知覚、意思決定、計画における、データのプライバシ保護による協調的な強化を可能にすることで、有望なソリューションを提供する。
しかし、フェデレート学習は、多様なクライアント間のデータの均一性から生じる重大な課題によって妨げられ、モデルの精度が低下し、収束期間が長くなる可能性がある。
本研究では, 動的調整損失(DALoss)関数によって促進されるFedDWAアルゴリズム(Federated dynamic weighted aggregate, FedDWA)と呼ばれる, CPのための特殊な連合学習フレームワークを提案する。
このフレームワークは、動的クライアント重み付けをモデル収束の直接化に利用し、KLD(Kullback-Leibler divergence)を利用して非独立かつ同一に分散された(Non-IID)データと不均衡なデータの有害な影響を対処する新しい損失関数を統合する。
BEV変換器を主モデルとして、FedBEVTデータで拡張したOpenV2Vデータセットの厳密なテストを行い、結合平均交差(IoU)が大幅に改善されたことを示す。
これらの結果は,CPにおけるデータ不均一性問題に対処し,環境認識モデルの精度を高め,交通セクターにおけるより堅牢で効率的な協調学習ソリューションを実現するための,我々の連合学習フレームワークの実質的な可能性を強調した。
Cooperative perception is essential to enhance the efficiency and safety of future transportation systems, requiring extensive data sharing among vehicles on the road, which raises significant privacy concerns. Federated learning offers a promising solution by enabling data privacy-preserving collaborative enhancements in perception, decision-making, and planning among connected and autonomous vehicles (CAVs). However, federated learning is impeded by significant challenges arising from data heterogeneity across diverse clients, potentially diminishing model accuracy and prolonging convergence periods. This study introduces a specialized federated learning framework for CP, termed the federated dynamic weighted aggregation (FedDWA) algorithm, facilitated by dynamic adjusting loss (DALoss) function. This framework employs dynamic client weighting to direct model convergence and integrates a novel loss function that utilizes Kullback-Leibler divergence (KLD) to counteract the detrimental effects of non-independently and identically distributed (Non-IID) and unbalanced data. Utilizing the BEV transformer as the primary model, our rigorous testing on the OpenV2V dataset, augmented with FedBEVT data, demonstrates significant improvements in the average intersection over union (IoU). These results highlight the substantial potential of our federated learning framework to address data heterogeneity challenges in CP, thereby enhancing the accuracy of environmental perception models and facilitating more robust and efficient collaborative learning solutions in the transportation sector. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-22 |
# DGE: 一貫性のあるマルチビュー編集による直接ガウス3D編集
DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing ( http://arxiv.org/abs/2404.18929v2 ) ライセンス: Link先を確認 | Minghao Chen, Iro Laina, Andrea Vedaldi, | (参考訳) オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D画像生成装置やエディタを使って3D編集プロセスをガイドし、3Dデータの必要性を回避することである。
しかし、このプロセスは、個々のビュー編集や蒸留サンプリングによって、神経放射場のような高価な3D表現を反復的に更新する必要があるため、しばしば非効率である。
このアプローチの大きな欠点は、2Dモデルからのガイダンスが複数ビューの一貫性がないため、ビュー間で一貫性のない情報を集約することによって生じる緩やかな収束である。
そこで我々は,これらの問題を2段階に解決する手法であるDirect Gaussian Editor (DGE)を導入する。
まず、InstructPix2Pixのような高品質の画像エディタをマルチビュー一貫性に修正する。
そこで本研究では,基礎となるシーンの3次元幾何学からの手がかりを取り入れた,トレーニング不要なアプローチを提案する。
第2に,複数ビューで一貫した画像列が与えられた場合,3次元ガウススプラッティングに基づく3次元表現を直接的かつ効率的に最適化する。
インクリメンタルで反復的な編集を避けるため、DGEは既存のアプローチよりもはるかに正確で効率的であり、シーンの一部を選択的に編集できるなど追加の利点がある。
We consider the problem of editing 3D objects and scenes based on open-ended language instructions. A common approach to this problem is to use a 2D image generator or editor to guide the 3D editing process, obviating the need for 3D data. However, this process is often inefficient due to the need for iterative updates of costly 3D representations, such as neural radiance fields, either through individual view edits or score distillation sampling. A major disadvantage of this approach is the slow convergence caused by aggregating inconsistent information across views, as the guidance from 2D models is not multi-view consistent. We thus introduce the Direct Gaussian Editor (DGE), a method that addresses these issues in two stages. First, we modify a given high-quality image editor like InstructPix2Pix to be multi-view consistent. To do so, we propose a training-free approach that integrates cues from the 3D geometry of the underlying scene. Second, given a multi-view consistent edited sequence of images, we directly and efficiently optimize the 3D representation, which is based on 3D Gaussian Splatting. Because it avoids incremental and iterative edits, DGE is significantly more accurate and efficient than existing approaches and offers additional benefits, such as enabling selective editing of parts of the scene. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-22 |
# 不均衡分類におけるバランシング手法の羅生門効果に関する実験的研究
An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification ( http://arxiv.org/abs/2405.01557v3 ) ライセンス: Link先を確認 | Mustafa Cavus, Przemysław Biecek, | (参考訳) 予測モデルは、不均衡なデータセットを分類する際にバイアス付き予測を生成する。
これは、モデルが多数派クラスを好むときに起こり、少数派クラスを正確に予測する性能が低下する。
この問題に対処するためには、予測性能を改善するために、モデリングプロセスにおけるデータ中心のAIアプローチのバランスや再サンプリングが重要である。
しかし,近年,これらの手法の機能に関する議論や疑問が持ち上がっている。
特に、多くの候補モデルは、モデル選択において、ラショモン効果と呼ばれる非常に類似した予測性能を示し、同じ観測に対して異なる予測を生成することもある。
これらのモデルの1つを選択することは、予測的多重性(つまり、任意のサンプルに対して矛盾するモデルの予測を得る場合)を考慮せずに、盲点選択をもたらす。
本稿では,ラショモン効果を用いて,バランシング手法が予測乗算性に与える影響について検討する。
データ中心のAIにおける盲点モデル選択は、ほぼ同じ精度のモデルのセットからリスクが高いため、非常に重要です。
これは、モデル選択、検証、説明において深刻な問題を引き起こす可能性がある。
この問題に対処するため,本研究では,既存手法の曖昧さと不明瞭さに加えて,新たに提案された測度不明瞭さを用いることで,分散手法がラショモン効果による予測乗法に与える影響を観測するために,実際のデータセット実験を行った。
その結果, バランス法は, 予測多重度を増大させ, 様々な結果をもたらすことがわかった。
そこで本研究では,予測性能と予測乗算とのトレードオフを考慮し,学習データのバランスをとる際に,評価ゲインプロットの拡張版を用いることを提案する。
Predictive models may generate biased predictions when classifying imbalanced datasets. This happens when the model favors the majority class, leading to low performance in accurately predicting the minority class. To address this issue, balancing or resampling methods are critical data-centric AI approaches in the modeling process to improve prediction performance. However, there have been debates and questions about the functionality of these methods in recent years. In particular, many candidate models may exhibit very similar predictive performance, called the Rashomon effect, in model selection, and they may even produce different predictions for the same observations. Selecting one of these models without considering the predictive multiplicity -- which is the case of yielding conflicting models' predictions for any sample -- can result in blind selection. In this paper, the impact of balancing methods on predictive multiplicity is examined using the Rashomon effect. It is crucial because the blind model selection in data-centric AI is risky from a set of approximately equally accurate models. This may lead to severe problems in model selection, validation, and explanation. To tackle this matter, we conducted real dataset experiments to observe the impact of balancing methods on predictive multiplicity through the Rashomon effect by using a newly proposed metric obscurity in addition to the existing ones: ambiguity and discrepancy. Our findings showed that balancing methods inflate the predictive multiplicity and yield varying results. To monitor the trade-off between the prediction performance and predictive multiplicity for conducting the modeling process responsibly, we proposed using the extended version of the performance-gain plot when balancing the training data. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-22 |
# 多人数同型暗号を用いた垂直分割データのセキュア推論
Secure Inference for Vertically Partitioned Data Using Multiparty Homomorphic Encryption ( http://arxiv.org/abs/2405.03775v2 ) ライセンス: Link先を確認 | Shuangyi Chen, Yue Ju, Zhongwen Zhu, Ashish Khisti, | (参考訳) 本稿では,単一サーバノードと複数のクライアントノードを含む分散環境でのセキュアな推論プロトコルを提案する。
深層学習モデルがサーバノードにある間、観測されたデータベクトルは複数のクライアントノードに分割されていると仮定する。
各クライアントノードは、データベクトルの一部を暗号化し、その結果の暗号文をサーバノードに送信する必要がある。
サーバノードは暗号文を収集し、暗号化されたドメインで推論を行う必要がある。
これらの要件を満たすために,MPHE(multi-party homomorphic encryption)の応用を実証する。
本稿では,MPHEを用いて暗号化されたデータサブセットの暗号文を集約することにより,サーバが完全なデータの暗号文を形成することができるパッキング方式を提案する。
提案プロトコルは,従来の水平化トレーニングプロトコル~\cite{sav2020poseidon}に基づいて構築されているが,垂直分割されたデータの推測に焦点をあて,サーバノードからクライアントノードへの(暗号化された)モデルの重み付けの伝達を回避する。
We propose a secure inference protocol for a distributed setting involving a single server node and multiple client nodes. We assume that the observed data vector is partitioned across multiple client nodes while the deep learning model is located at the server node. Each client node is required to encrypt its portion of the data vector and transmit the resulting ciphertext to the server node. The server node is required to collect the ciphertexts and perform inference in the encrypted domain. We demonstrate an application of multi-party homomorphic encryption (MPHE) to satisfy these requirements. We propose a packing scheme, that enables the server to form the ciphertext of the complete data by aggregating the ciphertext of data subsets encrypted using MPHE. While our proposed protocol builds upon prior horizontal federated training protocol~\cite{sav2020poseidon}, we focus on the inference for vertically partitioned data and avoid the transmission of (encrypted) model weights from the server node to the client nodes. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-22 |
# ACEGEN:医薬品発見のための生成化学物質の強化学習
ACEGEN: Reinforcement learning of generative chemical agents for drug discovery ( http://arxiv.org/abs/2405.04657v3 ) ライセンス: Link先を確認 | Albert Bou, Morgan Thomas, Sebastian Dittert, Carles Navarro Ramírez, Maciej Majewski, Ye Wang, Shivam Patel, Gary Tresadern, Mazen Ahmad, Vincent Moens, Woody Sherman, Simone Sciabola, Gianni De Fabritiis, | (参考訳) 近年、強化学習(RL)は医薬品設計において重要なツールとして登場し、望ましい性質を持つ分子の提案と最適化の可能性を秘めている。
しかし、高度なRLアルゴリズムの複雑さと特殊コードへのかなりの依存のため、能力、柔軟性、信頼性、効率のバランスを崩すことは依然として困難である。
そこで本研究では,既存のRLライブラリであるTorchRLを用いて構築した,創薬設計に適した包括的で合理化されたツールキットであるACEGENを紹介する。
我々は、ACEGENを他の生成的モデリングアルゴリズムと比較して検証し、同等または改善された性能を示す。
複数の薬物発見症例に応用されたACEGENの例も紹介する。
ACEGENは \url{https://github.com/acellera/acegen-open} でアクセスでき、MITライセンス下で利用できる。
In recent years, reinforcement learning (RL) has emerged as a valuable tool in drug design, offering the potential to propose and optimize molecules with desired properties. However, striking a balance between capabilities, flexibility, reliability, and efficiency remains challenging due to the complexity of advanced RL algorithms and the significant reliance on specialized code. In this work, we introduce ACEGEN, a comprehensive and streamlined toolkit tailored for generative drug design, built using TorchRL, a modern RL library that offers thoroughly tested reusable components. We validate ACEGEN by benchmarking against other published generative modeling algorithms and show comparable or improved performance. We also show examples of ACEGEN applied in multiple drug discovery case studies. ACEGEN is accessible at \url{https://github.com/acellera/acegen-open} and available for use under the MIT license. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-22 |
# DP-DyLoRA:動的低ランク適応を用いた個人差分学習環境下での微調整トランスフォーマーモデル
DP-DyLoRA: Fine-Tuning Transformer-Based Models On-Device under Differentially Private Federated Learning using Dynamic Low-Rank Adaptation ( http://arxiv.org/abs/2405.06368v3 ) ライセンス: Link先を確認 | Jie Xu, Karthikeyan Saravanan, Rogier van Dalen, Haaris Mehmood, David Tuckey, Mete Ozay, | (参考訳) フェデレートラーニング(FL)は、クライアントがローカルデータをサーバと共有することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
しかし、サーバへのクライアントのコントリビューションは機密情報を漏洩させる可能性がある。
差分プライバシ(DP)は、クライアントのコントリビューションにランダム性を加えるメカニズムを備えた、正式なプライバシ保証を提供することによって、そのようなリークに対処する。
このランダム性は、現代の連合学習システムで一般的な大きなトランスフォーマーベースのモデルを訓練することができない。
本研究では,フェデレート学習システムにおいて,差分プライバシを持つデバイス上での大規模トランスフォーマーモデルの実現性を実証的に評価する。
我々は、音声認識、コンピュータビジョン(CV)、自然言語理解(NLU)など、多分野にわたるタスクに対して、様々なシステム特性に関する包括的な実験を行う。
この結果から,DP-FLによる完全微調整は,パラメータ効率のよい微調整(PEFT)による寄与の次元性を低減し,大きな性能劣化をもたらすことが示唆された。
既存のDP-PEFT手法のベンチマークでは,DP-Low-Rank Adaptation (DP-LoRA) が他の手法より一貫して優れていることが示された。
さらに有望なアプローチであるDyLoRAは、FLと鼻で組み合わせることで、直接差分プライバシーを損なう。
そこで本研究では,差分プライバシーと組み合わせてDP-DyLoRAと呼ぶ適応手法を提案する。
最後に、DPによる精度劣化と単語エラー率(WER)の増加を、それぞれ100万のクライアントに対して2%未満と7%に削減することができ、プライバシー予算は$\epsilon=2$である。
Federated learning (FL) allows clients to collaboratively train a global model without sharing their local data with a server. However, clients' contributions to the server can still leak sensitive information. Differential privacy (DP) addresses such leakage by providing formal privacy guarantees, with mechanisms that add randomness to the clients' contributions. The randomness makes it infeasible to train large transformer-based models, common in modern federated learning systems. In this work, we empirically evaluate the practicality of fine-tuning large scale on-device transformer-based models with differential privacy in a federated learning system. We conduct comprehensive experiments on various system properties for tasks spanning a multitude of domains: speech recognition, computer vision (CV) and natural language understanding (NLU). Our results show that full fine-tuning under differentially private federated learning (DP-FL) generally leads to huge performance degradation which can be alleviated by reducing the dimensionality of contributions through parameter-efficient fine-tuning (PEFT). Our benchmarks of existing DP-PEFT methods show that DP-Low-Rank Adaptation (DP-LoRA) consistently outperforms other methods. An even more promising approach, DyLoRA, which makes the low rank variable, when naively combined with FL would straightforwardly break differential privacy. We therefore propose an adaptation method that can be combined with differential privacy and call it DP-DyLoRA. Finally, we are able to reduce the accuracy degradation and word error rate (WER) increase due to DP to less than 2% and 7% respectively with 1 million clients and a stringent privacy budget of $\epsilon=2$. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-22 |
# LLM4ED: 自動方程式発見のための大規模言語モデル
LLM4ED: Large Language Models for Automatic Equation Discovery ( http://arxiv.org/abs/2405.07761v2 ) ライセンス: Link先を確認 | Mengge Du, Yuntian Chen, Zhongzheng Wang, Longfeng Nie, Dongxiao Zhang, | (参考訳) 方程式発見は、データから物理法則を直接抽出することを目的としており、重要な研究領域として登場した。
記号数学に基づく従来の手法は、かなりの進歩を遂げてきたが、しばしば複雑なアルゴリズムの実装の設計を必要とする。
本稿では、自然言語に基づくプロンプトを利用して、データから支配方程式を自動的にマイニングする大規模言語モデル(LLM)をガイドする新しいフレームワークを提案する。
具体的には、まずLLMの生成能力を利用して、文字列形式で様々な方程式を生成し、次に観測に基づいて生成された方程式を評価する。
最適化フェーズでは、生成した方程式を協調的に最適化するための2つの交互反復戦略を提案する。
最初の戦略は、LCMをブラックボックスオプティマイザとして、歴史的サンプルとその性能に基づく方程式自己改善を実現することである。
第2の戦略は、LLMにグローバルサーチのための進化演算子を実行するよう指示することである。
実験は偏微分方程式と常微分方程式の両方で広範囲に行われる。
その結果, このフレームワークは, 様々な非線形力学系の下で, 基礎となる物理法則を明らかにするために有効な方程式を発見できることを示した。
さらなる比較は最先端のモデルと行われ、優れた安定性とユーザビリティを示す。
本フレームワークは,LLMの知識発見分野への応用可能性を示すとともに,学習の障壁を大幅に減らし,方程式発見技術を適用している。
Equation discovery is aimed at directly extracting physical laws from data and has emerged as a pivotal research domain. Previous methods based on symbolic mathematics have achieved substantial advancements, but often require the design of implementation of complex algorithms. In this paper, we introduce a new framework that utilizes natural language-based prompts to guide large language models (LLMs) in automatically mining governing equations from data. Specifically, we first utilize the generation capability of LLMs to generate diverse equations in string form, and then evaluate the generated equations based on observations. In the optimization phase, we propose two alternately iterated strategies to optimize generated equations collaboratively. The first strategy is to take LLMs as a black-box optimizer and achieve equation self-improvement based on historical samples and their performance. The second strategy is to instruct LLMs to perform evolutionary operators for global search. Experiments are extensively conducted on both partial differential equations and ordinary differential equations. Results demonstrate that our framework can discover effective equations to reveal the underlying physical laws under various nonlinear dynamic systems. Further comparisons are made with state-of-the-art models, demonstrating good stability and usability. Our framework substantially lowers the barriers to learning and applying equation discovery techniques, demonstrating the application potential of LLMs in the field of knowledge discovery. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-22 |
# MarkLLM: LLMウォーターマーキングのためのオープンソースツールキット
MarkLLM: An Open-Source Toolkit for LLM Watermarking ( http://arxiv.org/abs/2405.10051v3 ) ライセンス: Link先を確認 | Leyi Pan, Aiwei Liu, Zhiwei He, Zitian Gao, Xuandong Zhao, Yijian Lu, Binglin Zhou, Shuliang Liu, Hanlin Zhang, Xuming Hu, Lijie Wen, Irwin King, | (参考訳) LLMの透かしは、LLM生成したテキストを識別するために、モデル出力に認識できないがアルゴリズムで検出可能な信号を埋め込んでおり、大きな言語モデルの潜在的な誤用を緩和するのに重要である。
しかし、LLM透かしアルゴリズムの豊富さ、複雑なメカニズム、複雑な評価手順や視点は、研究者やコミュニティにとって、最新の進歩を容易に実験し、理解し、評価するための課題となる。
これらの問題に対処するため,LLMウォーターマーキングのためのオープンソースのツールキットであるMarkLLMを紹介した。
MarkLLMは、LLMウォーターマーキングアルゴリズムを実装するための統一的で拡張可能なフレームワークを提供し、アクセスの容易さを保証するユーザフレンドリーなインターフェースを提供する。
さらに、これらのアルゴリズムの基盤となるメカニズムを自動視覚化することで理解を深める。
評価のために、MarkLLMは3つの視点にまたがる12のツールと、2種類の自動評価パイプラインを提供する。
我々はMarkLLMを通じて、LLM透かし技術における一般大衆の理解と関与を改善し、コンセンサスを育み、研究と応用のさらなる進歩を推進しつつ、研究者を支援することを目指している。
私たちのコードはhttps://github.com/THU-BPM/MarkLLM.orgで公開されています。
LLM watermarking, which embeds imperceptible yet algorithmically detectable signals in model outputs to identify LLM-generated text, has become crucial in mitigating the potential misuse of large language models. However, the abundance of LLM watermarking algorithms, their intricate mechanisms, and the complex evaluation procedures and perspectives pose challenges for researchers and the community to easily experiment with, understand, and assess the latest advancements. To address these issues, we introduce MarkLLM, an open-source toolkit for LLM watermarking. MarkLLM offers a unified and extensible framework for implementing LLM watermarking algorithms, while providing user-friendly interfaces to ensure ease of access. Furthermore, it enhances understanding by supporting automatic visualization of the underlying mechanisms of these algorithms. For evaluation, MarkLLM offers a comprehensive suite of 12 tools spanning three perspectives, along with two types of automated evaluation pipelines. Through MarkLLM, we aim to support researchers while improving the comprehension and involvement of the general public in LLM watermarking technology, fostering consensus and driving further advancements in research and application. Our code is available at https://github.com/THU-BPM/MarkLLM. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-22 |
# NPLMV-PS:ニューラルポイントライト多視点光度ステレオ
NPLMV-PS: Neural Point-Light Multi-View Photometric Stereo ( http://arxiv.org/abs/2405.12057v2 ) ライセンス: Link先を確認 | Fotios Logothetis, Ignas Budvytis, Roberto Cipolla, | (参考訳) 本稿では,新しい多視点測光ステレオ(MVPS)法を提案する。
3D再構築における多くの作業と同様に、私たちはニューラルな形状の表現と学習用レンダラーを活用しています。
しかし、PS-NeRFやスーパーノーマルのような最先端の多視点PS法とは異なり、主に推定正規に依存するのではなく、画素ごとの強度レンダリングを明示的に活用する。
我々は、各点の入射放射率を最適に近似するために、点光減衰と明示的にレイトラスキャスト影をモデル化する。
推定された入射放射は、最小の事前仮定を使用し、表面と共同最適化される完全なニューラルネットワーク材料レンダラーへの入力として使用される。
推定正規度や分割写像も、表面の精度を最大化するために組み込まれている。
提案手法は,DiLiGenT-MVベンチマークで提案した従来のMVPS手法よりも優れており,約400×400の解像度で1.5m離れた物体に対して平均0.2mmのチャンファー距離を達成している。
さらに,多視点フォトメトリステレオにおけるニューラルレンダリングの重要性を示唆し,SOTAコンペティタ(0.38mm vs 0.61mm)を著しく上回り,スパルスMVPSセットアップ(6ビュー,6ライト)に対するロバスト性を示した。
In this work we present a novel multi-view photometric stereo (MVPS) method. Like many works in 3D reconstruction we are leveraging neural shape representations and learnt renderers. However, our work differs from the state-of-the-art multi-view PS methods such as PS-NeRF or Supernormal in that we explicitly leverage per-pixel intensity renderings rather than relying mainly on estimated normals. We model point light attenuation and explicitly raytrace cast shadows in order to best approximate the incoming radiance for each point. The estimated incoming radiance is used as input to a fully neural material renderer that uses minimal prior assumptions and it is jointly optimised with the surface. Estimated normals and segmentation maps are also incorporated in order to maximise the surface accuracy. Our method is among the first (along with Supernormal) to outperform the classical MVPS approach proposed by the DiLiGenT-MV benchmark and achieves average 0.2mm Chamfer distance for objects imaged at approx 1.5m distance away with approximate 400x400 resolution. Moreover, our method shows high robustness to the sparse MVPS setup (6 views, 6 lights) greatly outperforming the SOTA competitor (0.38mm vs 0.61mm), illustrating the importance of neural rendering in multi-view photometric stereo. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-22 |
# 可視赤外人物再識別のための動的アイデンティティ誘導注意ネットワーク
Dynamic Identity-Guided Attention Network for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2405.12713v2 ) ライセンス: Link先を確認 | Peng Gao, Yujian Lee, Hui Zhang, Xubo Liu, Yiyang Hu, Guquan Jing, | (参考訳) Visible-infrared person re-identification (VI-ReID) は、可視光と赤外線の同一性を持つ人物をマッチングすることを目的としている。
VI-ReIDは、異なるモダリティの下で個々の外観に大きな違いがあるため、難しい課題である。
既存の手法は一般的に、画像や特徴レベルでのクロスモーダルな違いを橋渡ししようとする。
これらのクロスモーダルな不一致を効果的に最小化することは、アイデンティティによって導かれ、モダリティ全体にわたって一貫した表現を得るだけでなく、アイデンティティとは無関係な表現をフィルタリングすることに依存する。
これらの課題に対処するために、動的ID誘導型注意ネットワーク(DIAN)を導入し、異なるモダリティ間のギャップを効果的に埋めることを可能にする。
特に、DIANでは、意味的にリッチな表現を追求するために、まず直交射影を用いて、2つの連結された粗い層と細い層から特徴を融合する。
さらに、まず動的畳み込みカーネルを用いて、アイデンティティとモダリティに一貫性のある表現をマイニングする。
さらに、上述の埋め込みによるクロスモーダルな差異を効果的に橋渡しするために、クロス埋め込みバランス損失が導入された。
SYSU-MM01とRegDBデータセットの実験結果は、DIANが最先端のパフォーマンスを達成することを示す。
具体的には,SYSU-MM01の屋内探索では,86.28%のランク1精度と87.41%のmAPを達成した。
私たちのコードはまもなく利用可能になります。
Visible-infrared person re-identification (VI-ReID) aims to match people with the same identity between visible and infrared modalities. VI-ReID is a challenging task due to the large differences in individual appearance under different modalities. Existing methods generally try to bridge the cross-modal differences at image or feature level, which lacks exploring the discriminative embeddings. Effectively minimizing these cross-modal discrepancies relies on obtaining representations that are guided by identity and consistent across modalities, while also filtering out representations that are irrelevant to identity. To address these challenges, we introduce a dynamic identity-guided attention network (DIAN) to mine identity-guided and modality-consistent embeddings, facilitating effective bridging the gap between different modalities. Specifically, in DIAN, to pursue a semantically richer representation, we first use orthogonal projection to fuse the features from two connected coarse and fine layers. Furthermore, we first use dynamic convolution kernels to mine identity-guided and modality-consistent representations. More notably, a cross embedding balancing loss is introduced to effectively bridge cross-modal discrepancies by above embeddings. Experimental results on SYSU-MM01 and RegDB datasets show that DIAN achieves state-of-the-art performance. Specifically, for indoor search on SYSU-MM01, our method achieves 86.28% rank-1 accuracy and 87.41% mAP, respectively. Our code will be available soon. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-22 |
# eラーニングにおけるディトラクション検出のためのバイオメトリックスと行動解析
Biometrics and Behavior Analysis for Detecting Distractions in e-Learning ( http://arxiv.org/abs/2405.15434v2 ) ライセンス: Link先を確認 | Álvaro Becerra, Javier Irigoyen, Roberto Daza, Ruth Cobos, Aythami Morales, Julian Fierrez, Mutlu Cukurova, | (参考訳) 本稿では,eラーニングセッション中の異常な頭部ポーズを検出するコンピュータビジョンアプローチについて検討し,これらのセッションにおける携帯電話の利用状況について検討する。
我々はMOOC学習セッションに参加している120人の学習者から収集した行動データを利用する。
本研究は,電話使用前後の行動,生理的反応,特に注意,心拍数,想想などに及ぼす電話使用事象の影響に焦点を当てた。
また、MOOC学習セッション中にウェブカメラが撮影した画像を用いて、頭部ポーズイベントを推定し、電話使用イベントを検出する手法を提案する。
本仮説は,eラーニングセッション中に学習者がコンピュータと対面する典型的な行動と対照的に,学習者が携帯電話と対話するときの頭部姿勢に大きな変化が生じることを示唆している。
本研究では,学習者のセッション中に観測された平均値から頭部姿勢の偏差を検出するための手法を提案する。
このシステムは、その後の人間のレビューと携帯電話の使用状況の選択のための頭部姿勢の変化を示すイベントを90%以上の感度でフラグ付けする。
In this article, we explore computer vision approaches to detect abnormal head pose during e-learning sessions and we introduce a study on the effects of mobile phone usage during these sessions. We utilize behavioral data collected from 120 learners monitored while participating in a MOOC learning sessions. Our study focuses on the influence of phone-usage events on behavior and physiological responses, specifically attention, heart rate, and meditation, before, during, and after phone usage. Additionally, we propose an approach for estimating head pose events using images taken by the webcam during the MOOC learning sessions to detect phone-usage events. Our hypothesis suggests that head posture undergoes significant changes when learners interact with a mobile phone, contrasting with the typical behavior seen when learners face a computer during e-learning sessions. We propose an approach designed to detect deviations in head posture from the average observed during a learner's session, operating as a semi-supervised method. This system flags events indicating alterations in head posture for subsequent human review and selection of mobile phone usage occurrences with a sensitivity over 90%. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# リレーショナル量子場理論に向けて
Towards Relational Quantum Field Theory ( http://arxiv.org/abs/2405.15455v2 ) ライセンス: Link先を確認 | Jan Głowacki, | (参考訳) 本稿では,相対論的量子物理学の相対論的基礎を確立するための研究プログラムを提案する。
フォーマリズムはまだ発展途上であるが、より広い科学コミュニティと共有できるほど成熟したと我々は信じている。
我々のアプローチは、不明確な因果関係を持つ曲面背景とシナリオに量子場理論を統合することを目指している。
操作的アプローチから量子参照フレームまでの概念に基づいて、これらのアイデアを著しく拡張する。
具体的には、正の作用素値測度(量子フレーム)に対する作用素値関数(量子場)に対する一般積分理論の開発を開始する。
これにより、任意の主バンドルの文脈内で量子フレームを定義することができ、群構造を置き換えることができる。
ローレンツ主バンドルを考えることにより、任意に湾曲した時空上での場のリレーショナル処理を可能にする。
不定時空間の形式は、フレームバンドルの文脈における量子状態から生じる。
これは、一般相対論的および量子物理学の原理を整合する問題と、量子系によって引き起こされる重力場をモデル化する問題に関する新しい視点を提供する。
This paper presents a research program aimed at establishing relational foundations for relativistic quantum physics. Although the formalism is still under development, we believe it has matured enough to be shared with the broader scientific community. Our approach seeks to integrate Quantum Field Theory on curved backgrounds and scenarios with indefinite causality. Building on concepts from the operational approach to Quantum Reference Frames, we extend these ideas significantly. Specifically, we initiate the development of a general integration theory for operator-valued functions (quantum fields) with respect to positive operator-valued measures (quantum frames). This allows us to define quantum frames within the context of arbitrary principal bundles, replacing group structures. By considering Lorentz principal bundles, we enable a relational treatment of quantum fields on arbitrarily curved spacetimes. A form of indefinite spatiotemporality arises from quantum states in the context of frame bundles. This offers novel perspectives on the problem of reconciling principles of generally relativistic and quantum physics and on modelling gravitational fields sourced by quantum systems. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# LabObf:ラベル難読化による垂直的フェデレーション学習のためのラベル保護スキーム
LabObf: A Label Protection Scheme for Vertical Federated Learning Through Label Obfuscation ( http://arxiv.org/abs/2405.17042v2 ) ライセンス: Link先を確認 | Ying He, Mingyang Niu, Jingyu Hua, Yunlong Mao, Xu Huang, Chen Li, Sheng Zhong, | (参考訳) スプリットニューラルネットワークは、垂直的フェデレーション学習で使用される最も一般的なアーキテクチャの1つであり、そのプライバシー保護特性のために業界で人気がある。
このアーキテクチャでは、ラベルを保持する当事者は、機能データ不足によりモデルパフォーマンスを改善するために、他の当事者との協力を求めます。
それぞれの参加者は、自身の特徴データから隠れ表現を学習し、ラベルホルダーが保持するトップモデルに埋め込みベクトルをアップロードして最終的な予測を行う、自己定義ボトムモデルを持っている。
この設計により、参加者はデータを直接交換することなく共同トレーニングを行うことができる。
しかし、既存の研究によると、悪意のある参加者は、アップロードされた埋め込みからラベル情報を推測し、プライバシーの漏洩につながる可能性がある。
本稿では,既存の防衛戦略を損なうため,埋め込みを操作可能な埋め込み拡張攻撃を提案する。
次に,従来の整数値ラベルを複数の実値のソフトラベルにランダムにマッピングし,ラベルを推測する難しさを著しく高める「LabObf」という新しいラベル難読化防御戦略を提案する。
本研究では, 4種類のデータセットに対して実験を行い, その結果から, LabObfは, 望ましいモデル精度を維持しつつ, 生モデルと比較して攻撃者の成功率を著しく低減することを示した。
Split Neural Network, as one of the most common architectures used in vertical federated learning, is popular in industry due to its privacy-preserving characteristics. In this architecture, the party holding the labels seeks cooperation from other parties to improve model performance due to insufficient feature data. Each of these participants has a self-defined bottom model to learn hidden representations from its own feature data and uploads the embedding vectors to the top model held by the label holder for final predictions. This design allows participants to conduct joint training without directly exchanging data. However, existing research points out that malicious participants may still infer label information from the uploaded embeddings, leading to privacy leakage. In this paper, we first propose an embedding extension attack manipulating embeddings to undermine existing defense strategies, which rely on constraining the correlation between the embeddings uploaded by participants and the labels. Subsequently, we propose a new label obfuscation defense strategy, called `LabObf', which randomly maps each original integer-valued label to multiple real-valued soft labels with values intertwined, significantly increasing the difficulty for attackers to infer the labels. We conduct experiments on four different types of datasets, and the results show that LabObf significantly reduces the attacker's success rate compared to raw models while maintaining desirable model accuracy. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# 非アベリアホップ・ウラー絶縁体
Non-Abelian Hopf-Euler insulators ( http://arxiv.org/abs/2405.17305v2 ) ライセンス: Link先を確認 | Wojciech J. Jankowski, Arthur S. Morris, Zory Davoyan, Adrien Bouhon, F. Nur Ünal, Robert-Jan Slager, | (参考訳) 時空間($\mathcal{PT}$)反転対称性で保護された1つのバルクホップ指数を持つ3次元の3バンド非アベリア位相絶縁体のクラスについて論じる。
これらの位相はまた、オイラー標数クラスによって与えられる部分次元位相不変量を持ち、結果として真のホップ・オイラー絶縁体となる。
このような系は自然に3次元ブリルアンゾーンのヘリカル・ノルダル構造を実現し、ホップ不変量によって記述される連結数の物理的表現を与える。
これらの系の原子価バンド間のギャップを開き、完全な「フラッグ」位相を見つけ、3バンドのマルチギャップポントリャーギン不変量を示す。
以前に報告された$\mathcal{PT}$-symmetric four-band real Hopf insulatorは$\mathbb{Z} \oplus \mathbb{Z}$ invariantであるが、これらの位相は複素二バンドホップ絶縁体の2つのコピーと一意に等価ではない。
これらの非チャート位相は、2次元オイラー絶縁体の次元拡大によって得ることができ、(1)ホップ不変量によって量子化された光バルク積分円形シフト効果、(2)実空間ワニエ関数における量子幾何学的呼吸、(3)境界上の表面オイラー位相などをサポートすることを示す。
その結果, これらの系は, メタマテリアルや超低温原子の合成次元を利用して直接シミュレートできるため, 実空間量子幾何学の新たな実験的実現の道を開いた。
We discuss a class of three-band non-Abelian topological insulators in three dimensions which carry a single bulk Hopf index protected by spatiotemporal ($\mathcal{PT}$) inversion symmetry. These phases may also host subdimensional topological invariants given by the Euler characteristic class, resulting in real Hopf-Euler insulators. Such systems naturally realize helical nodal structures in the 3D Brillouin zone, providing a physical manifestation of the linking number described by the Hopf invariant. We show that, by opening a gap between the valence bands of these systems, one finds a fully-gapped `flag' phase, which displays a three-band multi-gap Pontryagin invariant. Unlike the previously reported $\mathcal{PT}$-symmetric four-band real Hopf insulator, which hosts a $\mathbb{Z} \oplus \mathbb{Z}$ invariant, these phases are not unitarily equivalent to two copies of a complex two-band Hopf insulator. We show that these uncharted phases can be obtained through dimensional extension of two-dimensional Euler insulators, and that they support (1) an optical bulk integrated circular shift effect quantized by the Hopf invariant, (2) quantum-geometric breathing in the real space Wannier functions, and (3) surface Euler topology on boundaries. Consequently, our findings pave a way for novel experimental realizations of real-space quantum-geometry, as these systems may be directly simulated by utilizing synthethic dimensions in metamaterials or ultracold atoms. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# Vista: 高い忠実度とVersatile制御性を備えた汎用駆動型世界モデル
Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability ( http://arxiv.org/abs/2405.17398v4 ) ライセンス: Link先を確認 | Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, Hongyang Li, | (参考訳) 世界モデルは異なる行動の結果を予測することができ、これは自動運転にとって最重要事項である。
それでも、既存の駆動世界モデルには、目に見えない環境への一般化、重要な詳細の予測精度、フレキシブルなアプリケーションに対するアクション制御性に制限がある。
本稿では,高忠実度かつ多目的な制御性を有する一般化可能な運転世界モデルであるVistaを提案する。
既存の手法の体系的診断に基づいて,これらの制約に対処するための重要な要素をいくつか紹介する。
実世界のダイナミクスを高精度に予測するために,移動インスタンスと構造情報の学習を促進するために,2つの新たな損失を提案する。
また,コヒーレントなロングホライゾンロールアウトの先行として,過去のフレームを注入する有効な潜在代替手法も考案した。
動作制御性には,高レベルな意図(コマンド,ゴールポイント)から低レベルな操作(軌道,角度,速度)まで,効率的な学習戦略を通じて多種多様な制御を組み込む。
大規模なトレーニングの後、Vistaの機能はさまざまなシナリオにシームレスに一般化できる。
複数のデータセットに対する大規模な実験によると、Vistaは比較の70%以上で最も高度な汎用ビデオジェネレータを上回り、FIDでは55%、FVDでは27%を上回っている。
さらに,Vista自体の能力を活用して,現実の行動評価に基礎となる真実の行動にアクセスすることなく,一般化可能な報酬を確立する。
World models can foresee the outcomes of different actions, which is of paramount importance for autonomous driving. Nevertheless, existing driving world models still have limitations in generalization to unseen environments, prediction fidelity of critical details, and action controllability for flexible application. In this paper, we present Vista, a generalizable driving world model with high fidelity and versatile controllability. Based on a systematic diagnosis of existing methods, we introduce several key ingredients to address these limitations. To accurately predict real-world dynamics at high resolution, we propose two novel losses to promote the learning of moving instances and structural information. We also devise an effective latent replacement approach to inject historical frames as priors for coherent long-horizon rollouts. For action controllability, we incorporate a versatile set of controls from high-level intentions (command, goal point) to low-level maneuvers (trajectory, angle, and speed) through an efficient learning strategy. After large-scale training, the capabilities of Vista can seamlessly generalize to different scenarios. Extensive experiments on multiple datasets show that Vista outperforms the most advanced general-purpose video generator in over 70% of comparisons and surpasses the best-performing driving world model by 55% in FID and 27% in FVD. Moreover, for the first time, we utilize the capacity of Vista itself to establish a generalizable reward for real-world action evaluation without accessing the ground truth actions. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# FAIntbench: テキスト・画像モデルにおけるバイアス評価のための完全かつ高精度なベンチマーク
FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models ( http://arxiv.org/abs/2405.17814v4 ) ライセンス: Link先を確認 | Hanjun Luo, Ziye Deng, Ruizhe Chen, Zuozhu Liu, | (参考訳) テキスト・ツー・イメージ(T2I)モデルへの急速な開発と参入障壁の低減は、出力のバイアスに関する懸念を提起しているが、既存の研究ではバイアスの全体的定義と評価の枠組みが欠如しており、デバイアス手法の強化が制限されている。
この問題に対処するために、我々はT2Iモデルにおけるバイアスの総合的かつ正確なベンチマークであるFAIntbenchを紹介する。
限定的な側面でバイアスを評価する既存のベンチマークとは対照的に、FAIntbenchはバイアスの表示、バイアスの可視性、取得された属性、保護された属性の4つの次元からバイアスを評価する。
FAIntbenchを7種類の大規模T2Iモデル評価に適用し, 各種バイアスの同定にFAIntbenchの有効性を実証した。
また, 蒸留の副作用など, バイアスに関する新たな研究課題も明らかにした。
この結果は予備的であり、T2Iモデルのバイアスを軽減することを目的とした将来の研究を進めるためのFAIntbenchの可能性を強調している。
私たちのベンチマークは再現性を確保するために公開されています。
The rapid development and reduced barriers to entry for Text-to-Image (T2I) models have raised concerns about the biases in their outputs, but existing research lacks a holistic definition and evaluation framework of biases, limiting the enhancement of debiasing techniques. To address this issue, we introduce FAIntbench, a holistic and precise benchmark for biases in T2I models. In contrast to existing benchmarks that evaluate bias in limited aspects, FAIntbench evaluate biases from four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes. We applied FAIntbench to evaluate seven recent large-scale T2I models and conducted human evaluation, whose results demonstrated the effectiveness of FAIntbench in identifying various biases. Our study also revealed new research questions about biases, including the side-effect of distillation. The findings presented here are preliminary, highlighting the potential of FAIntbench to advance future research aimed at mitigating the biases in T2I models. Our benchmark is publicly available to ensure the reproducibility. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# シミュレーションを用いたLLM実験:デジタル双生児におけるシミュレーションモデルパラメトリゼーションのための大言語モデルマルチエージェントシステム
LLM experiments with simulation: Large Language Model Multi-Agent System for Simulation Model Parametrization in Digital Twins ( http://arxiv.org/abs/2405.18092v2 ) ライセンス: Link先を確認 | Yuchen Xia, Daniel Dittler, Nasser Jazdi, Haonan Chen, Michael Weyrich, | (参考訳) 本稿では,大規模言語モデル(LLM)を適用し,デジタル双生児におけるシミュレーションモデルのパラメトリゼーションを自動化するマルチエージェントシステムフレームワークの設計について述べる。
このフレームワークは、観察、推論、意思決定、要約を行う特殊なLCMエージェントを備えており、デジタル双対シミュレーションと動的に相互作用し、パラメトリゼーションの可能性を探究し、目的を達成するための実行可能なパラメータ設定を決定することができる。
提案手法は, LLM から知識ヒューリスティックス(知識ヒューリスティックス)を注入することにより, シミュレーションモデルのユーザビリティを高め, ユーザタスクを解くために, 実現可能なパラメトリゼーションの自律探索を可能にする。
さらに、複雑な意思決定プロセスを支援することにより、ユーザのフレンドリさを高め、人間の認知負荷を低減することができる。
システムの有効性と機能はケーススタディを通じて実証され、視覚化されたデモとコードはGitHub Repositoryで公開されている。
This paper presents a novel design of a multi-agent system framework that applies large language models (LLMs) to automate the parametrization of simulation models in digital twins. This framework features specialized LLM agents tasked with observing, reasoning, decision-making, and summarizing, enabling them to dynamically interact with digital twin simulations to explore parametrization possibilities and determine feasible parameter settings to achieve an objective. The proposed approach enhances the usability of simulation model by infusing it with knowledge heuristics from LLM and enables autonomous search for feasible parametrization to solve a user task. Furthermore, the system has the potential to increase user-friendliness and reduce the cognitive load on human users by assisting in complex decision-making processes. The effectiveness and functionality of the system are demonstrated through a case study, and the visualized demos and codes are available at a GitHub Repository: https://github.com/YuchenXia/LLMDrivenSimulation | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# 帰納的知識グラフ補完のための関係ネットワークを用いた論理推論
Logical Reasoning with Relation Network for Inductive Knowledge Graph Completion ( http://arxiv.org/abs/2406.01140v2 ) ライセンス: Link先を確認 | Qinggang Zhang, Keyu Duan, Junnan Dong, Pai Zheng, Xiao Huang, | (参考訳) 帰納的知識グラフ補完(KGC)は、トレーニングセットに現れない新しいエンティティセットの欠落を推測することを目的としている。
現実世界のKGは絶えず進化し、新しい知識を導入している。
近年の研究では,KGCに新たなエンティティを組み込むために,サブグラフ上でのメッセージパッシングを用いた有望な結果が示されている。
しかしながら、これらの手法の帰納的能力は通常2つの重要な問題によって制限される。
i) KGCは常にデータ疎結合に悩まされており、新しいエンティティが元のKGとほとんど、あるいは全く関係のないインダクティブKGCでは、状況はさらに悪化している。
(II)コールドスタート問題
正確なKG推論では、少数の隣人からローカル情報を収集することで、新しいエンティティの表現を生成するために粗い粒度を超越している。
この目的のために、誘導KG完了のための新しいiNfOmax RelAtion Network、すなわちNORANを提案する。
帰納的KG完了のための潜在関係パターンの抽出を目的とする。
具体的には、関係に集中することにより、NORANはKGモデリングに対するハイパービューを提供し、関係間の相関は帰納的KGCを実行するための実体に依存しない論理的証拠として自然に捉えることができる。
5つのベンチマークの大規模な実験結果から、我々のフレームワークは最先端のKGC手法よりも大幅に優れていることが示された。
Inductive knowledge graph completion (KGC) aims to infer the missing relation for a set of newly-coming entities that never appeared in the training set. Such a setting is more in line with reality, as real-world KGs are constantly evolving and introducing new knowledge. Recent studies have shown promising results using message passing over subgraphs to embed newly-coming entities for inductive KGC. However, the inductive capability of these methods is usually limited by two key issues. (i) KGC always suffers from data sparsity, and the situation is even exacerbated in inductive KGC where new entities often have few or no connections to the original KG. (ii) Cold-start problem. It is over coarse-grained for accurate KG reasoning to generate representations for new entities by gathering the local information from few neighbors. To this end, we propose a novel iNfOmax RelAtion Network, namely NORAN, for inductive KG completion. It aims to mine latent relation patterns for inductive KG completion. Specifically, by centering on relations, NORAN provides a hyper view towards KG modeling, where the correlations between relations can be naturally captured as entity-independent logical evidence to conduct inductive KGC. Extensive experiment results on five benchmarks show that our framework substantially outperforms the state-of-the-art KGC methods. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# 動的構造因果モデル
Dynamic Structural Causal Models ( http://arxiv.org/abs/2406.01161v2 ) ライセンス: Link先を確認 | Philip Boeken, Joris M. Mooij, | (参考訳) 本研究では,動的構造因果モデル (DSCM) と呼ばれる,内因性変数が時間の関数を表す特定のタイプのSCMについて検討する。
目的として,確率微分方程式(SDE)の特定の系をDSCMで適切に表現できることを示す。
この構成の直接的な結果は、SDEのシステムに対するグラフィカルなマルコフ特性である。
時間分割操作を定義し、局所的な独立の概念(連続時間グランガー(非因果性)の概念)を分析する。
また、離散時間DSCMを返却し、サブサンプリング時間列の数学的解析に使用できるサブサンプリング演算を定義する。
本稿では、DSCMが時間依存的介入の因果効果の同定にどのように利用できるか、および既存の制約に基づく因果探索アルゴリズムが時系列データにどのように適用できるかを提案する。
We study a specific type of SCM, called a Dynamic Structural Causal Model (DSCM), whose endogenous variables represent functions of time, which is possibly cyclic and allows for latent confounding. As a motivating use-case, we show that certain systems of Stochastic Differential Equations (SDEs) can be appropriately represented with DSCMs. An immediate consequence of this construction is a graphical Markov property for systems of SDEs. We define a time-splitting operation, allowing us to analyse the concept of local independence (a notion of continuous-time Granger (non-)causality). We also define a subsampling operation, which returns a discrete-time DSCM, and which can be used for mathematical analysis of subsampled time-series. We give suggestions how DSCMs can be used for identification of the causal effect of time-dependent interventions, and how existing constraint-based causal discovery algorithms can be applied to time-series data. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-22 |
# 混合フォック状態の非古典性の定量化
Quantifying nonclassicality of mixed Fock states ( http://arxiv.org/abs/2406.01717v2 ) ライセンス: Link先を確認 | Spencer Rogers, Tommy Muth, Wenchao Ge, | (参考訳) ボソニックモードの非古典的状態は、量子化技術にとって重要な資源である。
しかし、これらの状態、特に混合状態の非古典性を定量化することは困難である。
ここでは、オペレーショナルリソース理論(ORT)測度(W. Ge, K. Jacobs, S. Asiri, M. Foss-Feig, M. S. Zubairy, Phys. Rev. Res. 2, 023400 (2020))]を介して混合フォック状態におけるボソニックモードの非古典性を定量化する結果を示す。
一般的に、混合状態に対するORTの測定は凸屋根の発見を伴うため、難しい。
しかし,この問題を線形プログラミング問題に還元できることを示す。
数値最適化の結果を解析することにより, 隣接する3つないし4つのフォック状態が非ゼロ集団である場合に, 正確な解析結果を得ることができる。
興味深いことに、このようなモードは人口によって異なる段階にある可能性がある。
最後に,本手法が高階密度行列に対して一般化可能であることを示す。
本研究は, 任意の混合ボゾン状態の非古典性評価と, その他の凸屋根最適化問題の解決に有効であることを示す。
Nonclassical states of bosonic modes are important resources for quantum-enhanced technologies. Yet, quantifying nonclassicality of these states, in particular mixed states, can be a challenge. Here we present results of quantifying the nonclassicality of a bosonic mode in a mixed Fock state via the operational resource theory (ORT) measure [W. Ge, K. Jacobs, S. Asiri, M. Foss-Feig, and M. S. Zubairy, Phys. Rev. Res. 2, 023400 (2020)], which relates nonclassicality to metrological advantage. Generally speaking, evaluating the ORT measure for mixed states is challenging, since it involves finding a convex roof. However, we show that our problem can be reduced to a linear programming problem. By analyzing the results of numerical optimization, we are able to extract exact, analytical results for the case where three or four neighboring Fock states have nonzero population. Interestingly, we find that such a mode can be in distinct phases, depending on the populations. Lastly, we demonstrate how our method is generalizable to density matrices of higher ranks. Our findings suggests a viable method for evaluating nonclassicality of arbitrary mixed bosonic states and potentially for solving other convex roof optimization problems. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-22 |
# MidiCaps: テキストキャプションを備えた大規模MIDIデータセット
MidiCaps: A large-scale MIDI dataset with text captions ( http://arxiv.org/abs/2406.02255v2 ) ライセンス: Link先を確認 | Jan Melechovsky, Abhinaba Roy, Dorien Herremans, | (参考訳) テキストプロンプトによってガイドされる生成モデルは、ますます人気が高まっている。
しかし、キャプション付きMIDIデータセットがないため、現在テキスト・トゥ・MIDIモデルは存在しない。
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
MIDI(Musical Instrument Digital Interface)ファイルは、音楽情報を符号化するために広く使われており、作曲のニュアンスを捉えることができる。
音楽プロデューサー、作曲家、音楽学者、演奏家らによって広く使用されている。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
それぞれのMIDIキャプションは、テンポ、コード進行、タイムシグネチャ、楽器、ジャンル、ムードを含む音楽内容を記述し、マルチモーダルな探索と分析を容易にする。
このデータセットは様々なジャンル、スタイル、複雑さを包含し、音楽情報検索、音楽理解、クロスモーダル翻訳といったタスクのモデルのトレーニングと評価のための豊富なデータソースを提供する。
我々は,データセットに関する詳細な統計情報を提供し,広範囲にわたる聴取調査において,キャプションの品質を評価した。
我々は,この資源が音楽と自然言語処理の交差点におけるさらなる研究を刺激し,両分野の進歩を促進することを期待する。
Generative models guided by text prompts are increasingly becoming more popular. However, no text-to-MIDI models currently exist due to the lack of a captioned MIDI dataset. This work aims to enable research that combines LLMs with symbolic music by presenting, the first openly available large-scale MIDI dataset with text captions. MIDI (Musical Instrument Digital Interface) files are widely used for encoding musical information and can capture the nuances of musical composition. They are widely used by music producers, composers, musicologists, and performers alike. Inspired by recent advancements in captioning techniques, we present a curated dataset of over 168k MIDI files with textual descriptions. Each MIDI caption describes the musical content, including tempo, chord progression, time signature, instruments, genre, and mood, thus facilitating multi-modal exploration and analysis. The dataset encompasses various genres, styles, and complexities, offering a rich data source for training and evaluating models for tasks such as music information retrieval, music understanding, and cross-modal translation. We provide detailed statistics about the dataset and have assessed the quality of the captions in an extensive listening study. We anticipate that this resource will stimulate further research at the intersection of music and natural language processing, fostering advancements in both fields. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-22 |
# 境界Toeplitzブレイディングを持つ3次元フラクトントポロジカルオーダー
Three-dimensional fracton topological orders with boundary Toeplitz braiding ( http://arxiv.org/abs/2406.02482v2 ) ライセンス: Link先を確認 | Boxi Li, Yao Zhou, Peng Ye, | (参考訳) 本稿では,熱力学限界におけるエキゾチック境界現象を示す3次元非流動状態のクラスを理論的に研究する。
より具体的には、2Dツイストした \(\mathbb{Z}_N\) の位相的に順序付けられた層を \(z\)-方向に沿って積み重ねることで形成される3次元フラクトン位相列のクラスに焦点を当てる。
近傍の層は \(z\) 方向に沿って翻訳対称性を維持しながら結合される。
有効場の理論は無限成分チャーン・サイモンズ理論(英語版)によって与えられ、その大きさが熱力学的に大きい整数値の対称ブロック三角形トエプリッツ(K\)-行列を持つ。
開境界条件 (OBC) が \(z\)-行列に沿った場合、ある選択はエキゾチック境界 ``Toeplitz Braiding'' を示す。
対照的に、自明な場合、相互のブレイディング位相角は熱力学的極限において指数関数的に0に崩壊する。
必要条件として、この現象は OBC の下での \(K\)-行列スペクトルにおける境界零モードの存在を必要とする。
非自明な \(K\)-行列を2つの異なる型に分類する。
各タイプ-Iは2つの境界ゼロモードを持ち、各タイプ-IIは1つの境界ゼロモードしか持たない。
興味深いことに、1D ``Su-Schrieffer-Heeger model'' の整数値ハミルトン行列は非自明な$K$-行列として使うことができる。
重要なことに、大ゲージ不変性は整数量子化された \(K\)-行列成分を保証するため、これらの零モードを保護するために大域対称性は必要ない。
また, 数値シミュレーションや有限サイズスケーリングを行い, さらに解析結果を確認した。
現在の場の理論的な研究に触発され、将来の研究に残されたToeplitzのブレイディングを示すための3次元格子モデルの構築が興味深い。
In this paper, we theoretically study a class of 3D non-liquid states that show exotic boundary phenomena in the thermodynamical limit. More concretely, we focus on a class of 3D fracton topological orders formed via stacking 2D twisted \(\mathbb{Z}_N\) topologically ordered layers along \(z\)-direction. Nearby layers are coupled while maintaining translation symmetry along \(z\) direction. The effective field theory is given by infinite-component Chern-Simons theory, with an integer-valued symmetric block-tridiagonal Toeplitz \(K\)-matrix whose size is thermodynamically large. With open boundary conditions (OBC) along \(z\), certain choice of \(K\)-matrices exhibits exotic boundary ``Toeplitz braiding'', where the mutual braiding phase angle between two anyons at opposite boundaries oscillates and remains non-zero in the thermodynamic limit. In contrast, in trivial case, the mutual braiding phase angle decays exponentially to zero in the thermodynamical limit. As a necessary condition, this phenomenon requires the existence of boundary zero modes in the \(K\)-matrix spectrum under OBC. We categorize nontrivial \(K\)-matrices into two distinct types. Each type-I possesses two boundary zero modes, whereas each type-II possesses only one boundary zero mode. Interestingly, the integer-valued Hamiltonian matrix of the familiar 1D ``Su-Schrieffer-Heeger model'' can be used as a non-trivial $K$-matrix. Importantly, since large-gauge-invariance ensures integer quantized \(K\)-matrix entries, global symmetries are not needed to protect these zero modes. We also present numerical simulation as well as finite size scaling, further confirming the above analytical results. Motivated by the present field-theoretical work, it will be interesting to construct 3D lattice models for demonstrating Toeplitz braiding, which is left to future investigation. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-22 |
# スケーラブルダイヤモンド量子レジスタにおける高忠実電子スピンゲート
High-Fidelity Electron Spin Gates in a Scalable Diamond Quantum Register ( http://arxiv.org/abs/2406.04199v2 ) ライセンス: Link先を確認 | Timo Joas, Florian Ferlemann, Roberto Sailer, Philipp J. Vetter, Jingfu Zhang, Ressa S. Said, Tokuyuki Teraji, Shinobu Onoda, Tommaso Calarco, Genko Genov, Matthias M. Müller, Fedor Jelezko, | (参考訳) ダイアモンドは量子情報処理のための有望なプラットフォームであり、大きな量子レジスタの構築を可能にする高度にコヒーレントな量子ビットをホストできる。
このような装置の前提条件は窒素空孔(NV)電子スピン間のコヒーレント相互作用である。
双極子結合したNVスピン対間の絡み合いは実証されているが、絡み合いが限られており、その誤差源は明らかにされていない。
そこで我々は,ダイヤモンド中のNVスピン間の絡み合うゲートの設計と実装を行い,複数の誤差源がゲート性能に与える影響を定量化する。
実験では, 環境条件下でのF=(96.0 \pm 2.5)=%の記録ゲートの忠実度を実証した。
我々の支配的誤差の同定は、誤差補正しきい値を超えたNV-NVゲートへの道を開く。
Diamond is a promising platform for quantum information processing as it can host highly coherent qubits that could allow for the construction of large quantum registers. A prerequisite for such devices is a coherent interaction between nitrogen vacancy (NV) electron spins. Entanglement between dipolar-coupled NV spin pairs has been demonstrated, but with a limited entanglement fidelity and its error sources have not been characterized. Here, we design and implement a robust, easy to implement entangling gate between NV spins in diamond and quantify the influence of multiple error sources on the gate performance. Experimentally, we demonstrate a record gate fidelity of $F=(96.0 \pm 2.5)$ % under ambient conditions. Our identification of the dominant errors paves the way towards NV-NV gates beyond the error correction threshold. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-22 |
# データセット蒸留学習とは何か?
What is Dataset Distillation Learning? ( http://arxiv.org/abs/2406.04284v2 ) ライセンス: Link先を確認 | William Yang, Ye Zhu, Zhiwei Deng, Olga Russakovsky, | (参考訳) データセットの蒸留は、元のデータセットから必須情報を保持するコンパクトな合成データの集合を学習することで、大規模なデータセットに関連するハードルを克服する戦略として登場した。
蒸留したデータはハイパフォーマンスモデルのトレーニングに使用することができるが、情報の保存方法についてはほとんど理解されていない。
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報の内容に関する3つの質問に回答する。
本研究では, データセット蒸留の標準評価設定外のトレーニングにおいて, 実データの代用として利用できない蒸留データを明らかにした。
さらに, 蒸留プロセスは, 実モデルの早期訓練力学に関する情報を圧縮することにより, 高い作業性能を維持する。
最後に, 蒸留データを解釈する枠組みを提供し, 個々の蒸留データポイントが意味のある意味情報を含んでいることを明らかにした。
この調査は、蒸留されたデータの複雑な性質に光を当て、どのように効果的に利用できるかをよりよく理解する。
Dataset distillation has emerged as a strategy to overcome the hurdles associated with large datasets by learning a compact set of synthetic data that retains essential information from the original dataset. While distilled data can be used to train high performing models, little is understood about how the information is stored. In this study, we posit and answer three questions about the behavior, representativeness, and point-wise information content of distilled data. We reveal distilled data cannot serve as a substitute for real data during training outside the standard evaluation setting for dataset distillation. Additionally, the distillation process retains high task performance by compressing information related to the early training dynamics of real models. Finally, we provide an framework for interpreting distilled data and reveal that individual distilled data points contain meaningful semantic information. This investigation sheds light on the intricate nature of distilled data, providing a better understanding on how they can be effectively utilized. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-22 |
# テキスト誘導型3次元視覚接地に関する調査:要素,最近の進歩,今後の方向性
A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions ( http://arxiv.org/abs/2406.05785v2 ) ライセンス: Link先を確認 | Daizong Liu, Yang Liu, Wencan Huang, Wei Hu, | (参考訳) 複雑な3Dシーンからの言語クエリに対応する特定のオブジェクトを見つけることを目的としたテキスト誘導型3Dビジュアルグラウンドティング(T-3DVG)は,ここ数年で注目を集めている。
データ収集と3Dポイント・クラウド・ソース・プロセッシングの複雑さから、2Dビジュアル・グラウンドと比較すると、このタスクは現実世界に近づき、大きな可能性を秘めている。
本調査では,T-3DVGの進展,その基本要素,最近の研究動向,今後の研究方向性などを概観する。
我々の知る限りでは、これがT-3DVGタスクに関する最初の体系的な調査である。
具体的には、まずT-3DVGパイプラインの一般的な構成とチュートリアルスタイルの詳細なコンポーネントを提供し、完全な背景概要を提示する。
次に、既存のT-3DVGアプローチを異なるカテゴリにまとめ、その長所と短所を解析する。
また、ベンチマークデータセットと評価指標を提示し、その性能を評価する。
最後に、既存のT-3DVGの潜在的な限界について議論し、いくつかの有望な研究方向性についての洞察を共有する。
最新の論文はhttps://github.com/liudaizong/Awesome-3D-Visual-Grounding.comで継続的に収集されている。
Text-guided 3D visual grounding (T-3DVG), which aims to locate a specific object that semantically corresponds to a language query from a complicated 3D scene, has drawn increasing attention in the 3D research community over the past few years. Compared to 2D visual grounding, this task presents great potential and challenges due to its closer proximity to the real world and the complexity of data collection and 3D point cloud source processing. In this survey, we attempt to provide a comprehensive overview of the T-3DVG progress, including its fundamental elements, recent research advances, and future research directions. To the best of our knowledge, this is the first systematic survey on the T-3DVG task. Specifically, we first provide a general structure of the T-3DVG pipeline with detailed components in a tutorial style, presenting a complete background overview. Then, we summarize the existing T-3DVG approaches into different categories and analyze their strengths and weaknesses. We also present the benchmark datasets and evaluation metrics to assess their performances. Finally, we discuss the potential limitations of existing T-3DVG and share some insights on several promising research directions. The latest papers are continually collected at https://github.com/liudaizong/Awesome-3D-Visual-Grounding. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-22 |
# GameBench: LLMエージェントの戦略推論能力の評価
GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents ( http://arxiv.org/abs/2406.06613v2 ) ライセンス: Link先を確認 | Anthony Costarelli, Mat Allen, Roman Hauksson, Grace Sodunke, Suhas Hariharan, Carlson Cheng, Wenjie Li, Joshua Clymer, Arjun Yadav, | (参考訳) 大規模言語モデルは、多くの自然言語理解タスクにおいて顕著な数ショットのパフォーマンスを示してきた。
複雑で戦略的なシナリオで大規模言語モデルを使用することの実証はいくつかあるが、ゲームで見られる様々なタイプの推論でエージェントのパフォーマンスを評価するための包括的なフレームワークが欠如している。
このギャップに対処するために,LLMエージェントの戦略的推論能力を評価するクロスドメインベンチマークであるGameBenchを紹介する。
我々は,戦略ゲームで特定されるキー推論スキルの少なくとも1軸をカバーする9つの異なるゲーム環境に注目し,戦略説明がモデルの事前学習コーパスのかなりの部分を形成する可能性が低いゲームを選択する。
本評価では,GPT-3 と GPT-4 をベースとして,戦略的推論能力を高めるための2つの足場フレームワーク,すなわち Chain-of-Thought (CoT) のプロンプトと推論ヴァイアプランニング (RAP) を用いた。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
CoTとRAPはどちらもスコアを改善するが、人間レベルには匹敵しない。
Large language models have demonstrated remarkable few-shot performance on many natural language understanding tasks. Despite several demonstrations of using large language models in complex, strategic scenarios, there lacks a comprehensive framework for evaluating agents' performance across various types of reasoning found in games. To address this gap, we introduce GameBench, a cross-domain benchmark for evaluating strategic reasoning abilities of LLM agents. We focus on 9 different game environments, where each covers at least one axis of key reasoning skill identified in strategy games, and select games for which strategy explanations are unlikely to form a significant portion of models' pretraining corpuses. Our evaluations use GPT-3 and GPT-4 in their base form along with two scaffolding frameworks designed to enhance strategic reasoning ability: Chain-of-Thought (CoT) prompting and Reasoning Via Planning (RAP). Our results show that none of the tested models match human performance, and at worst GPT-4 performs worse than random action. CoT and RAP both improve scores but not comparable to human levels. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# RAD:画像異常検出のロバスト性をベンチマークするための総合データセット
RAD: A Comprehensive Dataset for Benchmarking the Robustness of Image Anomaly Detection ( http://arxiv.org/abs/2406.07176v2 ) ライセンス: Link先を確認 | Yuqi Cheng, Yunkang Cao, Rui Chen, Weiming Shen, | (参考訳) ノイズ画像に対するロバスト性は、実用的な画像異常検出システムに不可欠である。
本研究では,現在の異常検出手法の頑健さを体系的に評価するために,自由なビュー,不均一な照度,ぼやけたコレクションを備えたロバスト異常検出(RAD)データセットを提案する。
具体的には、RADはワーキングプラットフォーム上の異物を異常として識別することを目的としている。
収集プロセスには、視点変化、不均一な照度、ぼやけた収集などの様々な画像ノイズ源が組み込まれ、現実世界の検査シナリオを再現する。
その後,11種類の非教師的・ゼロショット手法をRAD上で評価・解析した。
私たちの発見は以下のとおりである。
1) 視点、照明、ぼかしの変化は異常検出方法に影響を及ぼす。
2 記憶バンクに依存して合成異常を助長する方法は、強靭性を示す。
3) 基礎モデルの一般知識を効果的に活用することは, 異常検出手法の堅牢性を高める上で有望な方法である。
データセットはhttps://github.com/hustCYQ/RAD-datasetで公開されている。
Robustness against noisy imaging is crucial for practical image anomaly detection systems. This study introduces a Robust Anomaly Detection (RAD) dataset with free views, uneven illuminations, and blurry collections to systematically evaluate the robustness of current anomaly detection methods. Specifically, RAD aims to identify foreign objects on working platforms as anomalies. The collection process incorporates various sources of imaging noise, such as viewpoint changes, uneven illuminations, and blurry collections, to replicate real-world inspection scenarios. Subsequently, we assess and analyze 11 state-of-the-art unsupervised and zero-shot methods on RAD. Our findings indicate that: 1) Variations in viewpoint, illumination, and blurring affect anomaly detection methods to varying degrees; 2) Methods relying on memory banks and assisted by synthetic anomalies demonstrate stronger robustness; 3) Effectively leveraging the general knowledge of foundational models is a promising avenue for enhancing the robustness of anomaly detection methods. The dataset is available at https://github.com/hustCYQ/RAD-dataset. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# CBGBench:タンパク質-分子複合体結合グラフのブランクを埋める
CBGBench: Fill in the Blank of Protein-Molecule Complex Binding Graph ( http://arxiv.org/abs/2406.10840v2 ) ライセンス: Link先を確認 | Haitao Lin, Guojiang Zhao, Odin Zhang, Yufei Huang, Lirong Wu, Zicheng Liu, Siyuan Li, Cheng Tan, Zhifeng Gao, Stan Z. Li, | (参考訳) 構造に基づく薬物設計(SBDD)は、標的タンパク質に結合し、生成モデルにおけるAI技術の支援によって大幅に高速化される潜在的な薬物を生成することを目的としている。
しかし、体系的な理解の欠如は、様々な設定、複雑な実装、難しい再現性、タスク特異性によって継続する。
第一に、標準化の欠如は不公平な比較と決定的な洞察につながる可能性がある。
このジレンマに対処するために,SBDDの包括的なベンチマークであるCBGBenchを提案する。
既存のメソッドを属性に基づいて分類することで、CBGBenchは様々な最先端メソッドを実装するモジュラーで拡張可能なフレームワークを促進する。
第二に、‘textit{de novo} 分子生成における単一のタスクは、その能力をほとんど反映できない。
この範囲を広げるために、我々はこれらのモデルを薬物設計に不可欠な様々なタスクに適応させた。
これらのタスクには、タンパク質ポケットの構造に条件づけられた、textit{de novo}分子、リンカー、断片、足場、および側鎖の生成的命名が含まれる。
本評価は, 相互作用, 化学特性, 幾何学的信頼性, サブ構造的妥当性に関する包括的視点を包括的に包括的に包含して行う。
さらに、最先端モデルの事前学習版と、実証研究の分析による深い洞察を提供する。
CBGBench のコードベースは \url{https://github.com/Edapinenut/CBGBench} で公開されている。
Structure-based drug design (SBDD) aims to generate potential drugs that can bind to a target protein and is greatly expedited by the aid of AI techniques in generative models. However, a lack of systematic understanding persists due to the diverse settings, complex implementation, difficult reproducibility, and task singularity. Firstly, the absence of standardization can lead to unfair comparisons and inconclusive insights. To address this dilemma, we propose CBGBench, a comprehensive benchmark for SBDD, that unifies the task as a generative heterogeneous graph completion, analogous to fill-in-the-blank of the 3D complex binding graph. By categorizing existing methods based on their attributes, CBGBench facilitates a modular and extensible framework that implements various cutting-edge methods. Secondly, a single task on \textit{de novo} molecule generation can hardly reflect their capabilities. To broaden the scope, we have adapted these models to a range of tasks essential in drug design, which are considered sub-tasks within the graph fill-in-the-blank tasks. These tasks include the generative designation of \textit{de novo} molecules, linkers, fragments, scaffolds, and sidechains, all conditioned on the structures of protein pockets. Our evaluations are conducted with fairness, encompassing comprehensive perspectives on interaction, chemical properties, geometry authenticity, and substructure validity. We further provide the pre-trained versions of the state-of-the-art models and deep insights with analysis from empirical studies. The codebase for CBGBench is publicly accessible at \url{https://github.com/Edapinenut/CBGBench}. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# ロバストフェイクニュース検出のための大規模言語モデルによる対数スタイル拡張
Adversarial Style Augmentation via Large Language Model for Robust Fake News Detection ( http://arxiv.org/abs/2406.11260v2 ) ライセンス: Link先を確認 | Sungwon Park, Sungwon Han, Meeyoung Cha, | (参考訳) 偽ニュースの拡散は個人に悪影響を及ぼし、対処すべき重要な社会的課題と見なされている。
フェイクニュースを検出するアルゴリズムと洞察に富んだ特徴がいくつか特定されている。
しかし、最近のLLMとその高度な生成機能により、検出可能な機能(例えば、スタイル変換攻撃)の多くが変更され、実際のニュースと区別することがより困難になる。
本研究では,様々なスタイル転換攻撃に対して頑健な偽ニュース検知器をトレーニングするために,敵のスタイル拡張であるAdStyleを提案する。
我々のモデルの主要なメカニズムは、LLMを慎重に使用して、多種多様なスタイル変換攻撃プロンプトを自動生成することである。
これにより、検出器が扱うのが特に困難であるプロンプトの生成が向上する。
実験により、我々の拡張戦略は、フェイクニュースベンチマークデータセットでテストした場合の堅牢性と検出性能を改善することが示された。
The spread of fake news negatively impacts individuals and is regarded as a significant social challenge that needs to be addressed. A number of algorithmic and insightful features have been identified for detecting fake news. However, with the recent LLMs and their advanced generation capabilities, many of the detectable features (e.g., style-conversion attacks) can be altered, making it more challenging to distinguish from real news. This study proposes adversarial style augmentation, AdStyle, to train a fake news detector that remains robust against various style-conversion attacks. Our model's key mechanism is the careful use of LLMs to automatically generate a diverse yet coherent range of style-conversion attack prompts. This improves the generation of prompts that are particularly difficult for the detector to handle. Experiments show that our augmentation strategy improves robustness and detection performance when tested on fake news benchmark datasets. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# Intersymbolic AI: Interlinking Symbolic AIとSubsymbolic AI
Intersymbolic AI: Interlinking Symbolic AI and Subsymbolic AI ( http://arxiv.org/abs/2406.11563v2 ) ライセンス: Link先を確認 | André Platzer, | (参考訳) この視点は、ビルディングブロックが固有の意味/意味を持つシンボリックAIと、個々のビルディングブロックが意味を逃れるという事実にもかかわらず、全体が重要性/効果を生み出すサブシンボリックAIの組み合わせをいう。
標準的なAIは論理、ゲーム、計画である。
標準的なサブシンボリックAIは、教師なしの機械と強化学習である。
シンボルAIは、シンボルAIの世界と、その構成的象徴的重要性と意味と、その要約的重要性または効果とを関連付け、シンボルAIの原則によって助けられているサブシンボルAIの知見と、シンボルAIの洞察の間を行き来することで、両方の世界からの洞察の達成を可能にする。
例えば、インターシンボリックAIは、動的システムを理解するためにシンボリックAIから始まり、その制御を学ぶためにサブシンボリックAIを使い続ける。
シンボルAIは、シンボルAIとサブシンボリックAIの両方を組み合わせて、いずれの種類のAIよりもAIの有効性を高める。
Intersymbolic AIパラダイムへのいくつかの成功コントリビューションはここで調査されている。
This perspective piece calls for the study of the new field of Intersymbolic AI, by which we mean the combination of symbolic AI, whose building blocks have inherent significance/meaning, with subsymbolic AI, whose entirety creates significance/effect despite the fact that individual building blocks escape meaning. Canonical kinds of symbolic AI are logic, games and planning. Canonical kinds of subsymbolic AI are (un)supervised machine and reinforcement learning. Intersymbolic AI interlinks the worlds of symbolic AI with its compositional symbolic significance and meaning and of subsymbolic AI with its summative significance or effect to enable culminations of insights from both worlds by going between and across symbolic AI insights with subsymbolic AI techniques that are being helped by symbolic AI principles. For example, Intersymbolic AI may start with symbolic AI to understand a dynamic system, continue with subsymbolic AI to learn its control, and end with symbolic AI to safely use the outcome of the learned subsymbolic AI controller in the dynamic system. Intersymbolic AI combines both symbolic and subsymbolic AI to increase the effectiveness of AI compared to either kind of AI alone, in much the same way that the combination of both conscious and subconscious thought increases the effectiveness of human thought compared to either kind of thought alone. Some successful contributions to the Intersymbolic AI paradigm are surveyed here but many more are considered possible by advancing Intersymbolic AI. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# 対話型人工知能が心の理論と自律行動の体系化に有効か : 比較分析
The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis ( http://arxiv.org/abs/2406.13813v4 ) ライセンス: Link先を確認 | Marcin Rządeczka, Anna Sterna, Julia Stolińska, Paulina Kaczyńska, Marcin Moskalewicz, | (参考訳) 背景: メンタルヘルス介入における会話型人工知能(CAI)の展開の増加は、認知バイアスの是正と人間とAIの相互作用に対する影響の認識において、その効果を評価する必要がある。
心の理論や自律バイアスを含むこれらのバイアスは、うつ病や不安などのメンタルヘルス状態を悪化させる可能性がある。
目的: 本研究は, 認知バイアスの同定と修正, ユーザインタラクションへの影響認識における汎用言語モデル (GPT-3.5, GPT-4, Gemini Pro) に対する治療用チャットボット (Wysa, Youper) の有効性を評価することを目的とした。
メソッド: この研究は、典型的なユーザとボットのインタラクションをシミュレートする仮想ケースシナリオを採用した。
評価された認知バイアスには、マインドバイアスの理論(擬人化、過信、帰属)と自律バイアス(制御のイリュージョン、基本的な帰属誤り、ジャストワールド仮説)が含まれていた。
認知行動療法(Cognitive Behavioral Therapy, CBT)の原理を, 基準尺度を用いて, 精度, 治療品質, 順応性で評価した。
この評価には、認知科学者と臨床心理学者の二重審査が含まれていた。
結果: 汎用チャットボットは, 認知バイアス, 特に過信バイアス, 基本帰属誤り, およびジャストワールド仮説の修正において, 治療用チャットボットよりも優れていたことが明らかとなった。
GPT-4はすべてのバイアスで最高点を獲得し、Wysaのような治療用ボットは最低点を獲得した。
Affect Recognitionも同様の傾向を示し、一般的なボットは6つのバイアスのうち4つで治療ボットを上回った。
しかし、この結果は、その効果を高め、デジタルメンタルヘルス介入における安全かつ効果的な使用を確保するために、治療用チャットボットのさらなる改良の必要性を強調している。
今後の研究は、感情反応の改善とAIベースの治療における倫理的配慮に焦点をあてるべきである。
Background: The increasing deployment of Conversational Artificial Intelligence (CAI) in mental health interventions necessitates an evaluation of their efficacy in rectifying cognitive biases and recognizing affect in human-AI interactions. These biases, including theory of mind and autonomy biases, can exacerbate mental health conditions such as depression and anxiety. Objective: This study aimed to assess the effectiveness of therapeutic chatbots (Wysa, Youper) versus general-purpose language models (GPT-3.5, GPT-4, Gemini Pro) in identifying and rectifying cognitive biases and recognizing affect in user interactions. Methods: The study employed virtual case scenarios simulating typical user-bot interactions. Cognitive biases assessed included theory of mind biases (anthropomorphism, overtrust, attribution) and autonomy biases (illusion of control, fundamental attribution error, just-world hypothesis). Responses were evaluated on accuracy, therapeutic quality, and adherence to Cognitive Behavioral Therapy (CBT) principles, using an ordinal scale. The evaluation involved double review by cognitive scientists and a clinical psychologist. Results: The study revealed that general-purpose chatbots outperformed therapeutic chatbots in rectifying cognitive biases, particularly in overtrust bias, fundamental attribution error, and just-world hypothesis. GPT-4 achieved the highest scores across all biases, while therapeutic bots like Wysa scored the lowest. Affect recognition showed similar trends, with general-purpose bots outperforming therapeutic bots in four out of six biases. However, the results highlight the need for further refinement of therapeutic chatbots to enhance their efficacy and ensure safe, effective use in digital mental health interventions. Future research should focus on improving affective response and addressing ethical considerations in AI-based therapy. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# REVEAL-IT:InTerpretabilityのための進化エージェントpoLicyの可視性を用いた強化学習
REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability ( http://arxiv.org/abs/2406.14214v5 ) ライセンス: Link先を確認 | Shuang Ao, Simon Khan, Haris Aziz, Flora D. Salim, | (参考訳) エージェントの学習過程、特にその成功や訓練後の失敗に寄与する要因を理解することは、エージェントの意思決定プロセスの背後にある根拠を理解するために重要である。
従来の手法では、構造因果モデル(SCM)を作成したり、価値関数の分布を視覚的に表現することで学習過程を明らかにする。
しかしながら、これらのアプローチは2次元環境や複雑でない遷移力学でのみ機能するので制約がある。
複雑な環境やタスクでエージェントの学習プロセスを理解することはより難しい。
本稿では,複雑な環境下でエージェントの学習過程を説明するための新しいフレームワークであるREVEAL-ITを提案する。
まず,様々な学習課題に対する政策構造とエージェントの学習過程を可視化する。
これらの知見を可視化することにより、特定のトレーニングタスクやステージがテストにおけるエージェントのパフォーマンスにどの程度影響するかを理解することができる。
そして、GNNベースの説明者がポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。
実験により,本フレームワークから導出した説明は,学習効率の向上と最終性能の向上に有効であることが示された。
Understanding the agent's learning process, particularly the factors that contribute to its success or failure post-training, is crucial for comprehending the rationale behind the agent's decision-making process. Prior methods clarify the learning process by creating a structural causal model (SCM) or visually representing the distribution of value functions. Nevertheless, these approaches have constraints as they exclusively function in 2D-environments or with uncomplicated transition dynamics. Understanding the agent's learning process in complicated environments or tasks is more challenging. In this paper, we propose REVEAL-IT, a novel framework for explaining the learning process of an agent in complex environments. Initially, we visualize the policy structure and the agent's learning process for various training tasks. By visualizing these findings, we can understand how much a particular training task or stage affects the agent's performance in test. Then, a GNN-based explainer learns to highlight the most important section of the policy, providing a more clear and robust explanation of the agent's learning process. The experiments demonstrate that explanations derived from this framework can effectively help in the optimization of the training tasks, resulting in improved learning efficiency and final performance. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# Q*: 検討計画によるLLMのマルチステップ推論の改善
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning ( http://arxiv.org/abs/2406.14283v4 ) ライセンス: Link先を確認 | Chaojie Wang, Yanchen Deng, Zhiyi Lyu, Liang Zeng, Jujie He, Shuicheng Yan, Bo An, | (参考訳) 大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
しかし、自己回帰生成プロセスにより、多段階推論を行う場合、LSMは誤り、幻覚、矛盾する文を生成するのが難しくなる。
本稿では,LLMの多段階的推論をヒューリスティックな探索問題とすることで,LLMの復号化プロセスの汎用的,汎用的,アジャイル的な枠組みであるQ*を導入することにより,病理の緩和を図る。
将来期待される報酬を推定するヒューリスティック関数としてプラグアンドプレイQ値モデルを学習することにより、我々のQ*はLLMを現在のタスクに微調整することなく、最も有望な次の推論ステップを選択することができる。
GSM8K, MATH, MBPPの大規模実験により, 提案手法の優位性を実証し, 既存のオープンソースLCMの推論性能の向上に寄与した。
Large Language Models (LLMs) have demonstrated impressive capability in many natural language tasks. However, the auto-regressive generation process makes LLMs prone to produce errors, hallucinations and inconsistent statements when performing multi-step reasoning. In this paper, by casting multi-step reasoning of LLMs as a heuristic search problem, we aim to alleviate the pathology by introducing Q*, a general, versatile and agile framework for guiding LLMs decoding process with deliberative planning. By learning a plug-and-play Q-value model as heuristic function for estimating expected future rewards, our Q* can effectively guide LLMs to select the most promising next reasoning step without fine-tuning LLMs for the current task, which avoids the significant computational overhead and potential risk of performance degeneration on other tasks. Extensive experiments on GSM8K, MATH and MBPP demonstrate the superiority of our method, contributing to improving the reasoning performance of existing open-source LLMs. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# IWISDM:大規模マルチモーダルモデルにおける命令追従の評価
IWISDM: Assessing instruction following in multimodal models at scale ( http://arxiv.org/abs/2406.14343v5 ) ライセンス: Link先を確認 | Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan, | (参考訳) 詳細な指示から複雑なタスクを実行する能力は、我々の種の多くの顕著な成果の鍵となる。
人間としては、幅広いタスクを実行するだけでなく、数百から数千のステップを完了させる、非常に複雑なタスクも実行できます。
テキスト入力と視覚入力を統合した大規模言語モデルとそのより最近のマルチモーダルモデルは、複雑なタスクの実行において前例のない成功を収めた。
しかし、既存のベンチマークのほとんどは単一のモダリティ入力(テキストやビジョン)に限られており、特にマルチモダリティコンテキストでのインストラクションフォローは、マルチモダリティアセスメントの範囲を狭めている。
このギャップを埋めるために,複雑度が変化する視覚言語タスクの制限のない配列を生成するために設計された,指示された仮想VISual Decision Making (iWISDM)環境を導入する。
iWISDMを用いて、様々な複雑さレベルにわたる視覚的タスクに追従する命令の3つの異なるベンチマークをコンパイルし、これらのベンチマーク上で新たに開発された複数のマルチモーダルモデルを評価した。
我々の研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令順守を評価するための堅牢なベンチマークとしてiWISDMを確立し,これらのモデルと人間の命令を正確に追従する能力の大きなギャップを浮き彫りにした。iWISDMのコードはGitHubで公開されている。
The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.The code of iWISDM is available on GitHub at https://github.com/BashivanLab/iWISDM. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-22 |
# グラフ上の最大被覆問題に対するディープRL法のベンチマーク
A Benchmark Study of Deep-RL Methods for Maximum Coverage Problems over Graphs ( http://arxiv.org/abs/2406.14697v2 ) ライセンス: Link先を確認 | Zhicheng Liang, Yu Yang, Xiangyu Ke, Xiaokui Xiao, Yunjun Gao, | (参考訳) 近年,グラフ上の組合せ最適化(CO)問題に対するヒューリスティックスを導出するために,深層強化学習(Deep-RL)を採用する傾向が高まっている。
最大被覆問題(MCP)とそのソーシャルネットワーク上での確率的変異、影響最大化(IM)は、この研究の分野において特に顕著である。
本稿では,MPPとIMの5つの新しいDeep-RL法の有効性と効率について,総合的なベンチマーク研究を行った。
これらの手法はS2V-DQN、Geometric-QN、GCOMB、RL4IM、LeNSEといったトップデータサイエンスの会場で発表された。
その結果,様々なシナリオにおいて,Lazy GreedyアルゴリズムはMPPのDeep-RL法を常に上回っていることがわかった。
IMの場合、IMMやOPIMのような音響アルゴリズムは、ほとんどのシナリオでDeep-RL法よりも優れた性能を示す。
特に,IMM法とOPIM法では,予算の増大とともに影響がほとんど拡大しない場合に,Deep-RL法がIMMとOPIMをわずかに上回り,IM問題における異常現象が観察された。
さらに,本実験では,MPPとIMにDeep-RL法を適用した場合の一般的な問題点について検討した。
最後に,Deep-RL法の改良手法について検討する。
我々のベンチマーク研究は、組合せ最適化問題を解決するための現在の深層強化学習研究における潜在的な課題に光を当てている。
Recent years have witnessed a growing trend toward employing deep reinforcement learning (Deep-RL) to derive heuristics for combinatorial optimization (CO) problems on graphs. Maximum Coverage Problem (MCP) and its probabilistic variant on social networks, Influence Maximization (IM), have been particularly prominent in this line of research. In this paper, we present a comprehensive benchmark study that thoroughly investigates the effectiveness and efficiency of five recent Deep-RL methods for MCP and IM. These methods were published in top data science venues, namely S2V-DQN, Geometric-QN, GCOMB, RL4IM, and LeNSE. Our findings reveal that, across various scenarios, the Lazy Greedy algorithm consistently outperforms all Deep-RL methods for MCP. In the case of IM, theoretically sound algorithms like IMM and OPIM demonstrate superior performance compared to Deep-RL methods in most scenarios. Notably, we observe an abnormal phenomenon in IM problem where Deep-RL methods slightly outperform IMM and OPIM when the influence spread nearly does not increase as the budget increases. Furthermore, our experimental results highlight common issues when applying Deep-RL methods to MCP and IM in practical settings. Finally, we discuss potential avenues for improving Deep-RL methods. Our benchmark study sheds light on potential challenges in current deep reinforcement learning research for solving combinatorial optimization problems. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-22 |
# 量子参照フレームのフレームバンドル定式化:視点の重ね合わせから幾何学の重ね合わせへ
A frame-bundle formulation of quantum reference frames: from superposition of perspectives to superposition of geometries ( http://arxiv.org/abs/2406.15838v2 ) ライセンス: Link先を確認 | Daniel A. Turolla Vanzella, Jeremy Butterfield, | (参考訳) 我々は、量子参照フレーム(QRF)のコアアイデアが重力の文脈で適用され、その定義が座標系のような不必要な(しかし便利な)要素から解放されるため、完全に幾何学的な定式化が可能である。
私たちの定式化は2つの主要な考えに基づいている。
まず、QRFは観測者の(従って測定装置の)各時空点(すなわち事象)における時間と空間の認識の不確かさを符号化する。
これに対し、イベント $p$ のオブザーバは、通常のように、接空間 $T_p$ のテトラッドとしてモデル化される。
したがって、イベントにおける QRF は、$p$ のテトラッド上の複素函数である。
第二に、与えられた多様体上の計量を指定できるのは、各接空間に割り当てる基底が、指定したい計量の四元数であることを定義することで得られる。
したがって、時空、すなわち多様体+計量は、その上の「視点」の選択とともに、基底の束の部分で表され、各点に割り当てられた基底を四元数とするものとして理解される。
したがって、時空の重ね合わせは、大まかに言えば、このバンドルの切断に対する複素振幅の割り当てとして表される。
ここで定義される QRF は、事象の基底に割り当てられた複素振幅の集合、すなわち多様体の基底の束上に定義される複素関数の集まりであり、局所的な方法で記述することができる(つまり、区間全体ではなく、事象の基底に振幅を帰属させる)。
この定式化は、いくつかの概念的側面と、QRFに関する現在の考え方の拡張に光を当てていると信じている。
例えば、幾何学的な用語で考えると、文献で扱われる重力的シナリオ(線形近似の他に)に適用されるQRFの考えは、任意性による予測力を欠いていることが明らかになる。
We provide a possible fully geometric formulation of the core idea of quantum reference frames (QRFs) as it has been applied in the context of gravity, freeing its definition from unnecessary (though convenient) ingredients, such as coordinate systems. Our formulation is based on two main ideas. First, a QRF encodes uncertainty about what is the observer's (and, hence, the measuring apparatus's) perception of time and space at each spacetime point (i.e., event). For this, an observer at an event $p$ is modeled, as usual, as a tetrad in the tangent space $T_p$. So a QRF at an event $p$ is a complex function on the tetrads at $p$. Second, we use the result that one can specify a metric on a given manifold by stipulating that a basis one assigns at each tangent space is to be a tetrad in the metric one wants to specify. Hence a spacetime, i.e. manifold plus metric, together with a choice of "point of view" on it, is represented by a section of the bundle of bases, understood as taking the basis assigned to each point to be a tetrad. Thus a superposition of spacetimes gets represented as, roughly speaking, an assignment of complex amplitudes to sections of this bundle. A QRF, defined here as the collection of complex amplitudes assigned to bases at events--i.e., a complex function defined on the bundle of bases of the manifold--can describe, in a local way (i.e., attributing the amplitudes to bases at events instead of to whole sections), these superpositions. We believe that this formulation sheds some light on some conceptual aspects and possible extensions of current ideas about QRFs. For instance, thinking in geometric terms makes it clear that the idea of QRFs applied to the gravitational scenarios treated in the literature (beyond linear approximation) lacks predictive power due to arbitrariness which, we argue, can only be resolved by some further input from physics. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-22 |
# KanQAS: Kolmogorov-Arnold Network for Quantum Architecture Search
KANQAS: Kolmogorov-Arnold Network for Quantum Architecture Search ( http://arxiv.org/abs/2406.17630v2 ) ライセンス: Link先を確認 | Akash Kundu, Aritra Sarkar, Abhishek Sadhu, | (参考訳) 量子アーキテクチャサーチ(QAS)は量子回路の最適化と自動設計のための有望な方向である。
QASの最近の技術は、深層Qネットワークのような強化学習からの機械学習ベースのアプローチに焦点を当てている。
マルチ層パーセプトロンをベースとした深層QネットワークがQASに適用されているが、パラメータが多いため、その解釈性は依然として困難である。
本研究では,QAS問題におけるKAN(Kolmogorov-Arnold Networks)の実用性を評価し,量子状態準備と量子化学の課題におけるそれらの効率性を分析する。
量子状態生成では、ノイズのないシナリオでは、複数量子ビットの最大絡み合う状態を生成するための最適量子回路構成の確率は、マルチ層知覚(MLP)よりも2\times$から5\times$高くなる。
さらに、雑音のシナリオでは、MLPの性能がアクティベーション関数の選択に大きく依存するMLPよりも、最大絡み合った状態を近似する際の忠実度が向上する。
量子化学問題に対処する際,従来のMLPの代わりにCRL(Curriculum Reinforcement Learning)とKAN構造を統合することで,最近提案されたQASアルゴリズムを強化する。
この修正により、より少ない2量子ビットゲートを持ち、より浅い深さを持つパラメータ化量子回路を設計することができ、化学ハミルトニアンの基底状態を見つける効率を向上させることができる。
さらなる調査により,KAN は MLP と比較して学習可能なパラメータがかなり少ないことが明らかになったが,KAN の各エピソードの実行時間の平均は高い。
Quantum architecture search (QAS) is a promising direction for optimization and automated design of quantum circuits towards quantum advantage. Recent techniques in QAS focus on machine learning-based approaches from reinforcement learning, like deep Q-network. While multi-layer perceptron-based deep Q-networks have been applied for QAS, their interpretability remains challenging due to the high number of parameters. In this work, we evaluate the practicality of Kolmogorov-Arnold Networks (KANs) in QAS problems, analyzing their efficiency in the task of quantum state preparation and quantum chemistry. In quantum state preparation, our results show that in a noiseless scenario, the probability of success and the number of optimal quantum circuit configurations to generate the multi-qubit maximally entangled states are $2\times$ to $5\times$ higher than Multi-Layer perceptions (MLPs). Moreover, in noisy scenarios, KAN can achieve a better fidelity in approximating maximally entangled state than MLPs, where the performance of the MLP significantly depends on the choice of activation function. In tackling quantum chemistry problems, we enhance the recently proposed QAS algorithm by integrating Curriculum Reinforcement Learning (CRL) with a KAN structure instead of the traditional MLP. This modification allows us to design a parameterized quantum circuit that contains fewer 2-qubit gates and has a shallower depth, thereby improving the efficiency of finding the ground state of a chemical Hamiltonian. Further investigation reveals that KAN requires a significantly smaller number of learnable parameters compared to MLPs; however, the average time of executing each episode for KAN is higher. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-22 |
# 大規模海氷モデリングのための拡散モデルに向けて
Towards diffusion models for large-scale sea-ice modelling ( http://arxiv.org/abs/2406.18417v2 ) ライセンス: Link先を確認 | Tobias Sebastian Finn, Charlotte Durand, Alban Farchi, Marc Bocquet, Julien Brajard, | (参考訳) 我々は,多変量および北極域の海氷状態の無条件生成のための拡散モデルへの第一歩を提示する。
潜在空間での拡散による計算コストの削減を目標とする一方で、潜在拡散モデルは、生成プロセスに物理知識を統合する可能性も提供する。
データ空間におけるガウス分布を検閲して、潜伏拡散モデルを海氷物理学に調整し、モデル化された変数の物理的境界に従うデータを生成する。
我々の潜伏拡散モデルは、データ空間で訓練された拡散モデルと同様のスコアに達するが、潜伏写像によって生成されたフィールドは滑らかである。
物理的境界を強制することは平滑化を減少させることはできないが、限界氷帯の表現を改善する。
したがって、大規模な地球系モデリングでは、スムース化の重要な障壁を解消できるならば、データ空間の拡散に比べて遅延拡散モデルには多くの利点がある。
We make the first steps towards diffusion models for unconditional generation of multivariate and Arctic-wide sea-ice states. While targeting to reduce the computational costs by diffusion in latent space, latent diffusion models also offer the possibility to integrate physical knowledge into the generation process. We tailor latent diffusion models to sea-ice physics with a censored Gaussian distribution in data space to generate data that follows the physical bounds of the modelled variables. Our latent diffusion models reach similar scores as the diffusion model trained in data space, but they smooth the generated fields as caused by the latent mapping. While enforcing physical bounds cannot reduce the smoothing, it improves the representation of the marginal ice zone. Therefore, for large-scale Earth system modelling, latent diffusion models can have many advantages compared to diffusion in data space if the significant barrier of smoothing can be resolved. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-22 |
# フリーの脆性判定:ディープロバスト分類器におけるマージン一貫性の活用
Detecting Brittle Decisions for Free: Leveraging Margin Consistency in Deep Robust Classifiers ( http://arxiv.org/abs/2406.18451v2 ) ライセンス: Link先を確認 | Jonas Ngnawé, Sabyasachi Sahoo, Yann Pequignot, Frédéric Precioso, Christian Gagné, | (参考訳) 堅牢性を改善するための敵のトレーニング戦略に関する広範な研究にもかかわらず、最も堅牢なディープラーニングモデルの決定でさえも、認識不能な摂動に対して非常に敏感であり、それらが現実世界のアプリケーションにデプロイされる際に深刻なリスクを生じさせる可能性がある。
このようなケースを検出することは重要かも知れませんが、敵攻撃を使用してインスタンス単位の脆弱性を評価することは、リアルタイムのデプロイメントシナリオでは計算集約的であり、不適当です。
入力スペースマージンは、非ロバストなサンプルを検出するための正確なスコアであり、ディープニューラルネットワークにとって魅力的なものである。
本稿では、弱いサンプルを効率的に検出するために、入力スペースマージンとロジットマージンを結合する特性であるマージン一貫性の概念を紹介する。
まず、モデルのロジットマージンを非ロバスト標本を特定するためのスコアとして使用するためには、マージンの整合性が必要で十分であることを示す。
次に, CIFAR10 および CIFAR100 データセット上での頑健に訓練された各種モデルの包括的実験により, 入力空間マージンとロジットマージンとの間に強い相関関係を持つ強いマージン一貫性を示すことを示す。
そこで我々は,ロジットマージンを有効利用して,そのようなモデルによる不安定な決定を確実に検出し,入力マージンを小さなサブセットでのみ推定することにより,任意に大きなテストセット上で頑健な精度を正確に推定できることを示した。
最後に,特徴表現から擬似マージンを学習することで,モデルに十分なマージンが存在しないケースに対処する。
我々の研究結果は、ディープ表現を活用して、デプロイメントシナリオにおける敵の脆弱性を効率的に評価する可能性を浮き彫りにした。
Despite extensive research on adversarial training strategies to improve robustness, the decisions of even the most robust deep learning models can still be quite sensitive to imperceptible perturbations, creating serious risks when deploying them for high-stakes real-world applications. While detecting such cases may be critical, evaluating a model's vulnerability at a per-instance level using adversarial attacks is computationally too intensive and unsuitable for real-time deployment scenarios. The input space margin is the exact score to detect non-robust samples and is intractable for deep neural networks. This paper introduces the concept of margin consistency -- a property that links the input space margins and the logit margins in robust models -- for efficient detection of vulnerable samples. First, we establish that margin consistency is a necessary and sufficient condition to use a model's logit margin as a score for identifying non-robust samples. Next, through comprehensive empirical analysis of various robustly trained models on CIFAR10 and CIFAR100 datasets, we show that they indicate strong margin consistency with a strong correlation between their input space margins and the logit margins. Then, we show that we can effectively use the logit margin to confidently detect brittle decisions with such models and accurately estimate robust accuracy on an arbitrarily large test set by estimating the input margins only on a small subset. Finally, we address cases where the model is not sufficiently margin-consistent by learning a pseudo-margin from the feature representation. Our findings highlight the potential of leveraging deep representations to efficiently assess adversarial vulnerability in deployment scenarios. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-22 |
# センサネットワーク上でのセキュアな量子強調計測
Secure quantum-enhanced measurements on a network of sensors ( http://arxiv.org/abs/2406.19285v2 ) ライセンス: Link先を確認 | Sean William Moore, Jacob A. Dunningham, | (参考訳) サードパーティーのセキュアな量子リモートセンシング(SQRS)プロトコルは、盗聴者に対するセキュリティを保証するリモートロケーションでの量子強調測定を可能にする。
このアイデアは、ひとつのパーティが絡み合った状態を使用して、異なるノードのパラメータの関数を直接測定できるノードのネットワークにまで拡張することができる。
しかし、そのようなネットワーク上のセキュリティはノード数とともに指数関数的に減少する。
ここでは,任意の大きさのネットワーク上で量子強度の測定精度とセキュリティを達成するために,絡み合った状態と分離可能な状態の両方を利用するハイブリッドプロトコルにおいて,この問題が克服可能であることを示す。
Two-party secure quantum remote sensing (SQRS) protocols enable quantum-enhanced measurements at remote locations with guaranteed security against eavesdroppers. This idea can be scaled up to networks of nodes where one party can directly measure functions of parameters at the different nodes using entangled states. However, the security on such networks decreases exponentially with the number of nodes. Here we show how this problem can be overcome in a hybrid protocol that utilises both entangled and separable states to achieve quantum-enhanced measurement precision and security on networks of any size. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-22 |
# FlowerとNVIDIA FLAREによるスーパーチャージフェデレーション学習
Supercharging Federated Learning with Flower and NVIDIA FLARE ( http://arxiv.org/abs/2407.00031v2 ) ライセンス: Link先を確認 | Holger R. Roth, Daniel J. Beutel, Yan Cheng, Javier Fernandez Marques, Heng Pan, Chester Chen, Zhihong Zhang, Yuhong Wen, Sean Yang, Isaac, Yang, Yuan-Ting Hsieh, Ziyue Xu, Daguang Xu, Nicholas D. Lane, Andrew Feng, | (参考訳) FlowerやNVIDIA FLAREなど、いくつかのオープンソースシステムが近年開発され、連邦学習(FL)のさまざまな側面に焦点を当てている。
FlowerはFL、分析、評価に対する凝集的なアプローチの実装に重点を置いている。
長年にわたって、FlowerはFLアプリケーション開発に適した広範な戦略とアルゴリズムを整備し、研究と産業において活発なFLコミュニティを育成してきた。
逆に、FLAREは、実運用環境でFLアプリケーション用に明示的に設計されたエンタープライズ対応でレジリエントなランタイム環境の作成を優先している。
本稿では,両フレームワークの初期の統合について述べるとともに,FLエコシステム全体をスーパーチャージャーするためにどのように連携できるかを示す。
FlowerとFLAREのシームレスな統合により、Flowerフレームワークで開発されたアプリケーションは、FLAREランタイム環境内で、いかなる修正も必要とせずに、懸命に操作することができる。
この初期統合はプロセスを合理化し、複雑さを排除し、2つのプラットフォーム間のスムーズな相互運用性を確保することで、FLアプリケーションの全体的な効率性とアクセシビリティを向上させる。
Several open-source systems, such as Flower and NVIDIA FLARE, have been developed in recent years while focusing on different aspects of federated learning (FL). Flower is dedicated to implementing a cohesive approach to FL, analytics, and evaluation. Over time, Flower has cultivated extensive strategies and algorithms tailored for FL application development, fostering a vibrant FL community in research and industry. Conversely, FLARE has prioritized the creation of an enterprise-ready, resilient runtime environment explicitly designed for FL applications in production environments. In this paper, we describe our initial integration of both frameworks and show how they can work together to supercharge the FL ecosystem as a whole. Through the seamless integration of Flower and FLARE, applications crafted within the Flower framework can effortlessly operate within the FLARE runtime environment without necessitating any modifications. This initial integration streamlines the process, eliminating complexities and ensuring smooth interoperability between the two platforms, thus enhancing the overall efficiency and accessibility of FL applications. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# ShortcutsBench: APIベースのエージェントのための大規模実世界のベンチマーク
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents ( http://arxiv.org/abs/2407.00132v2 ) ライセンス: Link先を確認 | Haiyang Shen, Yue Li, Desong Meng, Dongqi Cai, Sheng Qi, Li Zhang, Mengwei Xu, Yun Ma, | (参考訳) 大規模言語モデル(LLM)とアプリケーションプログラミングインターフェース(API)の統合の最近の進歩は、アカデミックと産業の両方において大きな関心を集めている。
これらのAPIベースのエージェントは、LSMの強力な自律性と計画能力を活用し、マルチステップアクションを必要とする問題を効率的に解決することができる。
しかし、多次元の難易度、多様なタスクタイプ、APIによる実世界の要求を処理する能力は、まだ不明である。
本稿では, タスクの難易度, タスクタイプ, 実世界の要求に応じて, API ベースのエージェントを包括的に評価するための大規模ベンチマークである \textsc{ShortcutsBench} を紹介する。
関連スポンサーコンテンツ \textsc{ShortcutsBench} には、Apple Inc. のオペレーティングシステムからの豊富な実API、ショートカットからの洗練されたユーザクエリ、ショートカット開発者からの人間のアノテーションによる高品質なアクションシーケンス、プリミティブパラメータタイプ、エヌムパラメータタイプ、以前のアクションからの出力、システムやユーザから必要な情報を要求するパラメータに関する正確なパラメータが含まれている。
5ドルのオープンソース(サイズ >=57B)と4ドルのクローズドソースLCM(例:Gemini-1.5-ProとGPT-3.5)で構築されたエージェントの広範な評価は、APIの選択、パラメータフィリング、システムやユーザからの必要な情報要求に関する複雑なクエリの処理において、重大な制限を明らかにします。
これらの発見は、実際の複雑なユーザクエリを効果的に実行する上で、APIベースのエージェントが直面する課題を浮き彫りにする。
すべてのデータセット、コード、実験結果は、 \url{https://github.com/eachsheep/shortcutsbench}で確認できる。
Recent advancements in integrating large language models (LLMs) with application programming interfaces (APIs) have gained significant interest in both academia and industry. These API-based agents, leveraging the strong autonomy and planning capabilities of LLMs, can efficiently solve problems requiring multi-step actions. However, their ability to handle multi-dimensional difficulty levels, diverse task types, and real-world demands through APIs remains unknown. In this paper, we introduce \textsc{ShortcutsBench}, a large-scale benchmark for the comprehensive evaluation of API-based agents in solving tasks with varying levels of difficulty, diverse task types, and real-world demands. \textsc{ShortcutsBench} includes a wealth of real APIs from Apple Inc.'s operating systems, refined user queries from shortcuts, human-annotated high-quality action sequences from shortcut developers, and accurate parameter filling values about primitive parameter types, enum parameter types, outputs from previous actions, and parameters that need to request necessary information from the system or user. Our extensive evaluation of agents built with $5$ leading open-source (size >= 57B) and $4$ closed-source LLMs (e.g. Gemini-1.5-Pro and GPT-3.5) reveals significant limitations in handling complex queries related to API selection, parameter filling, and requesting necessary information from systems and users. These findings highlight the challenges that API-based agents face in effectively fulfilling real and complex user queries. All datasets, code, and experimental results will be available at \url{https://github.com/eachsheep/shortcutsbench}. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# 量子状態のクロスドメイン分類のためのハーネス化量子支援ベクトルマシン
Harnessing Quantum Support Vector Machines for Cross-Domain Classification of Quantum States ( http://arxiv.org/abs/2407.00774v2 ) ライセンス: Link先を確認 | Diksha Sharma, Vivek Balasaheb Sabale, Parvinder Singh, Atul Kumar, | (参考訳) 本研究では,量子機械学習を用いたクロスドメイン分類を用いて,絡み合いと分離可能性のパラダイムを解釈する。
量子状態の固有構造とその特定の種類の量子状態との関係は、訓練状態とは異なる領域から直感的にテスト状態の分類に使用される。
量子機械学習アルゴリズムを用いて、2ビット混合状態の絡み合ったクラスと分離可能なクラスへの効率的な分類を実証する。
相関の量子性を分析するために、我々のモデルはベル対角状態をゼロおよび非ゼロ不協和状態として適切に分類する。
さらに、ランダムな局所ユニタリ変換を用いて、モデルのロバスト性を評価するために分析を拡張した。
本結果は,古典的サポートベクトルマシンやニューラルネットワークと比較して,多次元ヒルベルト空間の量子状態を分類するための量子支援ベクトルマシンの可能性を示す。
In the present study, we use cross-domain classification using quantum machine learning for quantum advantages to readdress the entanglement versus separability paradigm. The inherent structure of quantum states and its relation to a particular class of quantum states are used to intuitively classify testing states from domains different from training states, called \textit{cross-domain classification}. Using our quantum machine learning algorithm, we demonstrate efficient classifications of two-qubit mixed states into entangled and separable classes. For analyzing the quantumness of correlations, our model adequately classifies Bell diagonal states as zero and non-zero discord states. In addition, we also extend our analysis to evaluate the robustness of our model using random local unitary transformations. Our results demonstrate the potential of the quantum support vector machine for classifying quantum states across the multi-dimensional Hilbert space in comparison to classical support vector machines and neural networks. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# FineSurE: LLMを用いた微粒化評価
FineSurE: Fine-grained Summarization Evaluation using LLMs ( http://arxiv.org/abs/2407.00908v3 ) ライセンス: Link先を確認 | Hwanjun Song, Hang Su, Igor Shalyminov, Jason Cai, Saab Mansour, | (参考訳) テキスト要約ベンチマークとモデル開発の合理化には自動評価が不可欠である。
ROUGEのような従来の手法は人間の判断とよく相関しないが、最近提案されたLCMベースのメトリクスは、Likertスケールスコアを用いた要約レベルの評価のみを提供する。
これは、例えば、1つの幻覚スコアを要約レベルで割り当てることしかできず、文レベルでは幻覚を含む文を数えることができる。
この制限を緩和するために,大言語モデル (LLM) を用いた要約タスクに適した細粒度評価器である FineSurE を提案する。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
オープンソースとプロプライエタリなLLMをFineSurEのバックボーンとして比較する。
さらに,NLI法,QA法,LLM法などのSOTA法に対して,FinSurEの広範囲なベンチマークを行い,特に完全性および簡潔性に関する性能向上を示す。
コードはhttps://github.com/DISL-Lab/FineSurE-ACL24で公開されている。
Automated evaluation is crucial for streamlining text summarization benchmarking and model development, given the costly and time-consuming nature of human evaluation. Traditional methods like ROUGE do not correlate well with human judgment, while recently proposed LLM-based metrics provide only summary-level assessment using Likert-scale scores. This limits deeper model analysis, e.g., we can only assign one hallucination score at the summary level, while at the sentence level, we can count sentences containing hallucinations. To remedy those limitations, we propose FineSurE, a fine-grained evaluator specifically tailored for the summarization task using large language models (LLMs). It also employs completeness and conciseness criteria, in addition to faithfulness, enabling multi-dimensional assessment. We compare various open-source and proprietary LLMs as backbones for FineSurE. In addition, we conduct extensive benchmarking of FineSurE against SOTA methods including NLI-, QA-, and LLM-based methods, showing improved performance especially on the completeness and conciseness dimensions. The code is available at https://github.com/DISL-Lab/FineSurE-ACL24. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# 空間モード多重化による光源分離推定における雑音の抑制
Suppression of noise in separation estimation of optical sources with spatial-mode demultiplexing ( http://arxiv.org/abs/2407.01995v2 ) ライセンス: Link先を確認 | Fattah Sakuldee, Łukasz Rudnicki, | (参考訳) 空間モードデマルチプレキシングは、非コヒーレントなソース間の分離を推定するための成功ツールであることが証明された。
しかし、測定ノイズの存在により、この技術によってもたらされた超解像は急速に悪化する。
形式的には、これはレイリーの呪いと呼ばれる直接的なイメージから知られており、理想的な空間モードのデマルチプレキシングを欠いているが、ノイズの多いシナリオで再び現れる。
本稿では,ノイズの破壊効果を抑制するための形式的手順を開発し,誤り訂正として効果的に動作する手順を提案する。
生成の多項式と消滅演算子によって生じるランダムなユニタリチャネルによって与えられるノイズモデルに対し、モードデマルチプレクサを繰り返すことで、多数の繰り返しと小さなノイズ強度の制限の下で、それらを回転のグループで介入することで、完全ノイズデカップリングに到達できることを実証する。
変位雑音の特殊な場合, 除算器を2回使用し, パリティ演算子でインターレースすることにより, ノイズ構成が第1段と第2段の間に凍結されていることを考慮し, 完全な解法を実現することができる。
これにより、変位演算子によって生成される特別な種類のノイズに対する超解像の回復が可能となる。
さらに,この2つのステップ間の強い雑音相関を求めるため,このプロトコルにより測定精度が向上した。
Spatial mode demultiplexing was proved to be a successful tool for estimation of the separation between incoherent sources, allowing for sensitivity much below the Rayleigh limit. However, with the presence of measurement's noise, superresolution brought by this technique deteriorates rapidly. On a formal ground, this can be seen in terms of, so called, Rayleigh curse known from direct imaging, which while being absent for ideal spatial mode demultiplexing, goes back in a noisy scenario. In this article, we develop a formal procedure to suppress the destructive effect of the noise, proposing a procedure effectively working as an error correction. For noise models given by a random unitary channel generated by a polynomial of creation and annihilation operators, we demonstrate that perfect noise decoupling can be reached by repeating the mode demultiplexers and intervening them by a group of rotations, in the limit of a large number of repetitions and small noise strength. For a special case of displacement noise, our solution is simplified: by using the demultiplexer twice, and interlacing it by a parity operator, given that the noise configuration is frozen between the first and the second step, a perfect decoupling can be achieved. This allows for a recovery of superresolution for a special class of noise generated by displacement operators. Furthermore, for a strong noise correlation between these two steps, our protocol provides an improved measurement resolution. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# TokenPacker:マルチモーダルLLMのための効率的なビジュアルプロジェクタ
TokenPacker: Efficient Visual Projector for Multimodal LLM ( http://arxiv.org/abs/2407.02392v2 ) ライセンス: Link先を確認 | Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang, | (参考訳) ビジュアルプロジェクタは、マルチモーダル LLM (MLLM) において、ビジュアルエンコーダとLarge Language Model (LLM) の間に必須のブリッジとして機能する。
通常、MLLMは1対1変換によって全ての視覚的コンテキストを保存するために単純なMLPを採用する。
しかし、視覚トークンは冗長であり、高解像度画像を扱う場合には大幅に増大し、MLLMの効率を著しく損なう。
いくつかの最近の研究は、結果として生じる視覚トークンの数を減らすために、リサンプラー(resampler)や抽象体を導入している。
残念なことに、より細部を捉えることができず、MLLMの視覚的推論能力を損なう。
本研究では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗い微細なスキームを取り入れた新しいビジュアルプロジェクタを提案する。
具体的には、まず視覚的特徴を低解像度の点問合せとして補間し、全体の視覚的表現を基礎として提供する。
次に,高分解能で多レベルな領域ベースキューを微細な参照キーや値として利用する領域間インジェクションモジュールを導入し,対応するローカルコンテキスト領域に完全に吸収できるようにする。
このステップは、粗いポイントクエリを効果的に更新し、後続のLCM推論のために強化されたクエリに変換する。
広汎な実験により、我々の手法は視覚トークンを75%〜89%圧縮する一方で、非常に高い効率で様々なベンチマークで同等またはさらに優れた性能を実現していることが示された。
ソースコードはhttps://github.com/CircleRadon/TokenPackerにある。
The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a Multimodal LLM (MLLM). Typically, MLLMs adopt a simple MLP to preserve all visual contexts via one-to-one transformation. However, the visual tokens are redundant and can be considerably increased when dealing with high-resolution images, impairing the efficiency of MLLMs significantly. Some recent works have introduced resampler or abstractor to reduce the number of resulting visual tokens. Unfortunately, they fail to capture finer details and undermine the visual reasoning capabilities of MLLMs. In this work, we propose a novel visual projector, which adopts a coarse-to-fine scheme to inject the enriched characteristics to generate the condensed visual tokens. In specific, we first interpolate the visual features as a low-resolution point query, providing the overall visual representation as the foundation. Then, we introduce a region-to-point injection module that utilizes high-resolution, multi-level region-based cues as fine-grained reference keys and values, allowing them to be fully absorbed within the corresponding local context region. This step effectively updates the coarse point query, transforming it into an enriched one for the subsequent LLM reasoning. Extensive experiments demonstrate that our approach compresses the visual tokens by 75%~89%, while achieves comparable or even better performance across diverse benchmarks with significantly higher efficiency. The source codes can be found at https://github.com/CircleRadon/TokenPacker. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# MedRAT:補助的タスクによる不正な医療報告生成
MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks ( http://arxiv.org/abs/2407.03919v2 ) ライセンス: Link先を確認 | Elad Hirsch, Gefen Dawidowicz, Ayellet Tal, | (参考訳) X線画像から医用レポートを生成することは、特にペア化された画像レポートデータがトレーニングに利用できない不適切な環境では難しい課題である。
この課題に対処するために、我々は2つの異なるデータセットで利用可能な情報を活用する新しいモデルを提案する。
私たちのモデルの中核的な考え方は、自動エンコードレポート生成とマルチモーダル(レポートイメージ)アライメントを組み合わせることでソリューションを提供する、という考えに基づいています。
しかし、ペア対応が欠如している場合には、このアライメントをどのように達成するかという課題が続いている。
提案手法は,特にコントラスト学習と分類の補助的タスクを用いて,関連する画像や報告を互いに近接して配置することを含む。
このアプローチは、知識グラフに格納された外部情報を使用するなど、前処理ステップに依存する従来の方法とは異なる。
我々のモデルはMedRATと呼ばれ、従来の最先端の手法を超越し、ペアデータや外部ツールを必要とせずに総合的な医療報告を作成可能であることを示す。
Medical report generation from X-ray images is a challenging task, particularly in an unpaired setting where paired image-report data is unavailable for training. To address this challenge, we propose a novel model that leverages the available information in two distinct datasets, one comprising reports and the other consisting of images. The core idea of our model revolves around the notion that combining auto-encoding report generation with multi-modal (report-image) alignment can offer a solution. However, the challenge persists regarding how to achieve this alignment when pair correspondence is absent. Our proposed solution involves the use of auxiliary tasks, particularly contrastive learning and classification, to position related images and reports in close proximity to each other. This approach differs from previous methods that rely on pre-processing steps, such as using external information stored in a knowledge graph. Our model, named MedRAT, surpasses previous state-of-the-art methods, demonstrating the feasibility of generating comprehensive medical reports without the need for paired data or external tools. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# 予測符号化ネットワークと推論学習:チュートリアルとサーベイ
Predictive Coding Networks and Inference Learning: Tutorial and Survey ( http://arxiv.org/abs/2407.04117v2 ) ライセンス: Link先を確認 | Björn van Zwol, Ro Jefferson, Egon L. van den Broek, | (参考訳) 近年、NeuroAIの旗の下で、人工知能研究において神経科学に触発されたアプローチに新たな重点を置く声が高まっている。
この主な例は予測符号化ネットワーク(PCN)であり、予測符号化の神経科学的な枠組みに基づいている。
このフレームワークは、脳を階層的ベイズ推論モデルとみなし、フィードバック接続による予測エラーを最小限にする。
バックプロパゲーション(BP)で訓練された従来のニューラルネットワークとは異なり、PCNは推論学習(IL)を利用する。
歴史的には、ILはより計算集約的であるが、最近の進歩により、十分な並列化でBPよりも高い効率を達成できることが示されている。
さらに、PCNは伝統的なフィードフォワードニューラルネットワーク(FNN)のスーパーセットと見なすことができ、トレーニング可能なアーキテクチャの範囲を大幅に広げることができる。
本質的に確率的(グラフィック的)潜在変数モデルとして、PCNは従来の人工ニューラルネットワークを超える教師付き学習と教師なし(生成的)モデリングの両方に汎用的なフレームワークを提供する。
この研究は、PCNの包括的なレビューと詳細な形式仕様を提供し、特に近代的なMLメソッドのコンテキストにその仕様を配置する。
さらに,実践的な実装のためのPythonライブラリ(PRECO)についても紹介する。
これにより、PCは将来のMLイノベーションのための有望なフレームワークとして位置づけられる。
Recent years have witnessed a growing call for renewed emphasis on neuroscience-inspired approaches in artificial intelligence research, under the banner of NeuroAI. A prime example of this is predictive coding networks (PCNs), based on the neuroscientific framework of predictive coding. This framework views the brain as a hierarchical Bayesian inference model that minimizes prediction errors through feedback connections. Unlike traditional neural networks trained with backpropagation (BP), PCNs utilize inference learning (IL), a more biologically plausible algorithm that explains patterns of neural activity that BP cannot. Historically, IL has been more computationally intensive, but recent advancements have demonstrated that it can achieve higher efficiency than BP with sufficient parallelization. Furthermore, PCNs can be mathematically considered a superset of traditional feedforward neural networks (FNNs), significantly extending the range of trainable architectures. As inherently probabilistic (graphical) latent variable models, PCNs provide a versatile framework for both supervised learning and unsupervised (generative) modeling that goes beyond traditional artificial neural networks. This work provides a comprehensive review and detailed formal specification of PCNs, particularly situating them within the context of modern ML methods. Additionally, we introduce a Python library (PRECO) for practical implementation. This positions PC as a promising framework for future ML innovations. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# メタラーニングと表現学習 : 短い理論ノート
Meta-Learning and representation learner: A short theoretical note ( http://arxiv.org/abs/2407.04189v2 ) ライセンス: Link先を確認 | Mouad El Bouchattaoui, | (参考訳) メタラーニング(メタラーニング、メタラーニング・トゥ・ラーニング)は、機械学習のサブフィールドであり、様々なタスクから学習し、時間の経過とともに学習プロセスを改善するモデルとアルゴリズムを開発することを目的としている。
特定のタスクを学習することに焦点を当てた従来の機械学習手法とは異なり、メタラーニングは、過去のタスクからの経験を活用して将来の学習を強化することを目的としている。
このアプローチは、新しいタスクの利用可能なデータが限られているシナリオでは特に有用であるが、関連するタスクから豊富なデータが存在する。
これらのタスクの根底にある構造とパターンを抽出し活用することにより、メタ学習アルゴリズムは、少ないデータでより高速な収束とより良いパフォーマンスを達成することができる。
以下は、主に \cite{vanschoren2018meta}、 \cite{baxter2019learning}、および \cite{maurer2005algorithmic}から着想を得たものである。
Meta-learning, or "learning to learn," is a subfield of machine learning where the goal is to develop models and algorithms that can learn from various tasks and improve their learning process over time. Unlike traditional machine learning methods focusing on learning a specific task, meta-learning aims to leverage experience from previous tasks to enhance future learning. This approach is particularly beneficial in scenarios where the available data for a new task is limited, but there exists abundant data from related tasks. By extracting and utilizing the underlying structure and patterns across these tasks, meta-learning algorithms can achieve faster convergence and better performance with fewer data. The following notes are mainly inspired from \cite{vanschoren2018meta}, \cite{baxter2019learning}, and \cite{maurer2005algorithmic}. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# 拡散モデルの速度精度トレードオフ:非平衡熱力学からの知恵と最適輸送
Speed-accuracy trade-off for the diffusion models: Wisdom from nonequilibrium thermodynamics and optimal transport ( http://arxiv.org/abs/2407.04495v3 ) ライセンス: Link先を確認 | Kotaro Ikeda, Tomoya Uda, Daisuke Okanohara, Sosuke Ito, | (参考訳) 我々は、拡散モデルと呼ばれる生成モデルと、確率的熱力学と呼ばれるフォッカー・プランク方程式の非平衡熱力学との間の関係について論じる。
確率的熱力学の手法に基づき,拡散モデルの速度-精度トレードオフを導出し,拡散モデルにおけるデータ生成の速度と精度のトレードオフ関係を導出する。
その結果,前処理におけるエントロピー生成速度がデータ生成の誤差に影響を与えることが示唆された。
確率的熱力学の観点から、我々の結果は拡散モデルにおけるデータ生成の最良の方法に関する定量的知見を提供する。
最適学習プロトコルは、確率的熱力学における保守的な力と、最適輸送理論における2-ワッサーシュタイン距離による空間の測地によって導入される。
本研究では,コサインスケジュール,条件付き最適輸送,最適輸送など,異なるノイズスケジュールを持つ拡散モデルの速度精度トレードオフの有効性を数値的に説明する。
We discuss a connection between a generative model, called the diffusion model, and nonequilibrium thermodynamics for the Fokker-Planck equation, called stochastic thermodynamics. Based on the techniques of stochastic thermodynamics, we derive the speed-accuracy trade-off for the diffusion models, which is a trade-off relationship between the speed and accuracy of data generation in diffusion models. Our result implies that the entropy production rate in the forward process affects the errors in data generation. From a stochastic thermodynamic perspective, our results provide quantitative insight into how best to generate data in diffusion models. The optimal learning protocol is introduced by the conservative force in stochastic thermodynamics and the geodesic of space by the 2-Wasserstein distance in optimal transport theory. We numerically illustrate the validity of the speed-accuracy trade-off for the diffusion models with different noise schedules such as the cosine schedule, the conditional optimal transport, and the optimal transport. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-22 |
# PDiscoFormer: ビジョントランスフォーマーによるパートディスカバリ制約の緩和
PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers ( http://arxiv.org/abs/2407.04538v3 ) ライセンス: Link先を確認 | Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos, | (参考訳) 対象部品を明示的に検出するコンピュータビジョン手法は、本質的に解釈可能なモデルへのステップである。
きめ細かな分類タスクによって引き起こされる部分発見を行う既存のアプローチは、発見された部分の幾何学的性質に非常に限定的な仮定をし、それらは小さくてコンパクトであるべきである。
しかし,本稿では,自己監督型DINOv2 ViTのような事前学習型トランスフォーマーベースの視覚モデルにより,これらの制約を緩和できることを示す。
特に、任意の大きさの複数の接続されたコンポーネントを利用できる全変動(TV)が、以前の作業よりも大幅に優れていたことが判明した。
我々は、CUB、PartImageNet、Oxford Flowersの3つの詳細な分類ベンチマークでアプローチを検証し、その結果を以前に公表された手法と比較するとともに、最新の手法であるPDiscoNetをトランスフォーマーベースのバックボーンで再実装した。
自己教師型VTモデルにおける強い帰納バイアスは、教師なしの部品発見に使用できる幾何学的先行性を再考する必要があることを示す。
Computer vision methods that explicitly detect object parts and reason on them are a step towards inherently interpretable models. Existing approaches that perform part discovery driven by a fine-grained classification task make very restrictive assumptions on the geometric properties of the discovered parts; they should be small and compact. Although this prior is useful in some cases, in this paper we show that pre-trained transformer-based vision models, such as self-supervised DINOv2 ViT, enable the relaxation of these constraints. In particular, we find that a total variation (TV) prior, which allows for multiple connected components of any size, substantially outperforms previous work. We test our approach on three fine-grained classification benchmarks: CUB, PartImageNet and Oxford Flowers, and compare our results to previously published methods as well as a re-implementation of the state-of-the-art method PDiscoNet with a transformer-based backbone. We consistently obtain substantial improvements across the board, both on part discovery metrics and the downstream classification task, showing that the strong inductive biases in self-supervised ViT models require to rethink the geometric priors that can be used for unsupervised part discovery. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# 探索的模倣学習:継続的環境に対する経路署名的アプローチ
Explorative Imitation Learning: A Path Signature Approach for Continuous Environments ( http://arxiv.org/abs/2407.04856v2 ) ライセンス: Link先を確認 | Nathan Gavenski, Juarez Monteiro, Felipe Meneguzzi, Michael Luck, Odinaldo Rodrigues, | (参考訳) いくつかの模倣学習法は、状態ペアからアクションを推論するために行動クローンと自己スーパービジョンを組み合わせる。
しかし、ほとんどの場合、一般化と人間の介入を高めるために多くの専門家の軌道に依存し、ドメイン制約のような問題の重要な側面を捉えている。
本稿では,2つの重要な特徴を持つ模倣学習を改良したCILO(Continuous Imitation Learning from Observation)を提案する。
一 より多様な状態遷移を可能にし、専門家の軌跡を少なくし、訓練の繰り返しを少なくすること。
(ii) エージェントと専門家の軌跡の非パラメトリック表現を作成することにより、制約の自動符号化を可能にするパスシグネチャ。
5つの環境でCILOをベースラインと2つの主要な模倣学習手法と比較した。
すべての環境ですべてのメソッドで最高のパフォーマンスを示し、その中の2つで専門家より優れています。
Some imitation learning methods combine behavioural cloning with self-supervision to infer actions from state pairs. However, most rely on a large number of expert trajectories to increase generalisation and human intervention to capture key aspects of the problem, such as domain constraints. In this paper, we propose Continuous Imitation Learning from Observation (CILO), a new method augmenting imitation learning with two important features: (i) exploration, allowing for more diverse state transitions, requiring less expert trajectories and resulting in fewer training iterations; and (ii) path signatures, allowing for automatic encoding of constraints, through the creation of non-parametric representations of agents and expert trajectories. We compared CILO with a baseline and two leading imitation learning methods in five environments. It had the best overall performance of all methods in all environments, outperforming the expert in two of them. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# 任意の温度における条件付き相互情報のクラスタリングと量子マルコフ構造
Clustering of conditional mutual information and quantum Markov structure at arbitrary temperatures ( http://arxiv.org/abs/2407.05835v2 ) ライセンス: Link先を確認 | Tomotaka Kuwahara, | (参考訳) 最近の研究では、単純な二部相関関数によって特徴づけられるエキゾチックな量子相が明らかにされている。
これらの相では、三部構造相関から生じる長距離の絡み合いが中心的な役割を果たす。
その結果、多粒子相関の研究は現代物理学の焦点となっている。
これらの中で、条件付き相互情報(CMI)は、トポロジカルに順序付けられたものを含む様々なエキゾチックなフェーズの本質をカプセル化するのに適した、最も確立された情報理論の尺度の1つである。
量子多体物理学の領域内では、ギブス状態とマルコフネットワークの2つの概念を橋渡しするハマーズリー・クリフォードの定理の量子類似性を確立することが長年の目標であった。
この定理は、CMIの相関長が全ての熱平衡量子相の短距離であることを示している。
本研究では,CMIは,逆温度と多項式的に相関長が増加することにより,距離に関する指数減衰を示すことを示す。
このクラスタリング定理は、以前は熱相転移を欠いた高温のために確立されてきたが、真の長距離の絡み合いが量子トポロジカル秩序によって存在することを裏付ける低温では解き放たれている。
また, 低温でも, 広範囲に分布する三部体の絡み合いは, 長距離体制では生じないことが明らかとなった。
この証明を達成するために、我々は「絡み合いハミルトニアン」あるいは「平均力のハミルトニアン」と呼ばれるサブシステム上の実効ハミルトニアンの局所性を解析するための包括的形式主義を確立する。
「分析の結果、二部交絡に関する事前のクラスタリング定理が強化される。」
本質的に、これは正部分転置(PPT)クラスの制限を超えて広がる真の二分詞の絡み合いを調査することを意味する。
Recent investigations have unveiled exotic quantum phases that elude characterization by simple bipartite correlation functions. In these phases, long-range entanglement arising from tripartite correlations plays a central role. Consequently, the study of multipartite correlations has become a focal point in modern physics. In these, Conditional Mutual Information (CMI) is one of the most well-established information-theoretic measures, adept at encapsulating the essence of various exotic phases, including topologically ordered ones. Within the realm of quantum many-body physics, it has been a long-sought goal to establish a quantum analog to the Hammersley-Clifford theorem that bridges the two concepts of the Gibbs state and the Markov network. This theorem posits that the correlation length of CMI remains short-range across all thermal equilibrium quantum phases. In this work, we demonstrate that CMI exhibits exponential decay concerning distance, with its correlation length increasing polynomially with the inverse temperature. While this clustering theorem has previously been established for high temperatures devoid of thermal phase transitions, it has remained elusive at low temperatures, where genuine long-range entanglement is corroborated to exist by the quantum topological order. Our findings unveil that, even at low temperatures, a broad class of tripartite entanglement cannot manifest in the long-range regime. To achieve the proof, we establish a comprehensive formalism for analyzing the locality of effective Hamiltonians on subsystems, commonly known as the `entanglement Hamiltonian' or `Hamiltonian of mean force.' As one outcome of our analyses, we enhance the prior clustering theorem concerning bipartite entanglement. In essence, this means that we investigate genuine bipartite entanglement that extends beyond the limitations of the Positive Partial Transpose (PPT) class. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# Mobius:テキスト・ビデオ生成タスクのための高能率空間時間並列学習パラダイム
Mobius: A High Efficient Spatial-Temporal Parallel Training Paradigm for Text-to-Video Generation Task ( http://arxiv.org/abs/2407.06617v3 ) ライセンス: Link先を確認 | Yiran Yang, Jinchao Zhang, Ying Deng, Jie Zhou, | (参考訳) テキスト・トゥ・イメージ(T2I)生成タスクの成功に触発されて、多くの研究者がテキスト・トゥ・ビデオ(T2V)生成タスクに力を注いでいる。
T2Vフレームワークの多くは、通常、T2Iモデルから継承し、動的ビデオを生成するための時間外トレーニング層を追加します。
しかし、従来の3D-Unetはシリアルモードであり、時空間層は空間層に追従する。
我々は、このシリアルモードは、環境に優しいものではなく、T2Vの開発に適さない大規模な拡散モデルと大規模なデータセットで、より多くのトレーニングコストをもたらすと信じている。
そこで本稿では,T2Vタスクのための高効率な時空間並列訓練パラダイムであるMobiusを提案する。
我々の3D-Unetでは、時間層と空間層は並列であり、特徴フローとバックプロパゲーションを最適化する。
Mobiusは24%のGPUメモリと12%のトレーニング時間を節約し、T2Vの微調整タスクを大幅に改善し、AIGCコミュニティに新たな洞察を与える。
将来、コードをリリースします。
Inspired by the success of the text-to-image (T2I) generation task, many researchers are devoting themselves to the text-to-video (T2V) generation task. Most of the T2V frameworks usually inherit from the T2I model and add extra-temporal layers of training to generate dynamic videos, which can be viewed as a fine-tuning task. However, the traditional 3D-Unet is a serial mode and the temporal layers follow the spatial layers, which will result in high GPU memory and training time consumption according to its serial feature flow. We believe that this serial mode will bring more training costs with the large diffusion model and massive datasets, which are not environmentally friendly and not suitable for the development of the T2V. Therefore, we propose a highly efficient spatial-temporal parallel training paradigm for T2V tasks, named Mobius. In our 3D-Unet, the temporal layers and spatial layers are parallel, which optimizes the feature flow and backpropagation. The Mobius will save 24% GPU memory and 12% training time, which can greatly improve the T2V fine-tuning task and provide a novel insight for the AIGC community. We will release our codes in the future. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# 物理世界とサイバー空間の整合性: 体操AIに関する包括的調査
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI ( http://arxiv.org/abs/2407.06886v5 ) ライセンス: Link先を確認 | Yang Liu, Weixing Chen, Yongjie Bai, Guanbin Li, Wen Gao, Liang Lin, | (参考訳) Embodied Artificial Intelligence (Embodied AI)は、AGI(Artificial General Intelligence)を達成するために不可欠であり、サイバースペースと物理世界を橋渡しする様々なアプリケーションの基盤として機能する。
近年,MLM(Multi-modal Large Models)やWM(World Models)の出現が注目されている。
しかし、MLMの時代には、Embodied AIに関する包括的な調査は行われていない。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
まず,ロボットとシミュレータの代表的な研究の最前線をナビゲートし,研究の焦点とその限界を十分に理解する。
そして、主な研究対象を4つ分析する。
1)知覚の具体化。
2) 相互作用の具体化。
3)具体化剤、及び
4)シム・トゥ・リアルな適応、最先端の手法、必須パラダイム、包括的なデータセットを網羅する。
さらに,仮想および実実施エージェントにおけるMLMの複雑さを考察し,動的デジタルおよび物理環境における相互作用を促進することの重要性を強調した。
最後に、具体化AIの課題と限界を要約し、今後の方向性について論じる。
この調査が研究コミュニティの基礎的な参考として役立ち、継続的なイノベーションを刺激することを期待しています。
関連するプロジェクトはhttps://github.com/HCPLab-SYSU/Embodied_AI_Paper_Listにある。
Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for the brain of embodied agents. However, there is no comprehensive survey for Embodied AI in the era of MLMs. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering the state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in dynamic digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss their potential future directions. We hope this survey will serve as a foundational reference for the research community and inspire continued innovation. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# Differentially Private Multiway と $k$-Cut
Differentially Private Multiway and $k$-Cut ( http://arxiv.org/abs/2407.06911v3 ) ライセンス: Link先を確認 | Rishi Chandra, Michael Dinitz, Chenglin Fan, Zongrui Zou, | (参考訳) 本稿では,グラフカットの文脈における差分プライバシの課題,特に$k$カットとマルチウェイカットの問題に焦点をあてる。
これらの問題に対して、ほぼ最適な性能を実現するために、エッジ微分プライベートアルゴリズムを導入する。
マルチウェイカット問題に対して、我々はまず、最先端の非プライベートアルゴリズムと一致する乗法近似比のプライベートアルゴリズムを提供する。
次に、重み付きグラフ上のアルゴリズムが定数$k$に対してほぼ最適であることを証明し、加法誤差の厳密な情報理論の下界を示す。
最小$k$-cut問題に対して、我々のアルゴリズムは、近似$k$-cutの個数に対する既知のバウンダリを活用し、固定プライバシーパラメータに対して最適な加算誤差$O(k\log n)$のプライベートアルゴリズムを実現する。
また、この加算誤差と一致する情報理論の下限も確立する。
さらに、非コンスタントな$k$に対しても、$k$カットの効率的なプライベートアルゴリズムを、$\widetilde{O}(k^{1.5})$の加算誤差を持つ多項式時間2-近似を含む形で提供する。
In this paper, we address the challenge of differential privacy in the context of graph cuts, specifically focusing on the minimum $k$-cut and multiway cut problems. We introduce edge-differentially private algorithms that achieve nearly optimal performance for these problems. For the multiway cut problem, we first provide a private algorithm with a multiplicative approximation ratio that matches the state-of-the-art non-private algorithm. We then present a tight information-theoretic lower bound on the additive error, demonstrating that our algorithm on weighted graphs is near-optimal for constant $k$. For the minimum $k$-cut problem, our algorithms leverage a known bound on the number of approximate $k$-cuts, resulting in a private algorithm with optimal additive error $O(k\log n)$ for fixed privacy parameter. We also establish a information-theoretic lower bound that matches this additive error. Additionally, we give an efficient private algorithm for $k$-cut even for non-constant $k$, including a polynomial-time 2-approximation with an additive error of $\widetilde{O}(k^{1.5})$. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# マルチセルフォールド:折りたたみ多細胞生物における幾何学的学習
Multicell-Fold: geometric learning in folding multicellular life ( http://arxiv.org/abs/2407.07055v2 ) ライセンス: Link先を確認 | Haiqian Yang, Anh Q. Nguyen, Dapeng Bi, Markus J. Buehler, Ming Guo, | (参考訳) 胚発生のような発生過程において、細胞群が特定の構造にどのように折り畳むかは、生物がどのように形成されるかを定義する生物学の中心的な問題である。
組織レベルの形態の確立は、各細胞が隣の細胞に対してどのように位置を決定するかに批判的に依存する。
その重要性にもかかわらず、このような複雑なプロセスの間、生体組織内の全ての細胞の振る舞いを理解し、予測することは依然として大きな課題である。
そこで本研究では,多細胞間の空間的相互作用を正確に把握し,多細胞の折り畳みや胚発生を予測できる幾何学的深層学習モデルを提案する。
本研究では, セル間相互作用とセル接合ネットワークの両面を考慮し, グラフデータ構造を統一することで, 粒状および発泡状の物理画像でマルチセルデータを表現できることを実証した。
我々は,このモデルを用いて4次元形態素配列アライメントを解釈し,単一セル分解能で発生する前に局所的な再配列を予測するという,2つの重要なタスクを達成した。
さらに,活性化マップとアブレーション研究を用いて,細胞の形態形成に重要な局所的な細胞再配列を制御できることを実証した。
このアプローチは、形態形成を研究するための新しいパラダイムを提供し、統一されたデータ構造を強調し、幾何学的深層学習の力を利用して、発達中の細胞のメカニズムや振る舞いを正確にモデル化する。
これは、胚発生のような様々な発達過程のための統一された動的形態素アトラスを作るための経路を提供する。
During developmental processes such as embryogenesis, how a group of cells fold into specific structures, is a central question in biology that defines how living organisms form. Establishing tissue-level morphology critically relies on how every single cell decides to position itself relative to its neighboring cells. Despite its importance, it remains a major challenge to understand and predict the behavior of every cell within the living tissue over time during such intricate processes. To tackle this question, we propose a geometric deep learning model that can predict multicellular folding and embryogenesis, accurately capturing the highly convoluted spatial interactions among cells. We demonstrate that multicellular data can be represented with both granular and foam-like physical pictures through a unified graph data structure, considering both cellular interactions and cell junction networks. We successfully use our model to achieve two important tasks, interpretable 4-D morphological sequence alignment, and predicting local cell rearrangements before they occur at single-cell resolution. Furthermore, using an activation map and ablation studies, we demonstrate that cell geometries and cell junction networks together regulate local cell rearrangement which is critical for embryo morphogenesis. This approach provides a novel paradigm to study morphogenesis, highlighting a unified data structure and harnessing the power of geometric deep learning to accurately model the mechanisms and behaviors of cells during development. It offers a pathway toward creating a unified dynamic morphological atlas for a variety of developmental processes such as embryogenesis. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# OV-DINO:Language-Aware Selective Fusionによるオープンボキャブラリ検出
OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion ( http://arxiv.org/abs/2407.07844v2 ) ライセンス: Link先を確認 | Hao Wang, Pengzhen Ren, Zequn Jie, Xiao Dong, Chengjian Feng, Yinlong Qian, Lin Ma, Dongmei Jiang, Yaowei Wang, Xiangyuan Lan, Xiaodan Liang, | (参考訳) オープン語彙検出は、トレーニング中に遭遇しないものを含むクラス名に基づいてオブジェクトを検出する必要があるため、困難なタスクである。
既存の手法では、様々な大規模データセット上で事前トレーニングと擬似ラベルをすることで、強力なゼロショット検出能力を示している。
しかしながら、これらのアプローチは2つの大きな課題に直面します。
一 擬似ラベルからデータノイズを効果的に除去する方法、及び
(II)地域レベルの相互モダリティ融合とアライメントに言語認識能力を効果的に活用する方法。
これらの課題に対処するため、我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
具体的には、異なるデータソースを検出中心のデータフォーマットに統合することにより、エンドツーエンドのトレーニングを可能にし、擬似ラベル生成からノイズを除去するUnified Data Integration(UniDI)パイプラインを導入する。
さらに,Language-Aware Selective Fusion (LASF)モジュールを提案する。
我々は,提案するOV-DINOを一般のオープン語彙検出ベンチマークで評価し,COCOベンチマークで50.6%,LVISベンチマークで40.1%をゼロショットで達成し,その強力な一般化能力を示した。
さらに、COCO上の細調整されたOV-DINOは58.4%APを達成し、多くの既存の手法を同じバックボーンで上回っている。
OV-DINOのコードはhttps://github.com/wanghao9610/OV-DINOで公開されている。
Open-vocabulary detection is a challenging task due to the requirement of detecting objects based on class names, including those not encountered during training. Existing methods have shown strong zero-shot detection capabilities through pre-training and pseudo-labeling on diverse large-scale datasets. However, these approaches encounter two main challenges: (i) how to effectively eliminate data noise from pseudo-labeling, and (ii) how to efficiently leverage the language-aware capability for region-level cross-modality fusion and alignment. To address these challenges, we propose a novel unified open-vocabulary detection method called OV-DINO, which is pre-trained on diverse large-scale datasets with language-aware selective fusion in a unified framework. Specifically, we introduce a Unified Data Integration (UniDI) pipeline to enable end-to-end training and eliminate noise from pseudo-label generation by unifying different data sources into detection-centric data format. In addition, we propose a Language-Aware Selective Fusion (LASF) module to enhance the cross-modality alignment through a language-aware query selection and fusion process. We evaluate the performance of the proposed OV-DINO on popular open-vocabulary detection benchmarks, achieving state-of-the-art results with an AP of 50.6% on the COCO benchmark and 40.1% on the LVIS benchmark in a zero-shot manner, demonstrating its strong generalization ability. Furthermore, the fine-tuned OV-DINO on COCO achieves 58.4% AP, outperforming many existing methods with the same backbone. The code for OV-DINO is available at https://github.com/wanghao9610/OV-DINO. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# ARCO:DNN加速器設計における性能向上のための適応型マルチエージェント強化学習ベースハードウェア/ソフトウェア共最適化コンパイラ
ARCO:Adaptive Multi-Agent Reinforcement Learning-Based Hardware/Software Co-Optimization Compiler for Improved Performance in DNN Accelerator Design ( http://arxiv.org/abs/2407.08192v2 ) ライセンス: Link先を確認 | Arya Fayyazi, Mehdi Kamal, Massoud Pedram, | (参考訳) 本稿では,MLモデル(Deep Neural Networks (DNN) など)の多種多様なハードウェアプラットフォームへのマッピング効率の向上を目的とした,適応型マルチエージェント強化学習(MARL)ベースの協調最適化コンパイルフレームワークであるARCOを提案する。
このフレームワークは、MARL内に3つの特別なアクター批判エージェントを組み込んでおり、それぞれが抽象レベルでコンパイル/最適化の異なる側面に特化している: 1つのエージェントはハードウェアに焦点を当て、2つのエージェントはソフトウェア最適化に焦点を当てている。
この統合により、DNNデプロイメントの精度とスピードを改善するハードウェア/ソフトウェアの共同最適化戦略が実現される。
高信頼度構成に集中することで、探索空間が簡単になり、現在の最適化手法よりも優れた性能が得られる。
ARCOフレームワークは既存の主要なフレームワークを超え、スループットを最大37.95%向上させ、最適化時間を様々なDNNで最大42.2%削減した。
This paper presents ARCO, an adaptive Multi-Agent Reinforcement Learning (MARL)-based co-optimizing compilation framework designed to enhance the efficiency of mapping machine learning (ML) models - such as Deep Neural Networks (DNNs) - onto diverse hardware platforms. The framework incorporates three specialized actor-critic agents within MARL, each dedicated to a distinct aspect of compilation/optimization at an abstract level: one agent focuses on hardware, while two agents focus on software optimizations. This integration results in a collaborative hardware/software co-optimization strategy that improves the precision and speed of DNN deployments. Concentrating on high-confidence configurations simplifies the search space and delivers superior performance compared to current optimization methods. The ARCO framework surpasses existing leading frameworks, achieving a throughput increase of up to 37.95% while reducing the optimization time by up to 42.2% across various DNNs. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-22 |
# CADによる生成モデル:実現可能な新しい設計への道のり
CAD-Prompted Generative Models: A Pathway to Feasible and Novel Engineering Designs ( http://arxiv.org/abs/2407.08675v2 ) ライセンス: Link先を確認 | Leah Chong, Jude Rayan, Steven Dow, Ioanna Lykourentzou, Faez Ahmed, | (参考訳) テキストから画像への生成モデルは、グラフィックデザイン、ユーザインタフェースデザイン、ファッションデザインなど、様々なクリエイティブドメインにおけるコンセプト生成において、デザイナーを支援するためにますます使われてきた。
しかし、実用可能な設計概念のイメージを生成する上でのモデルの課題のため、エンジニアリング設計における彼らの応用は依然として限られている。
この問題に対処するために,本研究では,CAD画像の生成を促すことによって,設計の実現可能性を向上させる手法を提案する。
本研究では,本手法の有用性について,市販のテキスト・トゥ・イメージモデルであるスタブル・ディフュージョン2.1を用いて,自転車設計作業のケーススタディを通じて検討した。
異なるCAD画像が重みを誘導する7つの世代で多様な自転車デザインが作成され、これらのデザインは、その実現可能性と新規性に基づいて評価される。
その結果、CAD画像のプロンプトは、Stable Diffusion 2.1のようなテキストから画像への変換に有効であることが示されている。
実現可能性と新規性の間には一般的なトレードオフが観測されるが、プロンプト重量が0.35前後に抑えられると、その新規性はテキストプロンプトだけで生成されるものと同等に保たれつつも、設計可能性は大きく向上する。
このケーススタディから得られた知見は、エンジニアリング設計プロセスの異なる段階の重み付けを促す適切なCAD画像を選択するためのガイドラインを提供する。
本手法を有効活用すると,CAD画像プロンプト法は,工学設計におけるテキスト・ツー・イメージ・モデルの幅広い応用に扉を開くことができる。
Text-to-image generative models have increasingly been used to assist designers during concept generation in various creative domains, such as graphic design, user interface design, and fashion design. However, their applications in engineering design remain limited due to the models' challenges in generating images of feasible designs concepts. To address this issue, this paper introduces a method that improves the design feasibility by prompting the generation with feasible CAD images. In this work, the usefulness of this method is investigated through a case study with a bike design task using an off-the-shelf text-to-image model, Stable Diffusion 2.1. A diverse set of bike designs are produced in seven different generation settings with varying CAD image prompting weights, and these designs are evaluated on their perceived feasibility and novelty. Results demonstrate that the CAD image prompting successfully helps text-to-image models like Stable Diffusion 2.1 create visibly more feasible design images. While a general tradeoff is observed between feasibility and novelty, when the prompting weight is kept low around 0.35, the design feasibility is significantly improved while its novelty remains on par with those generated by text prompts alone. The insights from this case study offer some guidelines for selecting the appropriate CAD image prompting weight for different stages of the engineering design process. When utilized effectively, our CAD image prompting method opens doors to a wider range of applications of text-to-image models in engineering design. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-22 |
# TAPI: コードLLMに対するターゲット特化的かつ対向的なプロンプトインジェクションを目指して
TAPI: Towards Target-Specific and Adversarial Prompt Injection against Code LLMs ( http://arxiv.org/abs/2407.09164v3 ) ライセンス: Link先を確認 | Yuchen Yang, Hongwei Yao, Bingrun Yang, Yiling He, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren, | (参考訳) 近年、コード指向の大規模言語モデル(Code LLM)は、コードプログラミングを簡素化し、促進するために広く使われ、成功している。
これらのツールを使えば、開発者は不完全なコードと自然言語プロンプトに基づいて、望まれる完全な関数コードを簡単に生成できる。
しかし、いくつかの先駆的な研究により、これらのコードLLMは、例えば、バックドアや敵の攻撃に対して脆弱であることが明らかとなった。
前者は、トレーニングデータやモデルパラメータを悪用することで、悪意のあるコードスニペットを挿入するトリガーに応答するためにLSMを誘導し、後者は、悪意のある逆入力コードを作成して、生成されたコードの品質を低下させる。
バックドアアタックはモデルトレーニングプロセスの制御に依存し、敵対的アタックは特定の悪意のある目的を達成するのに苦労する。
バックドア攻撃と対向攻撃の両方の利点を継承するために,コードLLMに対する新たな攻撃パラダイム,すなわち,ターゲット固有および対向的プロンプトインジェクション(TAPI)を提案する。
TAPIは悪意のある命令に関する情報を含む読めないコメントを生成し、それらを外部ソースコードのトリガーとして隠す。
トリガーを含むコードを完成させるためにCode LLMを利用すると、モデルは特定の場所で攻撃者が特定した悪意のあるコードスニペットを生成する。
重篤な3つの目的と7つの事例において,4つの代表的なLSMに対するTAPI攻撃を評価した。
その結果,本手法は攻撃成功率98.3%,ステルス(トリガー設計におけるトークンの平均53.1%の節約)を非常に脅かしていることがわかった。
特に、CodeGeexやGithub Copilotなど、デプロイされたコード補完統合アプリケーションに対する攻撃に成功しました。
これは我々の攻撃の現実的な脅威をさらに裏付ける。
Recently, code-oriented large language models (Code LLMs) have been widely and successfully used to simplify and facilitate code programming. With these tools, developers can easily generate desired complete functional codes based on incomplete code and natural language prompts. However, a few pioneering works revealed that these Code LLMs are also vulnerable, e.g., against backdoor and adversarial attacks. The former could induce LLMs to respond to triggers to insert malicious code snippets by poisoning the training data or model parameters, while the latter can craft malicious adversarial input codes to reduce the quality of generated codes. However, both attack methods have underlying limitations: backdoor attacks rely on controlling the model training process, while adversarial attacks struggle with fulfilling specific malicious purposes. To inherit the advantages of both backdoor and adversarial attacks, this paper proposes a new attack paradigm, i.e., target-specific and adversarial prompt injection (TAPI), against Code LLMs. TAPI generates unreadable comments containing information about malicious instructions and hides them as triggers in the external source code. When users exploit Code LLMs to complete codes containing the trigger, the models will generate attacker-specified malicious code snippets at specific locations. We evaluate our TAPI attack on four representative LLMs under three representative malicious objectives and seven cases. The results show that our method is highly threatening (achieving an attack success rate of up to 98.3%) and stealthy (saving an average of 53.1% of tokens in the trigger design). In particular, we successfully attack some famous deployed code completion integrated applications, including CodeGeex and Github Copilot. This further confirms the realistic threat of our attack. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-22 |
# 大規模言語モデルにおけるエンティティレベル幻覚の緩和
Mitigating Entity-Level Hallucination in Large Language Models ( http://arxiv.org/abs/2407.09417v2 ) ライセンス: Link先を確認 | Weihang Su, Yichen Tang, Qingyao Ai, Changyue Wang, Zhijing Wu, Yiqun Liu, | (参考訳) LLM(Large Language Models)の出現は、ユーザが情報にアクセスする方法に革命をもたらした。
しかし、LLMが広く採用されていることで、幻覚と呼ばれる重要な課題が明らかになってきており、LLMはコヒーレントかつ事実的に不正確な応答を生成する。
この幻覚現象は,LSMに基づく情報検索システムにおける利用者の不信を引き起こしている。
そこで本研究では,LLMにおける幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
DRADは、リアルタイム幻覚検出に基づいて、検索プロセスを動的に適応させることにより、従来の検索拡張を改善する。
外部モデルを持たない潜在的幻覚を識別するためのリアルタイム幻覚検出(RHD)と、外部知識を用いてこれらのエラーを修正するための外部知識に基づく自己補正(SEK)である。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
すべてのコードとデータはhttps://github.com/oneal2000/EntityHallucination.comでオープンソース化されています。
The emergence of Large Language Models (LLMs) has revolutionized how users access information, shifting from traditional search engines to direct question-and-answer interactions with LLMs. However, the widespread adoption of LLMs has revealed a significant challenge known as hallucination, wherein LLMs generate coherent yet factually inaccurate responses. This hallucination phenomenon has led to users' distrust in information retrieval systems based on LLMs. To tackle this challenge, this paper proposes Dynamic Retrieval Augmentation based on hallucination Detection (DRAD) as a novel method to detect and mitigate hallucinations in LLMs. DRAD improves upon traditional retrieval augmentation by dynamically adapting the retrieval process based on real-time hallucination detection. It features two main components: Real-time Hallucination Detection (RHD) for identifying potential hallucinations without external models, and Self-correction based on External Knowledge (SEK) for correcting these errors using external knowledge. Experiment results show that DRAD demonstrates superior performance in both detecting and mitigating hallucinations in LLMs. All of our code and data are open-sourced at https://github.com/oneal2000/EntityHallucination. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-22 |
# ワニエ局在性と剥離可能なトポロジカル境界状態の非エルミート的起源
Non-Hermitian Origin of Wannier Localizability and Detachable Topological Boundary States ( http://arxiv.org/abs/2407.09458v2 ) ライセンス: Link先を確認 | Daichi Nakamura, Ken Shiozaki, Kenji Shimomura, Masatoshi Sato, Kohei Kawabata, | (参考訳) トポロジーは指数的局所化ワニエ函数に障害を課すことができるが、ある種のトポロジー絶縁体はそのようなワニエ障害物を除外する。
ワニエ障害物の欠如は、バルクバンドから分離可能な位相境界状態をさらに伴うことができる。
ここでは、これらの分離可能な位相境界状態と非エルミート位相の間の密接な関係を解明する。
トポロジカル境界状態を非エルミート位相として同定し、本質的な非エルミート位相が避けられないスペクトルフローをもたらすことを示す。
対照的に、外在的な非エルミート位相は、位相境界状態の分離の基盤となり、分離された境界状態の反エルミート位相を明らかにする。
この接続と$K$-理論に基づいて、ワニエローカライザビリティと分離可能な位相境界状態の10倍の分類を完成させる。
While topology can impose obstructions to exponentially localized Wannier functions, certain topological insulators are exempt from such Wannier obstructions. The absence of the Wannier obstructions can further accompany topological boundary states that are detachable from the bulk bands. Here, we elucidate a close connection between these detachable topological boundary states and non-Hermitian topology. Identifying topological boundary states as non-Hermitian topology, we demonstrate that intrinsic non-Hermitian topology leads to the inevitable spectral flow. By contrast, we show that extrinsic non-Hermitian topology underlies the detachment of topological boundary states and clarify anti-Hermitian topology of the detached boundary states. Based on this connection and $K$-theory, we complete the tenfold classification of Wannier localizability and detachable topological boundary states. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-22 |
# TokenSHAP:Monte Carlo Shapley値推定による大規模言語モデルの解釈
TokenSHAP: Interpreting Large Language Models with Monte Carlo Shapley Value Estimation ( http://arxiv.org/abs/2407.10114v2 ) ライセンス: Link先を確認 | Roni Goldshmidt, Miriam Horovicz, | (参考訳) 大規模言語モデル(LLM)がクリティカルなアプリケーションでますます普及するにつれて、解釈可能なAIの必要性が高まっている。
入力プロンプト内の個々のトークンやサブストリングに重きを置くことでLLMを解釈する新しい手法であるTokenSHAPを紹介する。
このアプローチは、協調ゲーム理論から自然言語処理へのシェープリー値を適用し、入力の異なる部分がモデルの応答にどのように貢献するかを理解するための厳密な枠組みを提供する。
TokenSHAPはモンテカルロサンプリングを計算効率に利用し、トークンの重要性の解釈可能な定量的尺度を提供する。
多様なプロンプトやLLMアーキテクチャにまたがって有効性を実証し、人間の判断、モデル行動への忠実性、一貫性に則って既存のベースラインよりも一貫した改善を示す。
トークン間のニュアンスなインタラクションをキャプチャする我々の方法の能力は、LCMの振る舞いに関する貴重な洞察を与え、モデルの透明性を高め、迅速なエンジニアリングを改善し、より信頼性の高いAIシステムの開発を支援する。
TokenSHAPは、責任あるAIデプロイメントに必要な解釈可能性への重要なステップであり、より透明性があり、説明責任があり、信頼できるAIシステムを構築するという、より広い目標に寄与している。
As large language models (LLMs) become increasingly prevalent in critical applications, the need for interpretable AI has grown. We introduce TokenSHAP, a novel method for interpreting LLMs by attributing importance to individual tokens or substrings within input prompts. This approach adapts Shapley values from cooperative game theory to natural language processing, offering a rigorous framework for understanding how different parts of an input contribute to a model's response. TokenSHAP leverages Monte Carlo sampling for computational efficiency, providing interpretable, quantitative measures of token importance. We demonstrate its efficacy across diverse prompts and LLM architectures, showing consistent improvements over existing baselines in alignment with human judgments, faithfulness to model behavior, and consistency. Our method's ability to capture nuanced interactions between tokens provides valuable insights into LLM behavior, enhancing model transparency, improving prompt engineering, and aiding in the development of more reliable AI systems. TokenSHAP represents a significant step towards the necessary interpretability for responsible AI deployment, contributing to the broader goal of creating more transparent, accountable, and trustworthy AI systems. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-22 |
# キーポイント駆動数理推論による大言語モデルの蒸留
Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model ( http://arxiv.org/abs/2407.10167v2 ) ライセンス: Link先を確認 | Xunyu Zhu, Jian Li, Can Ma, Weiping Wang, | (参考訳) 大規模言語モデル(LLM)は、広範囲なパラメータ数と膨大なデータセットのトレーニングのため、数学的推論タスクにおいて例外的な習熟度を示してきた。
これらの機能にもかかわらず、LSMのデプロイは計算上の要求によって妨げられる。
LLMの数学的推論をSmaller Language Models (SLM) に拡張することはこの問題の解決法として現れてきたが、これらの小さなモデルは計算や意味理解の誤りに悩まされることが多い。
従来の研究では計算誤差を避けるためにPoTD(Program-of-Thought Distillation)が提案されていた。
意味理解の誤りに対処するため,キーポイント駆動型数学的推論蒸留(KPDD)を提案する。
KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。
さらに、この手法を KPDD-CoT と KPDD-PoT に分割し、プログラム・オブ・ソート・論理を生成する。
実験の結果, KPDD-CoTは推論能力を大幅に向上する一方, KPDD-PoTは数学的推論タスクの最先端性能を達成することがわかった。
提案手法は, 誤りを効果的に軽減し, 効率的かつ有能なSLMの展開を推し進める。
Large Language Models (LLMs) have demonstrated exceptional proficiency in mathematical reasoning tasks due to their extensive parameter counts and training on vast datasets. Despite these capabilities, deploying LLMs is hindered by their computational demands. Distilling LLM mathematical reasoning into Smaller Language Models (SLMs) has emerged as a solution to this challenge, although these smaller models often suffer from errors in calculation and semantic understanding. Prior work has proposed Program-of-Thought Distillation (PoTD) to avoid calculation error. To further address semantic understanding errors, we propose Key-Point-Driven Mathematical Reasoning Distillation (KPDD). KPDD enhances the reasoning performance of SLMs by breaking down the problem-solving process into three stages: Core Question Extraction, Problem-Solving Information Extraction, and Step-by-Step Solution. This method is further divided into KPDD-CoT, which generates Chain-of-Thought rationales, and KPDD-PoT, which creates Program-of-Thought rationales. The experiment results show that KPDD-CoT significantly improves reasoning abilities, while KPDD-PoT achieves state-of-the-art performance in mathematical reasoning tasks. Our approach effectively mitigates misunderstanding errors, advancing the deployment of efficient and capable SLMs. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-22 |
# CLIP-Guided Networks for Transferable Targeted Attacks (特集:情報ネットワーク)
CLIP-Guided Networks for Transferable Targeted Attacks ( http://arxiv.org/abs/2407.10179v2 ) ライセンス: Link先を確認 | Hao Fang, Jiawei Kong, Bin Chen, Tao Dai, Hao Wu, Shu-Tao Xia, | (参考訳) トランスファー可能な敵攻撃は、ブラックボックスのシナリオで敵が特定した予測を出力するモデルを誤解させることを目的としている。
近年の研究では、ターゲットクラスごとにジェネレータを訓練し、高度に転送可能な摂動を発生させることで、複数のクラスを扱う場合の計算オーバーヘッドを大幅に増加させる、‘textit{single-target} 生成攻撃が導入された。
\textit{Multi-target} 攻撃は、複数のクラスに対して1つのクラス条件ジェネレータをトレーニングすることで、この問題に対処する。
しかし、ジェネレータは単にクラスラベルを条件として使うだけで、ターゲットクラスのリッチなセマンティック情報を活用できない。
この目的のために、我々は、CLIPのテキスト知識をジェネレータに組み込んでマルチターゲット攻撃を強化するために、 \textbf{C}LIP-guided \textbf{G}enerative \textbf{N}etwork with \textbf{C}ross-attention Module (CGNC)を設計する。
CGNCは、例えば、ResNet-152 から DenseNet-121 への成功率を 21.46 % 改善した。
さらに,既存の単一ターゲットメソッドを超越した単一クラス攻撃において,我々の手法をさらに強化するためのマスク付き微調整機構を提案する。
Transferable targeted adversarial attacks aim to mislead models into outputting adversary-specified predictions in black-box scenarios. Recent studies have introduced \textit{single-target} generative attacks that train a generator for each target class to generate highly transferable perturbations, resulting in substantial computational overhead when handling multiple classes. \textit{Multi-target} attacks address this by training only one class-conditional generator for multiple classes. However, the generator simply uses class labels as conditions, failing to leverage the rich semantic information of the target class. To this end, we design a \textbf{C}LIP-guided \textbf{G}enerative \textbf{N}etwork with \textbf{C}ross-attention modules (CGNC) to enhance multi-target attacks by incorporating textual knowledge of CLIP into the generator. Extensive experiments demonstrate that CGNC yields significant improvements over previous multi-target generative attacks, e.g., a 21.46\% improvement in success rate from ResNet-152 to DenseNet-121. Moreover, we propose a masked fine-tuning mechanism to further strengthen our method in attacking a single class, which surpasses existing single-target methods. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-22 |
# $d=K$の制約のない特徴モデルの幾何学的解析
Geometric Analysis of Unconstrained Feature Models with $d=K$ ( http://arxiv.org/abs/2407.10702v2 ) ライセンス: Link先を確認 | Yi Shen, Shao Gu, | (参考訳) 近年、分類タスクのためのディープニューラルネットワークのトレーニングの最終段階で、ニューラル崩壊と呼ばれる興味深い経験的現象が観察されている。
我々は、2つの人気の非制約特徴モデルが厳密なサドル関数であり、すべての臨界点は大域的最小点か、負の曲率を使って退避できる厳密なサドル点のいずれかであることを示した。
主要な発見は、前回の記事における制約のない特徴モデルに関する予想を確定的に裏付けるものである。
Recently, interesting empirical phenomena known as Neural Collapse have been observed during the final phase of training deep neural networks for classification tasks. We examine this issue when the feature dimension d is equal to the number of classes K. We demonstrate that two popular unconstrained feature models are strict saddle functions, with every critical point being either a global minimum or a strict saddle point that can be exited using negative curvatures. The primary findings conclusively confirm the conjecture on the unconstrained feature models in previous articles. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-22 |
# MSegRNN:長期連続予測のためのMambaを用いたSegRNNモデルの拡張
MSegRNN:Enhanced SegRNN Model with Mamba for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2407.10768v2 ) ライセンス: Link先を確認 | GaoXiang Zhao, XiaoQiang Wang, | (参考訳) 長期連続予測の分野は、広範囲の見返りウィンドウと長距離予測ステップを扱う要求を処理し、RNNベースの方法論に重大な課題を提起している。
これらのうち、堅牢なRNN駆動モデルであるSegRNNは、最先端のアーキテクチャを維持しながら、最先端の成果を達成するためにLTSF分析にかなりの注目を集めている。
同時に、Mamba構造は、情報選択の能力により、中小のモデルでその利点を実証している。
本研究では,微調整された単一層マンバ構造を用いて情報を前処理するSegRNNの変種を紹介する。
さらに、暗黙のセグメンテーションと残留構造をモデルエンコーディングセクションに組み込んで、RNNアーキテクチャ固有のデータ反復サイクルをさらに減らし、チャネル間相関を暗黙的に統合する。
この変種はMSegRNNと呼ばれ、Mamba構造を用いて有用な情報を選択し、変換シーケンスを生成する。
線形戦略適応微分は、性能を向上しつつ、元のSegRNNの優れたメモリ効率を保っている。
実世界のLTSFデータセットに対する実証的な評価は,本モデルの優れた性能を示し,LTSF手法の進歩に寄与する。
The field of long-term time series forecasting demands handling extensive look-back windows and long-range prediction steps, posing significant challenges for RNN-based methodologies. Among these, SegRNN, a robust RNN-driven model, has gained considerable attention in LTSF analysis for achieving state-of-the-art results while maintaining a remarkably streamlined architecture. Concurrently, the Mamba structure has demonstrated its advantages in small to medium-sized models due to its capability for information selection. This study introduces a variant of SegRNN that preprocesses information using a fine-tuned single-layer Mamba structure. Additionally, it incorporates implicit segmentation and residual structures into the model's encoding section to further reduce the inherent data iterative cycles of RNN architectures and implicitly integrate inter-channel correlations. This variant, named MSegRNN, utilizes the Mamba structure to select useful information, resulting in a transformed sequence. The linear-strategy-adapted derivative retains the superior memory efficiency of the original SegRNN while demonstrating enhanced performance. Empirical evaluations on real-world LTSF datasets demonstrate the superior performance of our model, thereby contributing to the advancement of LTSF methodologies. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-22 |
# 因果モデリングと木探索を用いたCAGE-2の最適デフェンダ戦略
Optimal Defender Strategies for CAGE-2 using Causal Modeling and Tree Search ( http://arxiv.org/abs/2407.11070v2 ) ライセンス: Link先を確認 | Kim Hammar, Neil Dhir, Rolf Stadler, | (参考訳) CAGE-2チャレンジは、自律的なサイバー防御方法を比較するための標準ベンチマークと考えられている。
このベンチマークに対して評価された現在の最先端の手法は、モデルなし(オフライン)強化学習に基づいており、証明可能な最適なディフェンダー戦略を提供していない。
本稿では,この制限に対処し,CAGE-2の形式的(因果的)モデルと,C-POMCP(Causal partially Observable Monte-Carlo Planning)と呼ばれる,実証可能な最適なディフェンダー戦略を生成する手法を提案する。
2つの重要な性質を持つ。
まず、対象システムの因果構造、すなわちシステム変数間の因果関係を組み込む。
この構造により、ディフェンダー戦略の探索空間が大幅に減少する。
第2に、木探索を通じて各ステップでディフェンダー戦略を更新するオンライン手法である。
CAGE-2ベンチマークに対する評価は、C-POMCPが有効性に関して最先端の性能を達成し、最も近い競合手法よりも計算時間で2桁効率が良いことを示している。
The CAGE-2 challenge is considered a standard benchmark to compare methods for autonomous cyber defense. Current state-of-the-art methods evaluated against this benchmark are based on model-free (offline) reinforcement learning, which does not provide provably optimal defender strategies. We address this limitation and present a formal (causal) model of CAGE-2 together with a method that produces a provably optimal defender strategy, which we call Causal Partially Observable Monte-Carlo Planning (C-POMCP). It has two key properties. First, it incorporates the causal structure of the target system, i.e., the causal relationships among the system variables. This structure allows for a significant reduction of the search space of defender strategies. Second, it is an online method that updates the defender strategy at each time step via tree search. Evaluations against the CAGE-2 benchmark show that C-POMCP achieves state-of-the-art performance with respect to effectiveness and is two orders of magnitude more efficient in computing time than the closest competitor method. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-22 |
# 医用画像におけるスペクトル解析と伝達学習の関連性を探る
Exploring connections of spectral analysis and transfer learning in medical imaging ( http://arxiv.org/abs/2407.11379v2 ) ライセンス: Link先を確認 | Yucheng Lu, Dovile Juodelyte, Jonathan D. Victor, Veronika Cheplygina, | (参考訳) 本稿では, 医用画像における周波数ショートカットに対する伝達学習とモデル感度について, スペクトル分析を用いて検討する。
予め訓練されたモデル勾配と微調整されたモデル勾配と人工的に生成された周波数ショートカットのパワースペクトル密度を解析することにより、自然画像と医用画像に事前訓練されたモデル間の学習優先度の顕著な差を観察する。
モデルの学習優先度がアーティファクトのパワースペクトル密度と一致した場合、そのアーティファクトに過度に適合する。
これらの観測から,情報源データ編集が学習のショートカットに対するモデルの抵抗を変化させることを示す。
In this paper, we use spectral analysis to investigate transfer learning and study model sensitivity to frequency shortcuts in medical imaging. By analyzing the power spectrum density of both pre-trained and fine-tuned model gradients, as well as artificially generated frequency shortcuts, we observe notable differences in learning priorities between models pre-trained on natural vs medical images, which generally persist during fine-tuning. We find that when a model's learning priority aligns with the power spectrum density of an artifact, it results in overfitting to that artifact. Based on these observations, we show that source data editing can alter the model's resistance to shortcut learning. | 翻訳日:2024-07-24 00:02:42 公開日:2024-07-22 |
# AdaptEval: テキスト要約のためのドメイン適応に基づく大規模言語モデルの評価
AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization ( http://arxiv.org/abs/2407.11591v2 ) ライセンス: Link先を確認 | Anum Afzal, Ribin Chalumattu, Florian Matthes, Laura Mascarell, | (参考訳) LLM(Large Language Models)を用いた抽象的な要約タスクの進歩にもかかわらず、異なるドメインに容易に適応できる能力を評価する研究が不足している。
各種ドメイン間の要約タスクにおいて,様々なLLMのドメイン適応能力について,微調整と文脈内学習の両方で評価する。
また、最初のドメイン適応評価スイートであるAdaptEvalも紹介する。
AdaptEvalには、ドメイン適応の分析を容易にするための、ドメインベンチマークとメトリクスのセットが含まれている。
この結果から,LLMはパラメータスケールに関係なく,文脈内学習環境において同等の性能を示すことが示された。
Despite the advances in the abstractive summarization task using Large Language Models (LLM), there is a lack of research that asses their abilities to easily adapt to different domains. We evaluate the domain adaptation abilities of a wide range of LLMs on the summarization task across various domains in both fine-tuning and in-context learning settings. We also present AdaptEval, the first domain adaptation evaluation suite. AdaptEval includes a domain benchmark and a set of metrics to facilitate the analysis of domain adaptation. Our results demonstrate that LLMs exhibit comparable performance in the in-context learning setting, regardless of their parameter scale. | 翻訳日:2024-07-24 00:02:42 公開日:2024-07-22 |
# 混合状態のUhlmann quenchと幾何学的動的量子相転移
Uhlmann quench and geometric dynamic quantum phase transition of mixed states ( http://arxiv.org/abs/2407.11809v2 ) ライセンス: Link先を確認 | Jia-Chen Tang, Xu-Yang Hou, Zheng Zhou, Hao Guo, Chih-Chun Chien, | (参考訳) 量子クエンチに続く動的量子相転移(DQPT)は、初期状態と進化状態の重なり合いの特異な挙動を示す。
ここでは、幾何位相を混合量子状態のクエンチ力学に組み込む定式化(Uhlmann quench)を提案する。
ウルマン平行輸送条件とハミルトン力学の不整合性を克服するために、密度行列に従って力学を尊重するだけでなく、ウルマン平行輸送条件に従い、量子クエンチ後に幾何位相を生成する形で密度行列の精製の進化を定式化する。
スピン1/2系で実証された巡回過程では、幾何学的DQPT(英語版)(GDQPT)は自由エネルギーの動的アナログと幾何学的位相のジャンプの両方に特異な振る舞いを伴って現れる。
さらに、ホロノミーを反映するウルマン相は各サイクルの終わりに生成される。
したがって、Uhlmann quenchは混合状態における量子力学と幾何学的過程の間の相互作用を研究するための道を開く。
Dynamic quantum phase transitions (DQPT) following quantum quenches exhibit singular behavior of the overlap between the initial and evolved states. Here we present a formalism to incorporate a geometric phase into quench dynamics of mixed quantum states, a process named the Uhlmann quench, based on the Uhlmann parallel transport. To overcome the incompatibility between the Uhlmann parallel-transport condition and Hamiltonian dynamics, we formulate the evolution of purification of the density matrix in a form which not only respects the dynamics according to the density matrix but also follows the Uhlmann parallel-transport condition to generate a geometric phase after a quantum quench. For cyclic processes exemplified by a spin-1/2 system, geometric DQPTs (GDQPTs) can emerge with both singular behavior in the dynamic analogue of the free energy and jumps of the geometric phase. Moreover, the Uhlmann phase reflecting the holonomy is generated at the end of each cycle. The Uhlmann quench thus paves the way for investigating the interplay between quantum dynamics and geometric processes in mixed states. | 翻訳日:2024-07-24 00:02:42 公開日:2024-07-22 |
# クロスドメインレコメンデーションのためのグラフ信号処理
Graph Signal Processing for Cross-Domain Recommendation ( http://arxiv.org/abs/2407.12374v2 ) ライセンス: Link先を確認 | Jeongeun Lee, Seongku Kang, Won-Yong Shin, Jeongwhan Choi, Noseong Park, Dongha Lee, | (参考訳) クロスドメインレコメンデーション(CDR)は、高密度ドメインからのユーザ-イテムインタラクションを活用して、データ空間とコールドスタート問題を緩和することにより、従来のレコメンデーションシステムを拡張する。
CDRはレコメンデーション性能を高める大きな可能性を秘めているが、既存のCDR手法の多くは、重複するユーザの比率と、ソースドメインとターゲットドメインの固有の相違に敏感である。
これらの制約を克服するため,本研究では,CDRシナリオにおけるグラフ信号処理(GSP)の適用について検討する。
GSPに基づく統一CDRフレームワークであるCGSPを提案し、ターゲットのみの類似性とソースブリッジの類似性を柔軟に組み合わせて構築されたクロスドメイン類似性グラフを利用する。
ソースドメインとターゲットドメインの両方から計算したパーソナライズされたグラフ信号を処理することにより、ドメイン間のレコメンデーションとドメイン内のレコメンデーションの両方を効果的にサポートする。
我々の経験的評価では、CGSPはドメイン内およびドメイン間レコメンデーションシナリオにおいて、特に重複ユーザの比率が低い場合において、様々なエンコーダベースのCDRアプローチを一貫して上回り、実際のアプリケーションにおいてその重要な実践的影響を浮き彫りにしている。
Cross-domain recommendation (CDR) extends conventional recommender systems by leveraging user-item interactions from dense domains to mitigate data sparsity and the cold start problem. While CDR offers substantial potential for enhancing recommendation performance, most existing CDR methods suffer from sensitivity to the ratio of overlapping users and intrinsic discrepancy between source and target domains. To overcome these limitations, in this work, we explore the application of graph signal processing (GSP) in CDR scenarios. We propose CGSP, a unified CDR framework based on GSP, which employs a cross-domain similarity graph constructed by flexibly combining target-only similarity and source-bridged similarity. By processing personalized graph signals computed for users from either the source or target domain, our framework effectively supports both inter-domain and intra-domain recommendations. Our empirical evaluation demonstrates that CGSP consistently outperforms various encoder-based CDR approaches in both intra-domain and inter-domain recommendation scenarios, especially when the ratio of overlapping users is low, highlighting its significant practical implication in real-world applications. | 翻訳日:2024-07-24 00:02:42 公開日:2024-07-22 |
# ステアリングベクトルの一般化と信頼性の解析
Analyzing the Generalization and Reliability of Steering Vectors ( http://arxiv.org/abs/2407.12404v2 ) ライセンス: Link先を確認 | Daniel Tan, David Chanin, Aengus Lynch, Dimitrios Kanoulas, Brooks Paige, Adria Garriga-Alonso, Robert Kirk, | (参考訳) ステアリングベクトル(SV)は、中間モデルアクティベーションに介入することで、推論時に言語モデルの振る舞いを効率的に調整する新しい手法である。
彼らは、能力とモデルの整合性の両方を改善するという点で、約束を示している。
しかし、このアプローチの信頼性と一般化性は不明である。
本研究では、これらの特性を厳密に研究し、ステアリングベクトルが分布内および分布外の両方に有意な制限を持つことを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
この概念によっては、スプリアスバイアスが各入力に対していかに効果的なステアリングであるかに大きく寄与し、ステアリングベクトルを広く利用する上での課題が提示される。
アウト・オブ・ディストリビューション (Out-of-distribution) では、ベクトルの操舵はよく一般化されるが、いくつかの概念ではプロンプトの合理的な変化に弱いため、うまく一般化できない。
全体としては, ステアリングは適切な状況下ではうまく機能するが, モデル動作を大規模にガイドするためにステアリングベクトルを適用することは, 技術的に困難な点が多いことが示唆された。
Steering vectors (SVs) are a new approach to efficiently adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in terms of improving both capabilities and model alignment. However, the reliability and generalisation properties of this approach are unknown. In this work, we rigorously investigate these properties, and show that steering vectors have substantial limitations both in- and out-of-distribution. In-distribution, steerability is highly variable across different inputs. Depending on the concept, spurious biases can substantially contribute to how effective steering is for each input, presenting a challenge for the widespread use of steering vectors. Out-of-distribution, while steering vectors often generalise well, for several concepts they are brittle to reasonable changes in the prompt, resulting in them failing to generalise well. Overall, our findings show that while steering can work well in the right circumstances, there remain many technical difficulties of applying steering vectors to guide models' behaviour at scale. | 翻訳日:2024-07-24 00:02:42 公開日:2024-07-22 |
# 古典的および量子ニューラルネットワークを用いた単画素画像の分類と再構成
Classification and reconstruction for single-pixel imaging with classical and quantum neural networks ( http://arxiv.org/abs/2407.12506v2 ) ライセンス: Link先を確認 | Sofya Manko, Dmitry Frolovtsev, | (参考訳) シングルピクセルカメラは、従来のCMOS/CCDカメラに課題がある可視スペクトルの外での撮像に有効なソリューションである。
機械学習と組み合わせることで、実用用途に十分な速度で画像を解析することができる。
高次元の単一ピクセル可視化の問題を量子機械学習で解くことで、現実的な問題の範囲を広げることができる。
本研究では,MNIST手書きディジットデータセットの画像をオブジェクトとして用いた,Hadamardベースパターンを用いた1画素イメージング実験をシミュレーションした。
最大ばらつき(画像中の画素数の6%)で64個の測定値が選択された。
我々は、古典的な完全連結ニューラルネットワークとパラメータ化量子回路を用いて、これらの測定に基づいて画像の分類と再構成を行うアルゴリズムを開発した。
古典的分類器と量子分類器は6つの訓練エポックの後にそれぞれ96%と95%の精度を示したが、これは非常に競合的な結果である。
画像再構成は、古典的ニューラルネットワークと量子ニューラルネットワークを用いて10の訓練後、それぞれ0.76と0.25という構造的類似度指数測定値を用いて実証された。
Single-pixel cameras are effective solution for imaging outside the visible spectrum where traditional CMOS/CCD cameras have challenges. Combined with machine learning, they can analyze images quickly enough for practical applications. Solving the problem of high-dimensional single-pixel visualization can potentially be accelerated using quantum machine learning, thereby expanding the range of practical problems. In this work we simulated a single-pixel imaging experiment using Hadamard basis patterns, where images from the MNIST handwritten digit dataset were used as objects. There were selected 64 measurements with maximum variance (6% of the number of pixels in the image). We created algorithms for classifying and reconstruction images based on these measurements using classical fully connected neural networks and parameterized quantum circuits. Classical and quantum classifiers showed accuracies of 96% and 95% respectively after 6 training epochs, which is quite competitive result. Image reconstruction was also demonstrated using classical and quantum neural networks after 10 training epochs, the structural similarity index measure values were 0.76 and 0.25, respectively, which indicates that the problem in such a formulation turned out to be too difficult for quantum neural networks in such a configuration for now. | 翻訳日:2024-07-24 00:02:42 公開日:2024-07-22 |
# TTSDS -- Text-to-Speech Distribution Score
TTSDS -- Text-to-Speech Distribution Score ( http://arxiv.org/abs/2407.12707v2 ) ライセンス: Link先を確認 | Christoph Minixhofer, Ondřej Klejch, Peter Bell, | (参考訳) 最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。
しかし、新しいアーキテクチャ、アプローチ、データセットで得られた結果を理解するために、TS評価を再考する必要がある。
本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。
提案手法は,各因子の相関を求め,その距離を実音声データセットと雑音データセットの両方から測定することにより,実音声のミラーの精度を評価する。
2008年から2024年にかけて開発された35のTTSシステムのベンチマークを行い, 評価値の非重み付き平均値として算出したスコアが, 時間ごとの人的評価と強く相関していることを示した。
Many recently published Text-to-Speech (TTS) systems produce audio close to real speech. However, TTS evaluation needs to be revisited to make sense of the results obtained with the new architectures, approaches and datasets. We propose evaluating the quality of synthetic speech as a combination of multiple factors such as prosody, speaker identity, and intelligibility. Our approach assesses how well synthetic speech mirrors real speech by obtaining correlates of each factor and measuring their distance from both real speech datasets and noise datasets. We benchmark 35 TTS systems developed between 2008 and 2024 and show that our score computed as an unweighted average of factors strongly correlates with the human evaluations from each time period. | 翻訳日:2024-07-24 00:02:42 公開日:2024-07-22 |
# CHOSEN: 効率的な視覚変換器推論のためのハードウェア最適化スタックへのコンパイル
CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference ( http://arxiv.org/abs/2407.12736v2 ) ライセンス: Link先を確認 | Mohammad Erfan Sadeghi, Arash Fayyazi, Suhas Somashekar, Massoud Pedram, | (参考訳) ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。
従来のアプローチとは異なり、ViTは自然言語処理で広く使われている自己認識機構を使って画像パッチを分析する。
ビジュアルタスクのモデリングにおける利点にもかかわらず、ハードウェアプラットフォーム、特にFPGA(Field-Programmable Gate Arrays)にViTをデプロイすることは、大きな課題をもたらす。
これらの課題は、主に非線形計算と、ViTの高計算およびメモリ要求に起因する。
本稿では,これらの課題に対処するソフトウェア・ハードウェアの共同設計フレームワークであるCHOSENを紹介する。
我々のフレームワークは,帯域幅を最大化するためのマルチカーネル設計,最小精度の劣化を示す非線形関数,FPGA上で利用可能な論理ブロックの効率的な利用,および最適スループットとレイテンシを実現するための設計空間探索のための新しいアルゴリズムを提示することにより,コンピュータカーネルの性能とメモリ効率を最大化するための効率的なコンパイラの3つの基本的コントリビューションに基づいて構築されている。
最先端のViTアクセラレータと比較して、CHOSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
Vision Transformers (ViTs) represent a groundbreaking shift in machine learning approaches to computer vision. Unlike traditional approaches, ViTs employ the self-attention mechanism, which has been widely used in natural language processing, to analyze image patches. Despite their advantages in modeling visual tasks, deploying ViTs on hardware platforms, notably Field-Programmable Gate Arrays (FPGAs), introduces considerable challenges. These challenges stem primarily from the non-linear calculations and high computational and memory demands of ViTs. This paper introduces CHOSEN, a software-hardware co-design framework to address these challenges and offer an automated framework for ViT deployment on the FPGAs in order to maximize performance. Our framework is built upon three fundamental contributions: multi-kernel design to maximize the bandwidth, mainly targeting benefits of multi DDR memory banks, approximate non-linear functions that exhibit minimal accuracy degradation, and efficient use of available logic blocks on the FPGA, and efficient compiler to maximize the performance and memory-efficiency of the computing kernels by presenting a novel algorithm for design space exploration to find optimal hardware configuration that achieves optimal throughput and latency. Compared to the state-of-the-art ViT accelerators, CHOSEN achieves a 1.5x and 1.42x improvement in the throughput on the DeiT-S and DeiT-B models. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-22 |
# 計測デバイス非依存量子トモグラフィー
Measurement-device agnostic quantum tomography ( http://arxiv.org/abs/2407.13011v2 ) ライセンス: Link先を確認 | Robert Stárek, Martin Bielak, Miroslav Ježek, | (参考訳) 量子状態と装置のキャラクタリゼーションは、量子科学と技術にとって最重要課題である。
キャラクタリゼーションは個々の測定値から成り、正確に知る必要がある。
実測値と推定値のミスマッチは、この特徴の精度を制限する。
ここでは、このようなミスマッチが量子状態トモグラフィーにおける再構成アーティファクトを導入することを示す。
これらのアーティファクトを使用して、ミスマッチを検出し、定量化し、実際の測定演算子に関する情報を得る。
これにより、量子測定と状態準備における系統的なエラーを緩和することができる。
Characterization of quantum states and devices is paramount to quantum science and technology. The characterization consists of individual measurements, which are required to be precisely known. A mismatch between actual and assumed constituent measurements limits the accuracy of this characterization. Here, we show that such a mismatch introduces reconstruction artifacts in quantum state tomography. We use these artifacts to detect and quantify the mismatch and gain information about the actual measurement operators. It consequently allows the mitigation of systematic errors in quantum measurement and state preparation. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-22 |
# DropKan: ポストアクティベーションのマスキングによるカンの正規化
DropKAN: Regularizing KANs by masking post-activations ( http://arxiv.org/abs/2407.13044v2 ) ライセンス: Link先を確認 | Mohammed Ghaith Altarabichi, | (参考訳) 本研究では,Dropout Kolmogorov-Arnold Networks(Dropout Kolmogorov-Arnold Networks)を提案する。
DropKanは、Kans計算グラフ内のポストアクティベーションの一部をランダムにマスキングし、保持されたポストアクティベーションをスケールアップする。
最小限のコーディング作業を必要とするこの単純な手順は、正規化効果を持ち、一貫してkansのより優れた一般化につながることを示す。
我々は、標準Dropout with Kansの適応を分析し、Kansのニューロンに適用されたDropoutがフィードフォワードパスにおいて予測不可能な振る舞いを引き起こすことを実証する。
実世界の機械学習データセットを用いて実証的研究を行い、その結果を検証する。
その結果,DropKANは標準のDropout with Kansよりも優れた代替手段であり,kansの一般化性能を向上させることが示唆された。
DropKANの実装は以下の通りである。
We propose DropKAN (Dropout Kolmogorov-Arnold Networks) a regularization method that prevents co-adaptation of activation function weights in Kolmogorov-Arnold Networks (KANs). DropKAN operates by randomly masking some of the post-activations within the KANs computation graph, while scaling-up the retained post-activations. We show that this simple procedure that require minimal coding effort has a regularizing effect and consistently lead to better generalization of KANs. We analyze the adaptation of the standard Dropout with KANs and demonstrate that Dropout applied to KANs' neurons can lead to unpredictable behaviour in the feedforward pass. We carry an empirical study with real world Machine Learning datasets to validate our findings. Our results suggest that DropKAN is consistently a better alternative to using standard Dropout with KANs, and improves the generalization performance of KANs. Our implementation of DropKAN is available at: \url{https://github.com/Ghaith81/dropkan}. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-22 |
# 大規模言語モデルにおける知識メカニズム:調査と展望
Knowledge Mechanisms in Large Language Models: A Survey and Perspective ( http://arxiv.org/abs/2407.15017v1 ) ライセンス: Link先を確認 | Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang, | (参考訳) 大規模言語モデル(LLM)における知識メカニズムの理解は、信頼できるAGIへ進む上で不可欠である。
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
知識利用は記憶、理解、応用、創造のメカニズムに根ざす。
知識進化は、個人およびグループLLM内の知識の動的進行に焦点を当てている。
さらに, LLMが学んだ知識, パラメトリック知識の脆弱性の理由, 対処が難しい暗黒知識(仮説)についても論じる。
この研究がLLMにおける知識の理解を助け、将来の研究に洞察を与えてくれることを願っています。
Understanding knowledge mechanisms in Large Language Models (LLMs) is crucial for advancing towards trustworthy AGI. This paper reviews knowledge mechanism analysis from a novel taxonomy including knowledge utilization and evolution. Knowledge utilization delves into the mechanism of memorization, comprehension and application, and creation. Knowledge evolution focuses on the dynamic progression of knowledge within individual and group LLMs. Moreover, we discuss what knowledge LLMs have learned, the reasons for the fragility of parametric knowledge, and the potential dark knowledge (hypothesis) that will be challenging to address. We hope this work can help understand knowledge in LLMs and provide insights for future research. | 翻訳日:2024-07-23 19:38:36 公開日:2024-07-22 |
# Combinatory Multi-Subsamplingによる予測推論のUラーニング:LASSOとニューラルネットワークへの応用
U-learning for Prediction Inference via Combinatory Multi-Subsampling: With Applications to LASSO and Neural Networks ( http://arxiv.org/abs/2407.15301v1 ) ライセンス: Link先を確認 | Zhe Fei, Yi Li, | (参考訳) エピジェネティックな老化時計は、ゲノム内の多くのCpG(Cytosine-phosphate-Guanine)部位のDNAメチル化パターンを調べることによって、個人の生物学的年齢を推定する上で重要な役割を担っている。
しかし、高次元入力から得られた予測に基づいて、予測されたエピジェネティックな年齢、あるいはより広範に、有効な推論を行うことは、課題を提起する。
本稿では,従来の漸近的手法が適用できない場合に,アンサンブル予測と信頼区間を構築するための複合的マルチサブサンプリングによる新しいUラーニング手法を提案する。
より具体的には、一般化されたU-統計学の枠組みの中でアンサンブル推定器を概念化し、予測の分散を導出し、有効な条件付きカバレッジ確率を持つ信頼区間を構築するためにH'ajek予想を導出する。
提案手法はLassoとDeep Neural Network(DNN)の2つの一般的な予測アルゴリズムに適用し,広範囲な数値研究による推論の有効性を示す。
これらの手法を用いて, 種々の健康状態の患者のDNAメチル化年齢(DNAmAge)を予測し, 老化過程を正確に把握し, 抗老化介入を誘導することを目的とした。
Epigenetic aging clocks play a pivotal role in estimating an individual's biological age through the examination of DNA methylation patterns at numerous CpG (Cytosine-phosphate-Guanine) sites within their genome. However, making valid inferences on predicted epigenetic ages, or more broadly, on predictions derived from high-dimensional inputs, presents challenges. We introduce a novel U-learning approach via combinatory multi-subsampling for making ensemble predictions and constructing confidence intervals for predictions of continuous outcomes when traditional asymptotic methods are not applicable. More specifically, our approach conceptualizes the ensemble estimators within the framework of generalized U-statistics and invokes the H\'ajek projection for deriving the variances of predictions and constructing confidence intervals with valid conditional coverage probabilities. We apply our approach to two commonly used predictive algorithms, Lasso and deep neural networks (DNNs), and illustrate the validity of inferences with extensive numerical studies. We have applied these methods to predict the DNA methylation age (DNAmAge) of patients with various health conditions, aiming to accurately characterize the aging process and potentially guide anti-aging interventions. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# 赤外線サーモグラフィによるフィーバー検出:機械学習技術による精度向上
Fever Detection with Infrared Thermography: Enhancing Accuracy through Machine Learning Techniques ( http://arxiv.org/abs/2407.15302v1 ) ライセンス: Link先を確認 | Parsa Razmara, Tina Khezresmaeilzadeh, B. Keith Jenkins, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界保健システムにおける高度な診断ツールの必要性を浮き彫りにした。
赤外線サーモグラフィー(IRT)は、体温を測定するための重要な非接触法であり、新型コロナウイルス(COVID-19)などの感染症に関連する発熱状態を特定するのに不可欠である。
従来の非接触赤外線温度計(NCIT)は、読書において大きな変動を示すことが多い。
そこで我々は,温度測定の精度と信頼性を高めるために,機械学習アルゴリズムをIRTと統合した。
本研究は, ヒューリスティックな特徴工学技術を用いて, 特徴の生理的意義と統計的意義に着目し, 様々な回帰モデルを体系的に評価した。
これらの手法を用いた畳み込みニューラルネットワーク(CNN)モデルは,0.2223の最低RMSEを達成した。
非ニューラルネットワークモデルの中で、Binning法はRMSE 0.2296で最高の性能を達成した。
我々の研究は、高度な機能工学と機械学習を組み合わせることで、診断ツールの有効性を向上し、他の非接触またはリモートセンシングバイオメディカルアプリケーションにまで拡張する可能性を強調した。
本稿では,これらの方法論を包括的に分析し,非侵襲的医療診断分野における今後の研究の基盤を提供する。
The COVID-19 pandemic has underscored the necessity for advanced diagnostic tools in global health systems. Infrared Thermography (IRT) has proven to be a crucial non-contact method for measuring body temperature, vital for identifying febrile conditions associated with infectious diseases like COVID-19. Traditional non-contact infrared thermometers (NCITs) often exhibit significant variability in readings. To address this, we integrated machine learning algorithms with IRT to enhance the accuracy and reliability of temperature measurements. Our study systematically evaluated various regression models using heuristic feature engineering techniques, focusing on features' physiological relevance and statistical significance. The Convolutional Neural Network (CNN) model, utilizing these techniques, achieved the lowest RMSE of 0.2223, demonstrating superior performance compared to results reported in previous literature. Among non-neural network models, the Binning method achieved the best performance with an RMSE of 0.2296. Our findings highlight the potential of combining advanced feature engineering with machine learning to improve diagnostic tools' effectiveness, with implications extending to other non-contact or remote sensing biomedical applications. This paper offers a comprehensive analysis of these methodologies, providing a foundation for future research in the field of non-invasive medical diagnostics. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# オンライン大規模・長期運用のための出現型ループクロージャ検出
Appearance-Based Loop Closure Detection for Online Large-Scale and Long-Term Operation ( http://arxiv.org/abs/2407.15304v1 ) ライセンス: Link先を確認 | Mathieu Labbé, François Michaud, | (参考訳) 外見に基づくローカライゼーションとマッピングでは、ループクロージャ検出(ループクロージャ検出)は、現在の観測が以前に訪れた場所や新しい場所から来ている場合、その検出に使用されるプロセスである。
内部マップのサイズが大きくなるにつれて、新しい観測をすべての保存された場所と比較するのに要する時間も増加し、最終的にはオンライン処理が制限される。
本稿では,大規模・長期運用におけるオンラインループ閉鎖検出手法を提案する。
この手法はメモリ管理手法に基づいており、ループクロージャ検出に使用される位置の数を制限し、計算時間をリアルタイムの制約下に置く。
このアイデアは、ループクロージャ検出に使用されるワーキングメモリ(WM)の最も最近で頻繁に観測される場所を保持し、他の場所を長期メモリ(LTM)に転送する、というものだ。
現在の位置とWMに格納されている位置との一致が見つかった場合、LTMに格納されている関連する位置を更新し、追加のループ閉鎖検出のために記憶することができる。
結果は、他の外見に基づくループクロージャアプローチによる10の標準データセット、大学キャンパスの2kmループで撮影された実画像を用いた1つのカスタムデータセット、レーシングビデオゲーム『Need for Speed: Most Wanted』の仮想イメージを用いた1つのカスタムデータセット(7時間)を用いて、アプローチの適応性とスケーラビリティを実証する。
In appearance-based localization and mapping, loop closure detection is the process used to determinate if the current observation comes from a previously visited location or a new one. As the size of the internal map increases, so does the time required to compare new observations with all stored locations, eventually limiting online processing. This paper presents an online loop closure detection approach for large-scale and long-term operation. The approach is based on a memory management method, which limits the number of locations used for loop closure detection so that the computation time remains under real-time constraints. The idea consists of keeping the most recent and frequently observed locations in a Working Memory (WM) used for loop closure detection, and transferring the others into a Long-Term Memory (LTM). When a match is found between the current location and one stored in WM, associated locations stored in LTM can be updated and remembered for additional loop closure detections. Results demonstrate the approach's adaptability and scalability using ten standard data sets from other appearance-based loop closure approaches, one custom data set using real images taken over a 2 km loop of our university campus, and one custom data set (7 hours) using virtual images from the racing video game ``Need for Speed: Most Wanted''. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# vTensor: 効率的なLLM実行のためのフレキシブルな仮想テンソル管理
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving ( http://arxiv.org/abs/2407.15309v1 ) ライセンス: Link先を確認 | Jiale Xu, Rui Zhang, Cong Guo, Weiming Hu, Zihan Liu, Feiyang Wu, Yu Feng, Shixuan Sun, Changxu Shao, Yuhong Guo, Junping Zhao, Ke Zhang, Minyi Guo, Jingwen Leng, | (参考訳) 大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
この需要の急増は、スループットとレイテンシを最適化し、コストを管理可能にする上で大きな課題となる。
キーバリューキャッシュ(キーバリューキャッシュ、英: Key-Value cache、英: Key-Value cache、KV)は、LLMの推論をメモリで高度に制限する手法である。
バッチ戦略はパフォーマンスを向上させることができるが、しばしばメモリの断片化につながる。
vLLMのような最先端システムは、ページドアテンション機構を使ってKVキャッシュの断片化を緩和するが、ページ管理と計算カーネルが密結合しているため、メモリと計算処理の効率が悪い。
本稿では,GPU仮想メモリ管理(VMM)に基づくLLM推論のための革新的なテンソル構造であるvTensorを紹介する。
vTensorは、メモリのデフラグメンテーションから計算を分離し、動的拡張を提供することによって、既存の制限に対処する。
我々のフレームワークはCPU-GPUヘテロジニアスなアプローチを採用し、異なるLLMアーキテクチャにまたがる様々な計算カーネルを収容しながら、効率的なフラグメンテーションのないメモリ管理を実現している。
実験結果から、vTensorは異なるモデル間で平均1.86倍のスピードアップを実現し、マルチターンチャットシナリオでは最大2.42倍の速度アップを実現している。
さらに、vTensorはカーネル評価において平均2.12xと3.15xのスピードアップを提供し、それぞれSGLang TritonプレフィックスプリフィルカーネルとvLLMページドアテンションカーネルと比較して3.92xと3.27xに達する。
さらに、vLLMと比較してNVIDIA A100 GPUで約71.25%(57GB)のメモリを解放し、より多くのメモリ集約的なワークロードを可能にしている。
Large Language Models (LLMs) are widely used across various domains, processing millions of daily requests. This surge in demand poses significant challenges in optimizing throughput and latency while keeping costs manageable. The Key-Value (KV) cache, a standard method for retaining previous computations, makes LLM inference highly bounded by memory. While batching strategies can enhance performance, they frequently lead to significant memory fragmentation. Even though cutting-edge systems like vLLM mitigate KV cache fragmentation using paged Attention mechanisms, they still suffer from inefficient memory and computational operations due to the tightly coupled page management and computation kernels. This study introduces the vTensor, an innovative tensor structure for LLM inference based on GPU virtual memory management (VMM). vTensor addresses existing limitations by decoupling computation from memory defragmentation and offering dynamic extensibility. Our framework employs a CPU-GPU heterogeneous approach, ensuring efficient, fragmentation-free memory management while accommodating various computation kernels across different LLM architectures. Experimental results indicate that vTensor achieves an average speedup of 1.86x across different models, with up to 2.42x in multi-turn chat scenarios. Additionally, vTensor provides average speedups of 2.12x and 3.15x in kernel evaluation, reaching up to 3.92x and 3.27x compared to SGLang Triton prefix-prefilling kernels and vLLM paged Attention kernel, respectively. Furthermore, it frees approximately 71.25% (57GB) of memory on the NVIDIA A100 GPU compared to vLLM, enabling more memory-intensive workloads. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# FMDNN: 病理画像分類のためのファジィ誘導多粒ディープニューラルネットワーク
FMDNN: A Fuzzy-guided Multi-granular Deep Neural Network for Histopathological Image Classification ( http://arxiv.org/abs/2407.15312v1 ) ライセンス: Link先を確認 | Weiping Ding, Tianyi Zhou, Jiashuang Huang, Shu Jiang, Tao Hou, Chin-Teng Lin, | (参考訳) 病理組織像分類はコンピュータ支援診断において重要な課題である。
病理組織像の正確な同定と分類は早期疾患の検出と治療において最重要事項である。
病理学者の診断過程では、通常、異なる倍率で細胞領域の異常を評価するために多層的アプローチが用いられる。
しかしながら、機能抽出は、細胞の多粒性特性を見越して、単一の粒度で実行されることが多い。
この問題に対処するために,ファジィ誘導多粒性深層ニューラルネットワーク(FMDNN)を提案する。
病理医の多粒性診断アプローチにインスパイアされた我々は, 粗い, 媒体, 微粒度の細胞構造の特徴抽出を行い, 病理組織像の情報を十分に活用することができる。
ファジィ論理理論を組み込んで,多粒度特徴抽出の際に生じる冗長鍵情報の課題に対処する。
セルの特徴は、複数のファジィメンバーシップ関数を用いて異なる視点から記述される。
ファジィ誘導型クロスアテンションモジュールは、普遍的なファジィ特徴を多粒性特徴へ導く。
我々は、これらの機能をエンコーダを通じて全てのパッチトークンに伝達し、高度な分類精度とロバスト性を達成することを目的としている。
複数の公開データセットを用いた実験では,病理組織学的画像分類において一般的に用いられている分類法よりも精度が大幅に向上し,解釈可能性も向上した。
Histopathological image classification constitutes a pivotal task in computer-aided diagnostics. The precise identification and categorization of histopathological images are of paramount significance for early disease detection and treatment. In the diagnostic process of pathologists, a multi-tiered approach is typically employed to assess abnormalities in cell regions at different magnifications. However, feature extraction is often performed at a single granularity, overlooking the multi-granular characteristics of cells. To address this issue, we propose the Fuzzy-guided Multi-granularity Deep Neural Network (FMDNN). Inspired by the multi-granular diagnostic approach of pathologists, we perform feature extraction on cell structures at coarse, medium, and fine granularity, enabling the model to fully harness the information in histopathological images. We incorporate the theory of fuzzy logic to address the challenge of redundant key information arising during multi-granular feature extraction. Cell features are described from different perspectives using multiple fuzzy membership functions, which are fused to create universal fuzzy features. A fuzzy-guided cross-attention module guides universal fuzzy features toward multi-granular features. We propagate these features through an encoder to all patch tokens, aiming to achieve enhanced classification accuracy and robustness. In experiments on multiple public datasets, our model exhibits a significant improvement in accuracy over commonly used classification methods for histopathological image classification and shows commendable interpretability. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# Open-CD: 変更検出のための総合ツールボックス
Open-CD: A Comprehensive Toolbox for Change Detection ( http://arxiv.org/abs/2407.15317v1 ) ライセンス: Link先を確認 | Kaiyu Li, Jiawei Jiang, Andrea Codegoni, Chengxi Han, Yupeng Deng, Keyan Chen, Zhuo Zheng, Hao Chen, Zhengxia Zou, Zhenwei Shi, Sheng Fang, Deyu Meng, Zhi Wang, Xiangyong Cao, | (参考訳) 変更検出方法の豊富なセットと関連するコンポーネントとモジュールを含む変更検出ツールボックスであるOpen-CDを提案する。
このツールボックスは、OpenMMLab Toolkits、PyTorch Image Modelsなど、一連のオープンソースの一般的なビジョンタスクツールから始まった。
徐々に、多くの一般的な変更検出方法や同時代のモジュールをカバーする統一されたプラットフォームへと進化していく。
トレーニングや推論コードだけでなく、データ分析に有用なスクリプトも提供しています。
このツールボックスは、最も完全な変更検出ツールボックスであると考えています。
本稿では,Open-CDの様々な機能,サポート方法,応用について紹介する。
さらに、異なる方法やコンポーネントのベンチマーク調査も行います。
ツールボックスとベンチマークは、既存のメソッドを再実装し、独自の変更検出器を開発する柔軟なツールキットを提供することで、成長する研究コミュニティに役立ちたいと考えています。
コードとモデルは \url{https://github.com/likyoo/open-cd} で公開されている。
興味深いことに、このレポートにはOpen-CDでサポートされているアルゴリズムの簡単な説明も含まれている。
私たちはこの分野の研究者に対して、このプロジェクトに参加し、よりオープンなコミュニティを作るために協力することを強く勧めています。
このツールキットとレポートは更新されます。
We present Open-CD, a change detection toolbox that contains a rich set of change detection methods as well as related components and modules. The toolbox started from a series of open source general vision task tools, including OpenMMLab Toolkits, PyTorch Image Models, etc. It gradually evolves into a unified platform that covers many popular change detection methods and contemporary modules. It not only includes training and inference codes, but also provides some useful scripts for data analysis. We believe this toolbox is by far the most complete change detection toolbox. In this report, we introduce the various features, supported methods and applications of Open-CD. In addition, we also conduct a benchmarking study on different methods and components. We wish that the toolbox and benchmark could serve the growing research community by providing a flexible toolkit to reimplement existing methods and develop their own new change detectors. Code and models are available at \url{https://github.com/likyoo/open-cd}. Pioneeringly, this report also includes brief descriptions of the algorithms supported in Open-CD, mainly contributed by their authors. We sincerely encourage researchers in this field to participate in this project and work together to create a more open community. This toolkit and report will be kept updated. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# 階層的均一性に基づくスーパーピクセルセグメンテーション:ハイパースペクトル画像解析への応用
Hierarchical Homogeneity-Based Superpixel Segmentation: Application to Hyperspectral Image Analysis ( http://arxiv.org/abs/2407.15321v1 ) ライセンス: Link先を確認 | Luciano Carvalho Ayres, Sérgio José Melo de Almeida, José Carlos Moreira Bermudez, Ricardo Augusto Borsoi, | (参考訳) ハイパースペクトル画像(HI)解析のアプローチは、最近ますます複雑で洗練されたものになりつつある。
近年,スペクトル空間情報とスーパーピクセル技術の組み合わせにより,スペクトルシグネチャの高空間変動やデータの次元性といった超スペクトルデータ問題に対処している。
しかし、既存のほとんどのスーパーピクセルアプローチは、その高スペクトル次元から生じる特定のHI特性を考慮に入れていない。
本研究では,ハイパースペクトルデータの処理に有効なマルチスケールスーパーピクセル法を提案する。
この手法をベースとしたSimple Linear Iterative Clustering (SLIC) oversegmentationアルゴリズムは階層的に拡張されている。
新たなロバストなホモジニティテストを用いて、提案された階層的アプローチは、古典的なSLICセグメンテーションと比較すると、可変サイズの超ピクセルをもたらすが、スペクトルのホモジニティが高い。
提案手法は,Multiscale sparse Unmixing Algorithm (MUA) と CNN-Enhanced Graph Convolutional Network (CEGCN) 法を用いて,スペクトルアンミックスと分類作業の事前処理ステップとして適用された。
合成データと実データの両方によるシミュレーションの結果、この技術は最先端のソリューションと競合することを示している。
Hyperspectral image (HI) analysis approaches have recently become increasingly complex and sophisticated. Recently, the combination of spectral-spatial information and superpixel techniques have addressed some hyperspectral data issues, such as the higher spatial variability of spectral signatures and dimensionality of the data. However, most existing superpixel approaches do not account for specific HI characteristics resulting from its high spectral dimension. In this work, we propose a multiscale superpixel method that is computationally efficient for processing hyperspectral data. The Simple Linear Iterative Clustering (SLIC) oversegmentation algorithm, on which the technique is based, has been extended hierarchically. Using a novel robust homogeneity testing, the proposed hierarchical approach leads to superpixels of variable sizes but with higher spectral homogeneity when compared to the classical SLIC segmentation. For validation, the proposed homogeneity-based hierarchical method was applied as a preprocessing step in the spectral unmixing and classification tasks carried out using, respectively, the Multiscale sparse Unmixing Algorithm (MUA) and the CNN-Enhanced Graph Convolutional Network (CEGCN) methods. Simulation results with both synthetic and real data show that the technique is competitive with state-of-the-art solutions. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# Odyssey: オープンワールドスキルを備えたエージェント
Odyssey: Empowering Agents with Open-World Skills ( http://arxiv.org/abs/2407.15325v1 ) ライセンス: Link先を確認 | Shunyu Liu, Yaoru Li, Kongcheng Zhang, Zhenyu Cui, Wenkai Fang, Yuxuan Zheng, Tongya Zheng, Mingli Song, | (参考訳) 近年の研究では、Minecraftのようなオープンワールドな環境のためのジェネラリストエージェントの構築が進められている。
有望な結果にもかかわらず、既存の取り組みは主に、Minecraftのテクツリーに続くマテリアルコレクションやツールクラフトといった基本的なプログラムタスクの解決に重点を置いており、ObtainDiamondタスクを究極のゴールとして扱う。
この制限は、エージェントが利用可能な狭義のアクションセットに起因し、スクラッチから効果的なロングホライゾン戦略を学ぶ必要がある。
その結果,オープンワールドにおける多様なゲームプレイ機会の発見が困難になる。
本研究では,大規模言語モデル(LLM)をベースとしたエージェントにオープンワールドのスキルを付与し,Minecraftの世界を探索する新しいフレームワークODYSSEYを紹介する。
ODYSSEYは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェントである。
2) Minecraft Wikiから390k以上のインストラクションを抽出した大規模質問応答データセット上で学習した微調整LLaMA-3モデルについて検討した。
(3)新しいオープンワールドベンチマークには、数千の長期計画タスク、数十の動的即時計画タスク、そして1つの自律的な探索タスクが含まれている。
大規模実験により,提案するODYSSEYフレームワークはエージェントの計画と探索能力を効果的に評価できることが示された。
すべてのデータセット、モデルウェイト、コードは公開されており、より高度な自律エージェントソリューションに関する将来の研究を動機付けている。
Recent studies have delved into constructing generalist agents for open-world embodied environments like Minecraft. Despite the encouraging results, existing efforts mainly focus on solving basic programmatic tasks, e.g., material collection and tool-crafting following the Minecraft tech-tree, treating the ObtainDiamond task as the ultimate goal. This limitation stems from the narrowly defined set of actions available to agents, requiring them to learn effective long-horizon strategies from scratch. Consequently, discovering diverse gameplay opportunities in the open world becomes challenging. In this work, we introduce ODYSSEY, a new framework that empowers Large Language Model (LLM)-based agents with open-world skills to explore the vast Minecraft world. ODYSSEY comprises three key parts: (1) An interactive agent with an open-world skill library that consists of 40 primitive skills and 183 compositional skills. (2) A fine-tuned LLaMA-3 model trained on a large question-answering dataset with 390k+ instruction entries derived from the Minecraft Wiki. (3) A new open-world benchmark includes thousands of long-term planning tasks, tens of dynamic-immediate planning tasks, and one autonomous exploration task. Extensive experiments demonstrate that the proposed ODYSSEY framework can effectively evaluate the planning and exploration capabilities of agents. All datasets, model weights, and code are publicly available to motivate future research on more advanced autonomous agent solutions. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# 拡散モデルにおける記憶の緩和のための反勾配制御による反復的アンサンブル訓練
Iterative Ensemble Training with Anti-Gradient Control for Mitigating Memorization in Diffusion Models ( http://arxiv.org/abs/2407.15328v1 ) ライセンス: Link先を確認 | Xiao Liu, Xiaoliu Guan, Yu Wu, Jiaxu Miao, | (参考訳) 拡散モデルは、新鮮で高品質なサンプルを生成する能力で知られており、最近、データ記憶の振る舞いがプライバシーのリスクを引き起こすという懸念を提起している。
最近のメモリ緩和手法は、クロスモーダル生成タスクにおけるテキストモダリティ問題にのみ焦点をあてるか、あるいはデータ拡張戦略を利用するかのどちらかである。
本稿では,視覚的モダリティの観点からの拡散モデルのための新しいトレーニングフレームワークを提案する。
拡散モデルパラメータに格納された情報の ‘forgetting’ を容易にするため,複数のモデルをトレーニングするためにデータを複数のシャードに分割し,それらのモデルパラメータを断続的に集約することで,反復的なアンサンブルトレーニング戦略を提案する。
さらに, 記憶し易い画像に対するトレーニング損失が明らかに低い傾向にあることを示す。
そこで本研究では,従来のミニバッチから損失値の低いサンプルを排除し,メモリ化を回避するための逆勾配制御手法を提案する。
提案手法の有効性を示すために, <crnote{four} データセットの大規模な実験と解析を行い, 本手法は性能をわずかに改善しながら, メモリ容量の削減に成功していることを示す。
さらに, 計算コストの削減を図るため, 十分に訓練された拡散モデルを限られたエポックで微調整し, 本手法の適用性を実証した。
コードはhttps://github.com/liuxiao-guan/IET_AGCで入手できる。
Diffusion models, known for their tremendous ability to generate novel and high-quality samples, have recently raised concerns due to their data memorization behavior, which poses privacy risks. Recent approaches for memory mitigation either only focused on the text modality problem in cross-modal generation tasks or utilized data augmentation strategies. In this paper, we propose a novel training framework for diffusion models from the perspective of visual modality, which is more generic and fundamental for mitigating memorization. To facilitate ``forgetting'' of stored information in diffusion model parameters, we propose an iterative ensemble training strategy by splitting the data into multiple shards for training multiple models and intermittently aggregating these model parameters. Moreover, practical analysis of losses illustrates that the training loss for easily memorable images tends to be obviously lower. Thus, we propose an anti-gradient control method to exclude the sample with a lower loss value from the current mini-batch to avoid memorizing. Extensive experiments and analysis on \crnote{four} datasets are conducted to illustrate the effectiveness of our method, and results show that our method successfully reduces memory capacity while even improving the performance slightly. Moreover, to save the computing cost, we successfully apply our method to fine-tune the well-trained diffusion models by limited epochs, demonstrating the applicability of our method. Code is available in https://github.com/liuxiao-guan/IET_AGC. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# 光電界画像超解像のための高効率多変圧器
Efficient Multi-disparity Transformer for Light Field Image Super-resolution ( http://arxiv.org/abs/2407.15329v1 ) ライセンス: Link先を確認 | Zeke Zexi Hu, Haodong Chen, Yuk Ying Chung, Xiaoming Chen, | (参考訳) 本稿では,光フィールド画像の超解像(LFSR)に適した新しい変換器であるMulti-scale Disparity Transformer(MDT)を提案する。
MDTは多分岐構造を特徴とし、各ブランチは個別の分散性自己注意(DSA)を利用して特定の格差範囲をターゲットにし、計算複雑性を効果的に減らし、不一致を解消する。
このアーキテクチャに基づいて,効率的なLFSRネットワークLF-MDTNetを提案する。
実験の結果,LF-MDTNetは2xスケールと4xスケールで0.37dB,0.41dBPSNRの既存手法よりも優れ,パラメータが少なく,高速で優れた性能を実現していることがわかった。
This paper presents the Multi-scale Disparity Transformer (MDT), a novel Transformer tailored for light field image super-resolution (LFSR) that addresses the issues of computational redundancy and disparity entanglement caused by the indiscriminate processing of sub-aperture images inherent in conventional methods. MDT features a multi-branch structure, with each branch utilising independent disparity self-attention (DSA) to target specific disparity ranges, effectively reducing computational complexity and disentangling disparities. Building on this architecture, we present LF-MDTNet, an efficient LFSR network. Experimental results demonstrate that LF-MDTNet outperforms existing state-of-the-art methods by 0.37 dB and 0.41 dB PSNR at the 2x and 4x scales, achieving superior performance with fewer parameters and higher speed. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# 異常量子相転移を伴う焼入れ拡張Su-Schrieffer-Heegerモデルの絡み合い
Entanglement in quenched extended Su-Schrieffer-Heeger model with anomalous dynamical quantum phase transitions ( http://arxiv.org/abs/2407.15331v1 ) ライセンス: Link先を確認 | Cheuk Yiu Wong, Tsz Hin Hui, P. D. Sacramento, Wing Chi Yu, | (参考訳) トポロジカルモデルの研究は、特に動的量子相転移(DQPT)の領域において、魅力的な物理学を明らかにしている。
しかし、長距離ホッピングを持つモデルにおけるDQPT近傍の絡み合い構造と性質の理解は、完全には程遠い。
本研究では, 焼入れ型拡張Su-Schrieffer-Heeger(SSH)モデルにおけるDQPTについて検討する。
臨界モータの数が前焼成相と後焼成相の巻成数差を超える異常DQPTが観察される。
アンタングルメントは, 相関行列スペクトルの中央付近の水平交差(セパレーション)に沿って, 異常DQPTの周囲の局所的な最大値(最小値)を示す。
さらに、平衡モデルの位相を2つのクラスに分類し、この2つのクラス内のクエンチを含む絡み合いの時間的進化の特徴的な特徴を同定する。
この発見は、非平衡状態における長距離ホッピングを伴うトポロジカルモデルをよりよく理解するための道を開いた。
Research on topological models unveils fascinating physics, especially in the realm of dynamical quantum phase transitions (DQPTs). However, the understanding of entanglement structures and properties near DQPT in models with longer-range hoppings is far from complete. In this work, we study DQPTs in the quenched extended Su-Schrieffer-Heeger (SSH) model. Anomalous DQPTs, where the number of critical momenta exceeds the winding number differences between the pre-quench and post-quench phases, are observed. We find that the entanglement exhibits local maximum (minimum) around the anomalous DQPTs, in line with the level crossings (separations) around the middle of the correlation matrix spectrum. We further categorize the phases in the equilibrium model into two classes and distinctive features in the time evolution of the entanglement involving quenches within and across the two classes are identified. The findings pave the way to a better understanding of topological models with longer-range hoppings in the out-of-equilibrium regime. | 翻訳日:2024-07-23 16:30:24 公開日:2024-07-22 |
# 購入確率の不確実性を考慮したロバストパーソナライズされた価格設定
Robust personalized pricing under uncertainty of purchase probabilities ( http://arxiv.org/abs/2407.15332v1 ) ライセンス: Link先を確認 | Shunnosuke Ikeda, Naoki Nishimura, Noriyoshi Sukegawa, Yuichi Takano, | (参考訳) 本稿では,1項目の収益や利益を最大化することを目的とした,パーソナライズされた価格モデルについて検討する。
消費者ごとの購入確率を予測するためにパーソナライズされた価格設定が不可欠であるが、これらの予測値は本来、実現された収益と利益に悪影響を及ぼすような避けられない誤りを被っている。
この問題に対処するため,不確実性のある最適化問題に対して,信頼性の高い解が得られるようなロバストな最適化手法に着目する。
具体的には、予測された購入確率の不確実性を考慮したパーソナライズ価格のロバストな最適化モデルを提案する。
このモデルは混合整数線形最適化問題として定式化することができ、数学的最適化問題を正確に解くことができる。
また、線形探索と組み合わせたラグランジアン分解アルゴリズムを開発し、大規模最適化問題に対する高品質な解を効率的に見つける。
実験により、ロバスト最適化モデルの有効性を示し、計算効率と解品質の両方の観点からラグランジュ分解アルゴリズムの有用性を強調した。
This paper is concerned with personalized pricing models aimed at maximizing the expected revenues or profits for a single item. While it is essential for personalized pricing to predict the purchase probabilities for each consumer, these predicted values are inherently subject to unavoidable errors that can negatively impact the realized revenues and profits. To address this issue, we focus on robust optimization techniques that yield reliable solutions to optimization problems under uncertainty. Specifically, we propose a robust optimization model for personalized pricing that accounts for the uncertainty of predicted purchase probabilities. This model can be formulated as a mixed-integer linear optimization problem, which can be solved exactly using mathematical optimization solvers. We also develop a Lagrangian decomposition algorithm combined with line search to efficiently find high-quality solutions for large-scale optimization problems. Experimental results demonstrate the effectiveness of our robust optimization model and highlight the utility of our Lagrangian decomposition algorithm in terms of both computational efficiency and solution quality. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# 境界を超えて:周期量子系に対する効率的な射影絡み合ったペア状態法
Beyond Boundaries: efficient Projected Entangled Pair States methods for periodic quantum systems ( http://arxiv.org/abs/2407.15333v1 ) ライセンス: Link先を確認 | Shaojun Dong, Chao Wang, Hao Zhang, Meng Zhang, Lixin He, | (参考訳) 射影絡み合ったペア状態(PEPS)は、二次元量子多体系を探索するための強力なツールとして認識されている。
しかし、従来のPEPS手法を周期境界条件(PBC)を持つシステムに適用する際には、結合次元による計算の禁止による大きな課題が生じる。
これは、複雑な境界条件を持つ系の研究を特に制限している。
この課題に対処するために,PEPSとオープンバウンダリ条件(OBC)を重畳してPBCでシステムを扱う戦略を開発した。
このアプローチは、それらの変換不変性とPBCを維持しながら、そのようなシステムの計算複雑性を著しく低減する。
我々は,ハイゼンベルクモデルと$J_1$-$J_2$モデルに対して,計算コストの低い大規模システムでも高精度な結果が得られることを示す。
これらの手法は円筒状およびねじれた境界条件を含む他の境界条件に適応し、PEPSアプローチの適用範囲を大きく拡大し、多くの応用に新たな光を当てる。
Projected Entangled Pair States (PEPS) are recognized as a potent tool for exploring two-dimensional quantum many-body systems. However, a significant challenge emerges when applying conventional PEPS methodologies to systems with periodic boundary conditions (PBC), attributed to the prohibitive computational scaling with the bond dimension. This has notably restricted the study of systems with complex boundary conditions. To address this challenge, we have developed a strategy that involves the superposition of PEPS with open boundary conditions (OBC) to treat systems with PBC. This approach significantly reduces the computational complexity of such systems while maintaining their translational invariance and the PBC. We benchmark this method against the Heisenberg model and the $J_1$-$J_2$ model, demonstrating its capability to yield highly accurate results at low computational costs, even for large system sizes. The techniques are adaptable to other boundary conditions, including cylindrical and twisted boundary conditions, and therefore significantly expands the application scope of the PEPS approach, shining new light on numerous applications. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# 3次元物体検出のためのLiDAR-Camera Dynamic Adjustment Fusionの探索
Explore the LiDAR-Camera Dynamic Adjustment Fusion for 3D Object Detection ( http://arxiv.org/abs/2407.15334v1 ) ライセンス: Link先を確認 | Yiran Yang, Xu Gao, Tong Wang, Xin Hao, Yifeng Shi, Xiao Tan, Xiaoqing Ye, Jingdong Wang, | (参考訳) カメラとLiDARは、正確で堅牢な自動運転システムの情報センサーとして機能する。
しかし、これらのセンサーは、しばしば異質な性質を示し、結果として分布のモダリティギャップが生じ、融合に重大な課題が生じる。
そのためには、特に3Dオブジェクト検出の強化のために、堅牢な融合技術が不可欠である。
本稿では,モーダル分布の整合化と,融合プロセスの強化を目的とした効果的なモーダル表現の学習を目的とした動的調整技術を提案する。
具体的には,三相整列モジュールを提案する。
このモジュールは、カメラとLiDARの両方の機能分布を調整し、それらを地上の真理領域に近づけ、違いを最小限にする。
さらに,モーダル相互作用と特殊性向上を含む動的融合の表現獲得手法の改善について検討する。
最後に、動的インスタンス最適化のためにセマンティクスと幾何学情報をマージする適応学習手法を提案する。
nuScenesデータセットの大規模な実験は、最先端のアプローチと競合する性能を示す。
私たちのコードは将来リリースされるでしょう。
Camera and LiDAR serve as informative sensors for accurate and robust autonomous driving systems. However, these sensors often exhibit heterogeneous natures, resulting in distributional modality gaps that present significant challenges for fusion. To address this, a robust fusion technique is crucial, particularly for enhancing 3D object detection. In this paper, we introduce a dynamic adjustment technology aimed at aligning modal distributions and learning effective modality representations to enhance the fusion process. Specifically, we propose a triphase domain aligning module. This module adjusts the feature distributions from both the camera and LiDAR, bringing them closer to the ground truth domain and minimizing differences. Additionally, we explore improved representation acquisition methods for dynamic fusion, which includes modal interaction and specialty enhancement. Finally, an adaptive learning technique that merges the semantics and geometry information for dynamical instance optimization. Extensive experiments in the nuScenes dataset present competitive performance with state-of-the-art approaches. Our code will be released in the future. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# ThermalNeRF:熱放射場
ThermalNeRF: Thermal Radiance Fields ( http://arxiv.org/abs/2407.15337v1 ) ライセンス: Link先を確認 | Yvette Y. Lin, Xin-Yi Pan, Sara Fridovich-Keil, Gordon Wetzstein, | (参考訳) 熱イメージングには、農業の監視から建築検査、低照度、霧、雨などの視認性に乏しい撮影まで、様々な応用がある。
しかし,3次元のサーマルシーンの再構成は,比較的解像度が低く,長波長赤外(LWIR)画像に現れる特徴が限られているため,いくつかの課題が生じる。
これらの課題を克服するために,LWIRとRGB画像の集合からのシーン再構成のための統一フレームワークを提案する。
簡単なキャリブレーションターゲットを用いた前処理ステップとして,RGBと赤外線カメラを相互に校正する。
携帯型サーマルカメラから撮影した実世界のRGBおよびLWIR写真に対して,本手法の有効性を実証し,可視・赤外線スペクトルのシーン表現における本手法の有効性を示した。
提案手法は,RGBや熱チャネルに隠された物体を視覚的に除去するだけでなく,超高分解能な熱分解能を有することを示す。
ビデオ結果とコードとデータセットのリリースについては、https://yvette256.github.io/thermalnerfをご覧ください。
Thermal imaging has a variety of applications, from agricultural monitoring to building inspection to imaging under poor visibility, such as in low light, fog, and rain. However, reconstructing thermal scenes in 3D presents several challenges due to the comparatively lower resolution and limited features present in long-wave infrared (LWIR) images. To overcome these challenges, we propose a unified framework for scene reconstruction from a set of LWIR and RGB images, using a multispectral radiance field to represent a scene viewed by both visible and infrared cameras, thus leveraging information across both spectra. We calibrate the RGB and infrared cameras with respect to each other, as a preprocessing step using a simple calibration target. We demonstrate our method on real-world sets of RGB and LWIR photographs captured from a handheld thermal camera, showing the effectiveness of our method at scene representation across the visible and infrared spectra. We show that our method is capable of thermal super-resolution, as well as visually removing obstacles to reveal objects that are occluded in either the RGB or thermal channels. Please see https://yvette256.github.io/thermalnerf for video results as well as our code and dataset release. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# エコノミストのためのディープラーニング
Deep Learning for Economists ( http://arxiv.org/abs/2407.15339v1 ) ライセンス: Link先を確認 | Melissa Dell, | (参考訳) ディープラーニングは、大規模で非構造化のテキストや画像データセットから構造化情報をインプットする強力な方法を提供する。
例えば、経済学者は、衛星画像における経済活動の存在を検知したり、ソーシャルメディア、議会記録、ファーム・ファイリングで言及されているトピックや実体を計測したいかもしれない。
このレビューでは、分類器、回帰モデル、生成AI、埋め込みモデルなど、ディープニューラルネットワークについて紹介する。
アプリケーションには、分類、文書のデジタル化、レコードリンク、大規模テキストと画像コーパスのデータ探索方法が含まれる。
適切な方法を使用する場合、ディープラーニングモデルはチューニングが安く、数百万から数十億のデータポイントに関わる問題に十分対応できる。
と。
レビューには、ユーザフレンドリーなデモノート、ソフトウェアリソース、技術的な詳細と追加のアプリケーションを提供するナレッジベースを備えたWebサイトであるEconDLが付属している。
Deep learning provides powerful methods to impute structured information from large-scale, unstructured text and image datasets. For example, economists might wish to detect the presence of economic activity in satellite images, or to measure the topics or entities mentioned in social media, the congressional record, or firm filings. This review introduces deep neural networks, covering methods such as classifiers, regression models, generative AI, and embedding models. Applications include classification, document digitization, record linkage, and methods for data exploration in massive scale text and image corpora. When suitable methods are used, deep learning models can be cheap to tune and can scale affordably to problems involving millions or billions of data points.. The review is accompanied by a companion website, EconDL, with user-friendly demo notebooks, software resources, and a knowledge base that provides technical details and additional applications. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# センサ機能データのためのランダムサバイバルフォレスト
Random Survival Forest for Censored Functional Data ( http://arxiv.org/abs/2407.15340v1 ) ライセンス: Link先を確認 | Elvira Romano, Giuseppe Loffredo, Fabrizio Maturo, | (参考訳) 本稿では,機能データに対するランダム生存林(RSF)手法を提案する。
特に、研究の制限や不完全なデータ収集のために検閲された時間的観察を扱うための、新しい機能的データ構造であるCFD(Censored Functional Data)の定義に焦点を当てている。
このアプローチにより、機能的生存軌道の正確なモデリングが可能となり、異なるグループ間での生存動態の解釈と予測が改善される。
ベンチマークSOFAデータセットに関する医学的サバイバル研究について述べる。
結果は,SOFAスコアと患者死亡率の動的変化から得られた変数の予測の重要性のランキングにおいて,提案手法の優れた性能を示す。
This paper introduces a Random Survival Forest (RSF) method for functional data. The focus is specifically on defining a new functional data structure, the Censored Functional Data (CFD), for dealing with temporal observations that are censored due to study limitations or incomplete data collection. This approach allows for precise modelling of functional survival trajectories, leading to improved interpretation and prediction of survival dynamics across different groups. A medical survival study on the benchmark SOFA data set is presented. Results show good performance of the proposed approach, particularly in ranking the importance of predicting variables, as captured through dynamic changes in SOFA scores and patient mortality rates. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# SIGHAN-2024 dimABSA タスクにおけるZzu-NLP:粗大なインコンテキスト学習を用いたアスペクトベース知覚分析
ZZU-NLP at SIGHAN-2024 dimABSA Task: Aspect-Based Sentiment Analysis with Coarse-to-Fine In-context Learning ( http://arxiv.org/abs/2407.15341v1 ) ライセンス: Link先を確認 | Senbin Zhu, Hanjie Zhao, Xingren Wang, Shanhong Liu, Yuxiang Jia, Hongying Zan, | (参考訳) DimABSAタスクは、各アスペクトタームのValenceとArousalディメンションのスコアを含む、レストランレビューの微妙な感情強度予測を必要とする。
本研究では,SIGHAN 2024ワークショップにおけるDimABSAタスクに対するBaichuan2-7Bモデルに基づくCFICL(Coarse-to-Fine In-context Learning)手法を提案する。
提案手法は,2段階最適化プロセスにより予測精度を向上させる。
最初の段階では、固定したインコンテキストの例を使い、テンプレートをプロンプトしてモデルの感情認識能力を高め、テストデータに対する初期予測を行う。
第2段階では、BERTを用いてオピニオンフィールドを符号化し、類似性に基づいた新しいインコンテキストの例として、最も類似したトレーニングデータを選択する。
これらの例には、オピニオンフィールドとそのスコア、関連する意見語とその平均スコアが含まれる。
感情の極性をフィルタリングすることで、例がテストデータと一致していることを保証する。
提案手法は,トレーニングデータを有効に活用し,実験結果から検証した文脈内サンプルを最適化することにより,予測精度と一貫性を著しく向上する。
The DimABSA task requires fine-grained sentiment intensity prediction for restaurant reviews, including scores for Valence and Arousal dimensions for each Aspect Term. In this study, we propose a Coarse-to-Fine In-context Learning(CFICL) method based on the Baichuan2-7B model for the DimABSA task in the SIGHAN 2024 workshop. Our method improves prediction accuracy through a two-stage optimization process. In the first stage, we use fixed in-context examples and prompt templates to enhance the model's sentiment recognition capability and provide initial predictions for the test data. In the second stage, we encode the Opinion field using BERT and select the most similar training data as new in-context examples based on similarity. These examples include the Opinion field and its scores, as well as related opinion words and their average scores. By filtering for sentiment polarity, we ensure that the examples are consistent with the test data. Our method significantly improves prediction accuracy and consistency by effectively utilizing training data and optimizing in-context examples, as validated by experimental results. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# マルチプロンプトによる最小ベイズリスクデコーディングの改善
Improving Minimum Bayes Risk Decoding with Multi-Prompt ( http://arxiv.org/abs/2407.15343v1 ) ライセンス: Link先を確認 | David Heineman, Yao Dou, Wei Xu, | (参考訳) 命令の微調整 LLM は有効なテキストジェネレータである一方、迅速な構築に対する感度は性能を不安定にし、実際は準最適である。
一つの"ベスト"プロンプトをリライジングすることは、生成問題に対するすべての異なるアプローチを捉えることはできない。
そこで本研究では,提案するマルチプロンプト復号法を提案する。
候補をアンサンブルするために、最小ベイズリスク(MBR)デコーディングを使用し、トレーニングされた値メトリックを使用して最終的な出力を選択する。
条件生成タスクの包括的集合におけるマルチプロンプト改善を示すとともに、これは単一のプロンプトよりも多様で高品質な候補空間を推定した結果であることを示す。
さらに、マルチプロンプトはタスク、モデル、メトリクスをまたいだ生成を改善する。
While instruction fine-tuned LLMs are effective text generators, sensitivity to prompt construction makes performance unstable and sub-optimal in practice. Relying on a single "best" prompt cannot capture all differing approaches to a generation problem. Using this observation, we propose multi-prompt decoding, where many candidate generations are decoded from a prompt bank at inference-time. To ensemble candidates, we use Minimum Bayes Risk (MBR) decoding, which selects a final output using a trained value metric. We show multi-prompt improves MBR across a comprehensive set of conditional generation tasks, and show this is a result of estimating a more diverse and higher quality candidate space than that of a single prompt. Further experiments confirm multi-prompt improves generation across tasks, models and metrics. | 翻訳日:2024-07-23 16:20:28 公開日:2024-07-22 |
# カノニカルな典型を超えた量子系の安定性
Stability of Quantum Systems beyond Canonical Typicality ( http://arxiv.org/abs/2407.15345v1 ) ライセンス: Link先を確認 | Yu Su, Zi-Fan Zhu, Yao Wang, Rui-Xue Xu, YiJing Yan, | (参考訳) システムの統計分布を確立するには環境の関与が不可欠である。
熱浴と強く結合した量子系の統計分布を解析する。
この分布は平衡系+バス合成系の浴槽の自由度を辿ることによって決定される。
系分布の安定性は系の相互作用強度に大きく影響される。
周波数領域における系の応答関数が$\tilde\chi(\omega = 0+)>0$を満たすときのみ、量子系は安定な分布を示す。
本研究では,非相互作用ボソニック不純物系を熱力学,動的両面から検討した。
本研究は標準統計学の理論的枠組みを洗練し,小規模システムにおける熱力学現象の洞察を提供する。
Involvement of the environment is indispensable for establishing the statistical distribution of system. We analyze the statistical distribution of a quantum system coupled strongly with a heat bath. This distribution is determined by tracing over the bath's degrees of freedom for the equilibrium system-plus-bath composite. The stability of system distribution is largely affected by the system--bath interaction strength. We propose that the quantum system exhibits a stable distribution only when its system response function in the frequency domain satisfies $\tilde\chi(\omega = 0+)>0$. We show our results by investigating the non-interacting bosonic impurity system from both the thermodynamic and dynamic perspectives. Our study refines the theoretical framework of canonical statistics, offering insights into thermodynamic phenomena in small-scale systems. | 翻訳日:2024-07-23 16:20:27 公開日:2024-07-22 |
# 大規模言語モデルを用いた知識に基づく視覚的質問応答のための知識獲得ディスタングル
Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models ( http://arxiv.org/abs/2407.15346v1 ) ライセンス: Link先を確認 | Wenbin An, Feng Tian, Jiahao Nie, Wenkai Shi, Haonan Lin, Yan Chen, QianYing Wang, Yaqiang Wu, Guang Dai, Ping Chen, | (参考訳) KVQA (Knowledge-based Visual Question Answering) は、質問に答えるために、画像と世界の両方の知識を必要とする。
現在の手法は、まず最初に元の複雑な質問で画像と外部知識ベースから知識を取得し、次にLarge Language Models (LLMs) を用いて回答を生成する。
しかし、元の質問には異なる情報源からの知識を必要とする複雑な要素が含まれているため、異なる種類の知識を結合的に取得することは、モデルを混乱させ、正確な知識を得るのを妨げる可能性がある。
さらに、 `forward-only' の回答プロセスは LLM の知識要求を明示的に把握することができないため、回答の品質をさらに損なう可能性がある。
上記の制限に対処するため、我々はDKAを提案する: LLMフィードバックからの解答知識獲得(Disentangled Knowledge Acquisition)。
具体的には、DKAはLLMに対して、疑問に答えるために必要な知識を指定し、元の複雑な質問を2つの単純なサブクエストに分解する:イメージベースのサブクエストとナレッジベースのサブクエストである。
次に,2つのサブクエストを用いて,画像と知識ベースからそれぞれ知識を検索する。
このように、2つの知識獲得モデルは、それらに対応する内容に焦点を合わせ、元の複雑な問題における無関係な要素の乱れを回避し、より正確な知識を提供し、LLMの知識要求をより良く整合させて正しい回答を得るのに役立つ。
ベンチマークデータセットの実験では、DKAはSOTAモデルよりも大幅に優れていた。
将来の研究を促進するため、我々のデータとコードは \url{https://github.com/Lackel/DKA} で入手できる。
Knowledge-based Visual Question Answering (KVQA) requires both image and world knowledge to answer questions. Current methods first retrieve knowledge from the image and external knowledge base with the original complex question, then generate answers with Large Language Models (LLMs). However, since the original question contains complex elements that require knowledge from different sources, acquiring different kinds of knowledge in a coupled manner may confuse models and hinder them from retrieving precise knowledge. Furthermore, the ``forward-only'' answering process fails to explicitly capture the knowledge needs of LLMs, which can further hurt answering quality. To cope with the above limitations, we propose DKA: Disentangled Knowledge Acquisition from LLM feedback, a training-free framework that disentangles knowledge acquisition to avoid confusion and uses LLM's feedback to specify the required knowledge. Specifically, DKA requires LLMs to specify what knowledge they need to answer the question and decompose the original complex question into two simple sub-questions: Image-based sub-question and Knowledge-based sub-question. Then we use the two sub-questions to retrieve knowledge from the image and knowledge base, respectively. In this way, two knowledge acquisition models can focus on the content that corresponds to them and avoid disturbance of irrelevant elements in the original complex question, which can help to provide more precise knowledge and better align the knowledge needs of LLMs to yield correct answers. Experiments on benchmark datasets show that DKA significantly outperforms SOTA models. To facilitate future research, our data and code are available at \url{https://github.com/Lackel/DKA}. | 翻訳日:2024-07-23 16:20:27 公開日:2024-07-22 |
# RoadPainter: ポイントはトポロジートランスフォーマーの理想的なナビゲータ
RoadPainter: Points Are Ideal Navigators for Topology transformER ( http://arxiv.org/abs/2407.15349v1 ) ライセンス: Link先を確認 | Zhongxing Ma, Shuang Liang, Yongkun Wen, Weixin Lu, Guowei Wan, | (参考訳) トポロジ推論は、道路シーンの正確な理解を提供することを目的としており、自律システムは安全かつ効率的なルートを特定できる。
本稿では,多視点画像を用いた車線中心線のトポロジの検出と推論のための革新的なアプローチであるRoadPainterを提案する。
RoadPainterの背後にある中核的な概念は、中心線予測の精度を向上させるために、各中心線マスクから点の集合を抽出することである。
まず,ハイブリットアテンション機構と実空間分離戦略を統合したトランスフォーマーデコーダを実装し,粗い車線の中心線を予測し,トポロジカルな関連性を確立する。
次に、トランスデコーダから中心点に導かれる中心点のインスタンスマスクを生成する。
さらに,各マスクから追加の点集合を導出し,以前に検出した中心点と組み合わせてさらなる改良を行う。
さらに,標準定義 (SD) マップを組み込んだオプションモジュールを導入し,中心点検出をさらに最適化し,位相的推論性能を向上させる。
OpenLane-V2データセットの実験的評価は、RoadPainterの最先端性能を示している。
Topology reasoning aims to provide a precise understanding of road scenes, enabling autonomous systems to identify safe and efficient routes. In this paper, we present RoadPainter, an innovative approach for detecting and reasoning the topology of lane centerlines using multi-view images. The core concept behind RoadPainter is to extract a set of points from each centerline mask to improve the accuracy of centerline prediction. We start by implementing a transformer decoder that integrates a hybrid attention mechanism and a real-virtual separation strategy to predict coarse lane centerlines and establish topological associations. Then, we generate centerline instance masks guided by the centerline points from the transformer decoder. Moreover, we derive an additional set of points from each mask and combine them with previously detected centerline points for further refinement. Additionally, we introduce an optional module that incorporates a Standard Definition (SD) map to further optimize centerline detection and enhance topological reasoning performance. Experimental evaluations on the OpenLane-V2 dataset demonstrate the state-of-the-art performance of RoadPainter. | 翻訳日:2024-07-23 16:20:27 公開日:2024-07-22 |
# WTS: 微粒な空間的時間的理解のための歩行者中心交通映像データセット
WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding ( http://arxiv.org/abs/2407.15350v1 ) ライセンス: Link先を確認 | Quan Kong, Yuki Kawana, Rajat Saini, Ashutosh Kumar, Jingjing Pan, Ta Gu, Yohei Ozao, Balazs Opra, David C. Anastasiu, Yoichi Sato, Norimasa Kobori, | (参考訳) 本稿では,自動運転と安全に不可欠な交通シナリオにおけるきめ細かい映像イベント理解の課題に対処する。
伝統的なデータセットは、しばしば歩行者の視点を無視して、ドライバーまたは車両の振る舞いに焦点を当てている。
このギャップを埋めるために、WTSデータセットを導入し、何百もの交通シナリオにおける1.2万以上のビデオイベントにわたる車両と歩行者の両方の詳細な振る舞いを強調します。
WTSは、車両とインフラの協調環境における車両エゴと固定オーバーヘッドカメラからの様々な視点を統合し、歩行者分析に焦点を当てた2D/3Dビューのための包括的なテキスト記述とユニークな3D Gazeデータに富んでいる。
また、歩行者関連トラヒックビデオ5Kのアノテーションをプロビデントしています。
さらに,LLMに基づく評価指標であるLLMScorerを導入し,推論キャプションと真実を一致させる。
WTSを用いて高密度なビデオ・テキスト・タスクのベンチマークを構築し,現状のビジョン・ランゲージ・モデルとインスタンスを意識したビデオLLMをベースラインとして探索する。
WTSは、きめ細かいビデオイベントの理解、交通安全の強化、自動運転開発を目標としている。
In this paper, we address the challenge of fine-grained video event understanding in traffic scenarios, vital for autonomous driving and safety. Traditional datasets focus on driver or vehicle behavior, often neglecting pedestrian perspectives. To fill this gap, we introduce the WTS dataset, highlighting detailed behaviors of both vehicles and pedestrians across over 1.2k video events in hundreds of traffic scenarios. WTS integrates diverse perspectives from vehicle ego and fixed overhead cameras in a vehicle-infrastructure cooperative environment, enriched with comprehensive textual descriptions and unique 3D Gaze data for a synchronized 2D/3D view, focusing on pedestrian analysis. We also pro-vide annotations for 5k publicly sourced pedestrian-related traffic videos. Additionally, we introduce LLMScorer, an LLM-based evaluation metric to align inference captions with ground truth. Using WTS, we establish a benchmark for dense video-to-text tasks, exploring state-of-the-art Vision-Language Models with an instance-aware VideoLLM method as a baseline. WTS aims to advance fine-grained video event understanding, enhancing traffic safety and autonomous driving development. | 翻訳日:2024-07-23 16:20:27 公開日:2024-07-22 |
# LLMExplainer:グラフ記述生成のための大言語モデルに基づくベイズ推論
LLMExplainer: Large Language Model based Bayesian Inference for Graph Explanation Generation ( http://arxiv.org/abs/2407.15351v1 ) ライセンス: Link先を確認 | Jiaxing Zhang, Jiayi Liu, Dongsheng Luo, Jennifer Neville, Hua Wei, | (参考訳) 最近の研究は、複数の教師なし学習モデルを通してグラフニューラルネットワーク(GNN)の解釈可能性を提供することを目指している。
データセットが不足しているため、現在の手法ではバイアスの学習が困難になる。
この問題を解決するため,GNN説明ネットワークにLarge Language Model (LLM) を知識として組み込んで学習バイアス問題を回避する。
学習バイアスを軽減するため,LLMをベイズ推論(BI)モジュールとして注入する。
BIモジュールの有効性は理論的にも実験的にも証明されている。
合成データセットと実世界のデータセットの両方で実験を行う。
私たちの仕事の革新は2つの部分に分かれています。
1. 既存のアルゴリズムの性能を向上させるため, ベイズ推論として機能するLLMの可能性について, 新たな視点を提供する。
2) GNN説明問題における学習バイアス問題について,まず議論する。
Recent studies seek to provide Graph Neural Network (GNN) interpretability via multiple unsupervised learning models. Due to the scarcity of datasets, current methods easily suffer from learning bias. To solve this problem, we embed a Large Language Model (LLM) as knowledge into the GNN explanation network to avoid the learning bias problem. We inject LLM as a Bayesian Inference (BI) module to mitigate learning bias. The efficacy of the BI module has been proven both theoretically and experimentally. We conduct experiments on both synthetic and real-world datasets. The innovation of our work lies in two parts: 1. We provide a novel view of the possibility of an LLM functioning as a Bayesian inference to improve the performance of existing algorithms; 2. We are the first to discuss the learning bias issues in the GNN explanation problem. | 翻訳日:2024-07-23 16:20:27 公開日:2024-07-22 |
# MAVEN-Fact: 大規模イベントファクチュアリティ検出データセット
MAVEN-Fact: A Large-scale Event Factuality Detection Dataset ( http://arxiv.org/abs/2407.15352v1 ) ライセンス: Link先を確認 | Chunyang Li, Hao Peng, Xiaozhi Wang, Yunjia Qi, Lei Hou, Bin Xu, Juanzi Li, | (参考訳) イベントファクチュアリティ検出(EFD)タスクは、イベントが事実、可能性、あるいは不可能であるかどうかを分類し、イベント知識を忠実に理解し活用するために不可欠である。
しかし、高品質な大規模データが不足しているため、事象の事実検出はイベント理解研究において過小評価され、EFDコミュニティの発展を制限している。
これらの問題に対処し、忠実なイベント理解を提供するために、MAVENデータセットに基づいた大規模かつ高品質なEFDデータセットであるMAVEN-Factを導入する。
MAVEN-Factには112,276のイベントのファクトリティアノテーションが含まれており、EFDデータセットとしては最大である。
大規模な実験により、MAVEN-Factは従来の微調整モデルと大規模言語モデル(LLM)の両方において困難であることが示されている。
MAVEN-Factは,MAVENにおけるイベント引数と関係の包括的なアノテーションにより,さらなる分析もサポートしている。
さらに, 事象事実検出の応用事例を予備研究し, LLMにおける事象関連幻覚の緩和に有効であることを示す。
我々のデータセットとコードは \url{https://github.com/lcy2723/MAVEN-FACT} から取得できる。
Event Factuality Detection (EFD) task determines the factuality of textual events, i.e., classifying whether an event is a fact, possibility, or impossibility, which is essential for faithfully understanding and utilizing event knowledge. However, due to the lack of high-quality large-scale data, event factuality detection is under-explored in event understanding research, which limits the development of EFD community. To address these issues and provide faithful event understanding, we introduce MAVEN-Fact, a large-scale and high-quality EFD dataset based on the MAVEN dataset. MAVEN-Fact includes factuality annotations of 112,276 events, making it the largest EFD dataset. Extensive experiments demonstrate that MAVEN-Fact is challenging for both conventional fine-tuned models and large language models (LLMs). Thanks to the comprehensive annotations of event arguments and relations in MAVEN, MAVEN-Fact also supports some further analyses and we find that adopting event arguments and relations helps in event factuality detection for fine-tuned models but does not benefit LLMs. Furthermore, we preliminarily study an application case of event factuality detection and find it helps in mitigating event-related hallucination in LLMs. Our dataset and codes can be obtained from \url{https://github.com/lcy2723/MAVEN-FACT} | 翻訳日:2024-07-23 16:20:27 公開日:2024-07-22 |
# EDAツールドキュメンテーションQAのためのカスタム検索拡張生成とベンチマーク
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA ( http://arxiv.org/abs/2407.15353v1 ) ライセンス: Link先を確認 | Yuan Pu, Zhuolun He, Tairu Qiu, Haoyuan Wu, Bei Yu, | (参考訳) Retrieval augmented generation (RAG)は、外部データベースから事実情報を抽出することで、生成AIモデルの精度と信頼性を高める。
市販のRAGフローは汎用文書で十分に事前訓練されているが、電子設計自動化(EDA)のような知識集約型垂直領域に適用される場合、大きな課題に直面する。
本稿では,EDAツールドキュメンテーションのための3つのドメイン固有技術とともに,カスタマイズされたRAGフレームワークを提案し,テキスト埋め込みモデルファインチューニングのためのコントラスト学習スキーム,独自LLMから蒸留したリランカ,高品質なドメインコーパスを備えたジェネレーションLLMを提案する。
さらに,先進的なRTL-to-GDSII設計プラットフォームであるOpenROADのドキュメントQA評価ベンチマークであるORD-QAを開発した。
実験結果から,ORD-QAおよび商用ツール上でのRAGフローと技術は,最先端技術と比較して優れた性能を示した。
ORD-QAベンチマークと、カスタマイズされたRAGフローのトレーニングデータセットは、https://github.com/lesliepy99/RAG-EDAでオープンソース化されています。
Retrieval augmented generation (RAG) enhances the accuracy and reliability of generative AI models by sourcing factual information from external databases, which is extensively employed in document-grounded question-answering (QA) tasks. Off-the-shelf RAG flows are well pretrained on general-purpose documents, yet they encounter significant challenges when being applied to knowledge-intensive vertical domains, such as electronic design automation (EDA). This paper addresses such issue by proposing a customized RAG framework along with three domain-specific techniques for EDA tool documentation QA, including a contrastive learning scheme for text embedding model fine-tuning, a reranker distilled from proprietary LLM, and a generative LLM fine-tuned with high-quality domain corpus. Furthermore, we have developed and released a documentation QA evaluation benchmark, ORD-QA, for OpenROAD, an advanced RTL-to-GDSII design platform. Experimental results demonstrate that our proposed RAG flow and techniques have achieved superior performance on ORD-QA as well as on a commercial tool, compared with state-of-the-arts. The ORD-QA benchmark and the training dataset for our customized RAG flow are open-source at https://github.com/lesliepy99/RAG-EDA. | 翻訳日:2024-07-23 16:20:27 公開日:2024-07-22 |
# 3次元物体検出のためのマルチカメラ画像からの高分解能ベクトル表現の学習
Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection ( http://arxiv.org/abs/2407.15354v1 ) ライセンス: Link先を確認 | Zhili Chen, Shuangjie Xu, Maosheng Ye, Zian Qian, Xiaoyi Zou, Dit-Yan Yeung, Qifeng Chen, | (参考訳) Bird's-Eye-View(BEV)表現は、3Dオブジェクト検出性能に直接影響を与える重要な要素であるが、従来のBEVグリッド表現は空間解像度が大きくなるにつれて2次計算コストを誘導する。
この制限に対処するため、高分解能ベクトル表現を持つカメラベースの新しい3Dオブジェクト検出器VectorFormerを提案する。
提案した高分解能ベクトル表現は、低分解能BEV表現と組み合わせて、ベクトル散乱と集光という2つの新しいモジュールを通して、高分解能のマルチカメラ画像から3次元幾何学を効率的に活用する。
この目的のために、よりリッチなシーンコンテキストを持つ学習されたベクトル表現は、最終的な予測のためのデコードクエリとして機能することができる。
我々はnuScenesデータセットの広範な実験を行い、NDSおよび推論時間における最先端性能を実証する。
さらに,提案したベクトル表現を組み込んだクエリBEVベースの手法について検討し,一貫した性能向上を観察する。
The Bird's-Eye-View (BEV) representation is a critical factor that directly impacts the 3D object detection performance, but the traditional BEV grid representation induces quadratic computational cost as the spatial resolution grows. To address this limitation, we present a new camera-based 3D object detector with high-resolution vector representation: VectorFormer. The presented high-resolution vector representation is combined with the lower-resolution BEV representation to efficiently exploit 3D geometry from multi-camera images at a high resolution through our two novel modules: vector scattering and gathering. To this end, the learned vector representation with richer scene contexts can serve as the decoding query for final predictions. We conduct extensive experiments on the nuScenes dataset and demonstrate state-of-the-art performance in NDS and inference time. Furthermore, we investigate query-BEV-based methods incorporated with our proposed vector representation and observe a consistent performance improvement. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# 高速入射ニューラル表現生成のためのアテンションビートリニア
Attention Beats Linear for Fast Implicit Neural Representation Generation ( http://arxiv.org/abs/2407.15355v1 ) ライセンス: Link先を確認 | Shuyi Zhang, Ke Liu, Jingjun Gu, Xiaoxu Cai, Zhihua Wang, Jiajun Bu, Haishuai Wang, | (参考訳) Inlicit Neural Representation (INR) はデータ表現法として人気を博し、革新的な生成モデルの前提条件となっている。
推論の効率を低下させる勾配に基づく手法とは異なり、INR関数の実行に責任を持つMulti-Layer Perceptrons (MLP) におけるパラメータ生成のためのハイパーネットワークの採用は、有望で効率的な代替手段として浮上している。
しかし、グローバルな連続関数として、MLPは高度に不連続な信号のモデリングに挑戦し、トレーニングフェーズの収束が遅くなり、復元性能が不正確になる。
さらに、MLPはデータ表現の不効率を意味する巨大な表現パラメータを必要とする。
本稿では,Attention-based Localized INR (ANR) を新たに提案し,LAL(Localized attention layer) と,データ特徴と座標特徴を統合して有意義な出力に変換するグローバルMLPを提案する。
その後、データインスタンスをコンパクトな表現ベクトルとして表現するために、トランスフォーマーのようなハイパーネットワークを提供するインスタンス表現フレームワークを設計する。
インスタンス固有の表現ベクトルとインスタンスに依存しないANRパラメータにより、ターゲット信号は連続関数として十分に再構成される。
さらに,超解像推論結果を得る際に,アリアス化アーティファクトを変動座標で処理する。
4つのデータセットにわたる大規模な実験は、我々のANR法の顕著な有効性を示し、例えば、CelebAデータセット上のPSNR値を37.95dBから47.25dBに拡張する。
コードはhttps://github.com/Roninton/ANR.comで公開されている。
Implicit Neural Representation (INR) has gained increasing popularity as a data representation method, serving as a prerequisite for innovative generation models. Unlike gradient-based methods, which exhibit lower efficiency in inference, the adoption of hyper-network for generating parameters in Multi-Layer Perceptrons (MLP), responsible for executing INR functions, has surfaced as a promising and efficient alternative. However, as a global continuous function, MLP is challenging in modeling highly discontinuous signals, resulting in slow convergence during the training phase and inaccurate reconstruction performance. Moreover, MLP requires massive representation parameters, which implies inefficiencies in data representation. In this paper, we propose a novel Attention-based Localized INR (ANR) composed of a localized attention layer (LAL) and a global MLP that integrates coordinate features with data features and converts them to meaningful outputs. Subsequently, we design an instance representation framework that delivers a transformer-like hyper-network to represent data instances as a compact representation vector. With instance-specific representation vector and instance-agnostic ANR parameters, the target signals are well reconstructed as a continuous function. We further address aliasing artifacts with variational coordinates when obtaining the super-resolution inference results. Extensive experimentation across four datasets showcases the notable efficacy of our ANR method, e.g. enhancing the PSNR value from 37.95dB to 47.25dB on the CelebA dataset. Code is released at https://github.com/Roninton/ANR. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# X-Recon: 直交X線画像からの患者特異的高分解能CT再構成
X-Recon: Learning-based Patient-specific High-Resolution CT Reconstruction from Orthogonal X-Ray Images ( http://arxiv.org/abs/2407.15356v1 ) ライセンス: Link先を確認 | Yunpeng Wang, Kang Wang, Yaoyao Zhuo, Weiya Shi, Fei Shan, Lei Liu, | (参考訳) 胸部X線とCTを併用した気胸の迅速かつ正確な診断が診断に不可欠である。
胸部X線は気胸の初期局在に一般的に用いられ、CTは正確な定量化を保証している。
しかし、CTスキャンには高い放射線線量が含まれており、費用がかかる可能性がある。
放射線照射を最小化しながら正確な定量的診断を実現するため, 胸部X線画像を用いたCT超スパース再構成ネットワークX-Reconを提案する。
X-Reconは、マルチスケールの融合レンダリングモジュールを備えたジェネレータと、CT再構成を容易にするために設計された3D座標畳み込み層によって強化された識別器を含む、生成的対向ネットワーク(GAN)を統合している。
精度を向上させるため、射影空間変換器を用いて多角射影損失を組み込む。
さらに, 空気蓄積領域と肺構造のセグメンテーションのための深層学習モデルと画像処理技術を組み合わせたゼロショット気胸セグメンテーションアルゴリズムPTX-Segを提案する。
大規模なデータセットの実験は、既存のアプローチよりも優れていることを示している。
X-Reconは、平均空間分解能が高く、平均スライス厚が低い、はるかに高い再構成分解能を実現した。
再現度はピーク信号対雑音比を含むいくつかの指標で最先端の性能を達成した。
ゼロショットセグメンテーションアルゴリズムPTX-Segは,空気蓄積領域,左肺,右肺に対して高いセグメンテーション精度を示した。
さらに,再建CTとオリジナルCTとの胸胸部占有率の整合性解析を行い,高い相関係数を得た。
コードは以下の通り。 https://github.com/wangyunpengbio/X-Recon
Rapid and accurate diagnosis of pneumothorax, utilizing chest X-ray and computed tomography (CT), is crucial for assisted diagnosis. Chest X-ray is commonly used for initial localization of pneumothorax, while CT ensures accurate quantification. However, CT scans involve high radiation doses and can be costly. To achieve precise quantitative diagnosis while minimizing radiation exposure, we proposed X-Recon, a CT ultra-sparse reconstruction network based on ortho-lateral chest X-ray images. X-Recon integrates generative adversarial networks (GANs), including a generator with a multi-scale fusion rendering module and a discriminator enhanced by 3D coordinate convolutional layers, designed to facilitate CT reconstruction. To improve precision, a projective spatial transformer is utilized to incorporate multi-angle projection loss. Additionally, we proposed PTX-Seg, a zero-shot pneumothorax segmentation algorithm, combining image processing techniques with deep-learning models for the segmentation of air-accumulated regions and lung structures. Experiments on a large-scale dataset demonstrate its superiority over existing approaches. X-Recon achieved a significantly higher reconstruction resolution with a higher average spatial resolution and a lower average slice thickness. The reconstruction metrics achieved state-of-the-art performance in terms of several metrics including peak signal-to-noise ratio. The zero-shot segmentation algorithm, PTX-Seg, also demonstrated high segmentation precision for the air-accumulated region, the left lung, and the right lung. Moreover, the consistency analysis for the pneumothorax chest occupancy ratio between reconstructed CT and original CT obtained a high correlation coefficient. Code will be available at: https://github.com/wangyunpengbio/X-Recon | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# 開量子系のシミュレーションコストのローバウンド:リプシッツ連続性アプローチ
Lower bound for simulation cost of open quantum systems: Lipschitz continuity approach ( http://arxiv.org/abs/2407.15357v1 ) ライセンス: Link先を確認 | Zhiyan Ding, Marius Junge, Philipp Schleich, Peixue Wu, | (参考訳) 量子力学のシミュレーションは、量子コンピュータの最も有望な応用の1つである。
シミュレーションコストの上限は、様々な量子アルゴリズムを通して広範囲に研究されているが、特にオープン量子系の力学のシミュレーションにおいて、より低い境界を確立することに重点を置いている研究は少ない。
本研究では、幅広い量子マルコフ半群のクラスをシミュレートするための下界を計算するための一般的な枠組みを示す。
固定された一元集合が与えられた場合、量子シミュレーションコストを定量化するための凸回路深さの概念を導入し、必要な回路深さを分析し、特定の順序を達成する量子シミュレーションスキームを構築する。
我々のフレームワークは、単体および非単体量子力学の両方に適用でき、上界と下界がいくつかの例で一致することを示すことによって、下界技術の厳密性を示す。
Simulating quantum dynamics is one of the most promising applications of quantum computers. While the upper bound of the simulation cost has been extensively studied through various quantum algorithms, much less work has focused on establishing the lower bound, particularly for the simulation of open quantum system dynamics. In this work, we present a general framework to calculate the lower bound for simulating a broad class of quantum Markov semigroups. Given a fixed accessible unitary set, we introduce the concept of convexified circuit depth to quantify the quantum simulation cost and analyze the necessary circuit depth to construct a quantum simulation scheme that achieves a specific order. Our framework can be applied to both unital and non-unital quantum dynamics, and the tightness of our lower bound technique is illustrated by showing that the upper and lower bounds coincide in several examples. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# UF-HOBI at "Discharge Me!": Prompt-based Tuning of GatorTronGPT Models
UF-HOBI at "Discharge Me!": A Hybrid Solution for Discharge Summary Generation Through Prompt-based Tuning of GatorTronGPT Models ( http://arxiv.org/abs/2407.15359v1 ) ライセンス: Link先を確認 | Mengxian Lyu, Cheng Peng, Daniel Paredes, Ziyi Chen, Aokun Chen, Jiang Bian, Yonghui Wu, | (参考訳) 退院サマリーの自動生成は, 臨床資料の長さ, 患者情報の分散性, 医療における用語の多様さなど, 重大な課題を呈している。
本稿では,「ディスチャージ・ミー!」への参加の一環として,エミッション・サマリー・セクションを生成するハイブリッド・ソリューションを提案する。
BioNLP 2024 共有タスクへの挑戦
抽出法と抽象法の両方を用いた2段階生成法を開発し,まず名称認識(NER)を用いて重要な臨床概念を抽出し,その後,即時学習に基づくGatorTronGPTモデルの入力として使用し,"Brief Hospital Course" と "Discharge Instructions" を含む2つの重要なセクションのコヒーレントテキストを生成する。
この課題において,本システムは5位にランクされ,総得点は0.284点となった。
その結果, 自動放電部生成の品質向上におけるハイブリッドソリューションの有効性が示された。
Automatic generation of discharge summaries presents significant challenges due to the length of clinical documentation, the dispersed nature of patient information, and the diverse terminology used in healthcare. This paper presents a hybrid solution for generating discharge summary sections as part of our participation in the "Discharge Me!" Challenge at the BioNLP 2024 Shared Task. We developed a two-stage generation method using both extractive and abstractive techniques, in which we first apply name entity recognition (NER) to extract key clinical concepts, which are then used as input for a prompt-tuning-based GatorTronGPT model to generate coherent text for two important sections including "Brief Hospital Course" and "Discharge Instructions". Our system was ranked 5th in this challenge, achieving an overall score of 0.284. The results demonstrate the effectiveness of our hybrid solution in improving the quality of automated discharge section generation. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# 変圧器における乗算の分別:LLMへの展望
Dissecting Multiplication in Transformers: Insights into LLMs ( http://arxiv.org/abs/2407.15360v1 ) ライセンス: Link先を確認 | Luyu Qiu, Jianing Li, Chi Su, Chen Jason Zhang, Lei Chen, | (参考訳) トランスフォーマーベースの大規模言語モデルは、様々な自然言語処理タスクで顕著なパフォーマンスを実現している。
しかし、その膨大な能力にもかかわらず、算術のような一見簡単なタスクに苦しむことが多い。
本稿では、この領域における変圧器の不完全性を探究し、説明するために、典型的な算術課題である整数乗算に焦点を当てる。
n桁整数乗算を行うために訓練されたバニラ変圧器の包括的解析を行う。
本研究は,複数の並列サブタスクに乗算タスクを分解し,各桁に対する各サブタスクを逐次最適化し,最終的な乗算を完了することを示す。
観測と解析から,乗算タスクにおけるトランスフォーマーの欠如の原因は,連続したトランジットの計算や中間結果のキャッシングが困難なことにあると推察し,実験により確認した。
これらの結果から,乗算タスクにおけるトランスフォーマー性能の向上を提案する。
これらの拡張は、厳密なテストと数学的モデリングによって検証され、変換器の解釈可能性の向上だけでなく、例えば、5桁整数乗算の99.9%以上の精度向上を実現している。
本手法は,より複雑なタスクやトランスフォーマーモデルを解析する手段として,モデル理解と解釈可能性の幅広い分野に寄与する。
この研究は、説明可能なAIの重要性を強調し、大きな言語モデルへの信頼の構築を支援し、重要なアプリケーションにおけるAIの採用を促進する。
Transformer-based large language models have achieved remarkable performance across various natural language processing tasks. However, they often struggle with seemingly easy tasks like arithmetic despite their vast capabilities. This stark disparity raise human's concerns about their safe and ethical use, hinder their widespread adoption.In this paper, we focus on a typical arithmetic task, integer multiplication, to explore and explain the imperfection of transformers in this domain. We provide comprehensive analysis of a vanilla transformer trained to perform n-digit integer multiplication. Our observations indicate that the model decomposes multiplication task into multiple parallel subtasks, sequentially optimizing each subtask for each digit to complete the final multiplication. Based on observation and analysis, we infer the reasons of transformers deficiencies in multiplication tasks lies in their difficulty in calculating successive carryovers and caching intermediate results, and confirmed this inference through experiments. Guided by these findings, we propose improvements to enhance transformers performance on multiplication tasks. These enhancements are validated through rigorous testing and mathematical modeling, not only enhance transformer's interpretability, but also improve its performance, e.g., we achieve over 99.9% accuracy on 5-digit integer multiplication with a tiny transformer, outperform LLMs GPT-4. Our method contributes to the broader fields of model understanding and interpretability, paving the way for analyzing more complex tasks and Transformer models. This work underscores the importance of explainable AI, helping to build trust in large language models and promoting their adoption in critical applications. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# マルチモーダルな知識を付加した完全すべり病基盤モデル
A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model ( http://arxiv.org/abs/2407.15362v1 ) ライセンス: Link先を確認 | Yingxue Xu, Yihui Wang, Fengtao Zhou, Jiabo Ma, Shu Yang, Huangjing Lin, Xin Wang, Jiguang Wang, Li Liang, Anjia Han, Ronald Cheong Kin Chan, Hao Chen, | (参考訳) 計算病理学における顕著な進歩は、幅広い下流臨床タスクのパフォーマンスを向上するタスクに依存しない基礎モデルにおいてなされている。
有望なパフォーマンスにもかかわらず、まだいくつかの課題があります。
第一に、以前の研究は視覚のみまたは視覚のみのデータに頼っており、有意義な病理報告や、多彩な臨床応用のための異なる知識を提供する遺伝子発現プロファイルを無視している。
第2に、FMの現在の進歩はパッチレベルに集中しており、パッチレベルの事前トレーニングの制限されたコンテキストは、スライディング全体のパターンをキャプチャできない。
今回我々は,32種類の癌患者10,275名を対象に,H&E画像と関連病態報告とRNA-Seqデータからなる最大マルチモーダルデータセットを収集した。
CPath におけるこれらのデータを活用するために,Multimodal Self-Taught PRetraining (mSTAR) と呼ばれる,Multimodal FM (Multimodal Self-Taught PRetraining) にマルチモーダル知識を注入する新たな事前学習パラダイムを提案する。
提案したパラダイムはCPathの事前トレーニングのワークフローに革命をもたらす。
我々の知る限り、このことは、マルチモーダル知識をスライドレベルに組み込んだ最初の試みであり、病的FMの強化、モデリングコンテキストの非モーダルからマルチモーダル知識への拡張、パッチレベルからスライドレベルへの拡張である。
mSTARの能力を体系的に評価するために, 43のサブタスクで7種類のタスクにまたがって, ダウンストリームタスクのスペクトルが最も大きい。
様々なスライドレベルのアプリケーションにおける平均性能は、SOTA FMと比較してmSTARの大幅な性能向上を示す。
Remarkable strides in computational pathology have been made in the task-agnostic foundation model that advances the performance of a wide array of downstream clinical tasks. Despite the promising performance, there are still several challenges. First, prior works have resorted to either vision-only or vision-captions data, disregarding invaluable pathology reports and gene expression profiles which respectively offer distinct knowledge for versatile clinical applications. Second, the current progress in pathology FMs predominantly concentrates on the patch level, where the restricted context of patch-level pretraining fails to capture whole-slide patterns. Here we curated the largest multimodal dataset consisting of H\&E diagnostic whole slide images and their associated pathology reports and RNA-Seq data, resulting in 26,169 slide-level modality pairs from 10,275 patients across 32 cancer types. To leverage these data for CPath, we propose a novel whole-slide pretraining paradigm which injects multimodal knowledge at the whole-slide context into the pathology FM, called Multimodal Self-TAught PRetraining (mSTAR). The proposed paradigm revolutionizes the workflow of pretraining for CPath, which enables the pathology FM to acquire the whole-slide context. To our knowledge, this is the first attempt to incorporate multimodal knowledge at the slide level for enhancing pathology FMs, expanding the modelling context from unimodal to multimodal knowledge and from patch-level to slide-level. To systematically evaluate the capabilities of mSTAR, extensive experiments including slide-level unimodal and multimodal applications, are conducted across 7 diverse types of tasks on 43 subtasks, resulting in the largest spectrum of downstream tasks. The average performance in various slide-level applications consistently demonstrates significant performance enhancements for mSTAR compared to SOTA FMs. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# 他者の靴を歩きながら: バイオマスと毒性を減らした大規模言語モデルに対するパースペクティブ・テイキングのガイド
Walking in Others' Shoes: How Perspective-Taking Guides Large Language Models in Reducing Toxicity and Bias ( http://arxiv.org/abs/2407.15366v1 ) ライセンス: Link先を確認 | Rongwu Xu, Zi'an Zhou, Tianwei Zhang, Zehan Qi, Su Yao, Ke Xu, Wei Xu, Han Qiu, | (参考訳) 大規模言語モデル(LLM)が生成する内容の共通毒性と社会的バイアスは、害を軽減するために戦略を必要とする。
現在のソリューションでは、モデルへのホワイトボックスアクセスや実質的なトレーニングが要求されることが多いが、これは最先端の商用LCMでは現実的ではない。
さらに、一般的なプロンプト手法は外部ツールのフィードバックに依存し、毒性とバイアスを同時に減らすことができない。
社会心理学の原則に触発されて, LLMが多様な人間の視点を統合し, 反応を自己制御する, 新たな戦略である「textbf{perspective-take prompting (\textsc{PeT})」を提案する。
この自己補正機構は、LSMの反応において毒性(最大8,9 %$)とバイアス(最大7,3 %$)を著しく減少させる。
2つの商用LCM(ChatGPTおよびGLM)および3つのオープンソースLCMに対して厳密な評価およびアブレーション研究を行い、より有害な応答を生じにくくし、5つの強力なベースラインを上回った。
The common toxicity and societal bias in contents generated by large language models (LLMs) necessitate strategies to reduce harm. Present solutions often demand white-box access to the model or substantial training, which is impractical for cutting-edge commercial LLMs. Moreover, prevailing prompting methods depend on external tool feedback and fail to simultaneously lessen toxicity and bias. Motivated by social psychology principles, we propose a novel strategy named \textbf{perspective-taking prompting (\textsc{PeT})} that inspires LLMs to integrate diverse human perspectives and self-regulate their responses. This self-correction mechanism can significantly diminish toxicity (up to $89\%$) and bias (up to $73\%$) in LLMs' responses. Rigorous evaluations and ablation studies are conducted on two commercial LLMs (ChatGPT and GLM) and three open-source LLMs, revealing \textsc{PeT}'s superiority in producing less harmful responses, outperforming five strong baselines. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# Sparse Priorは必ずしも必要ではない。赤外小ターゲット検出のための差動方向コヒーレンスと差分方向が一致するとき
Sparse Prior Is Not All You Need: When Differential Directionality Meets Saliency Coherence for Infrared Small Target Detection ( http://arxiv.org/abs/2407.15369v1 ) ライセンス: Link先を確認 | Fei Zhou, Maixia Fu, Yulei Qian, Jian Yang, Yimian Dai, | (参考訳) 赤外線小目標検出は、赤外線サーチ・トラッキングシステムの有効性に不可欠である。
現在のテンソル分解法では, 内部方向情報の不十分な使用と, 分解時の目標視認性の低下により, 複雑な背景から目標を分離することの難しさが強調されている。
これらの課題に対処するために、Sparse Differential Directionality prior (SDD)フレームワークを導入する。
SDDは、ターゲットの異なる方向特性を利用して背景と区別し、タッカー分解から派生した時間成分の差分方向像と連続性差行列に混合スパース制約を適用した。
階層的分解時の背景に対する目標コントラストを増大させるサリエンシ・コヒーレンス・ストラテジーにより、目標検出性をさらに向上する。
近似交互最小化法(PAM)アルゴリズムは,提案したモデルを効率的に解く。
いくつかの実世界のデータセットによる実験結果から,本手法の有効性が検証され,目標検出およびクラッタ抑制における10種類の最先端手法よりも優れた結果が得られた。
私たちのコードはhttps://github.com/GrokCV/SDD.comで公開されています。
Infrared small target detection is crucial for the efficacy of infrared search and tracking systems. Current tensor decomposition methods emphasize representing small targets with sparsity but struggle to separate targets from complex backgrounds due to insufficient use of intrinsic directional information and reduced target visibility during decomposition. To address these challenges, this study introduces a Sparse Differential Directionality prior (SDD) framework. SDD leverages the distinct directional characteristics of targets to differentiate them from the background, applying mixed sparse constraints on the differential directional images and continuity difference matrix of the temporal component, both derived from Tucker decomposition. We further enhance target detectability with a saliency coherence strategy that intensifies target contrast against the background during hierarchical decomposition. A Proximal Alternating Minimization-based (PAM) algorithm efficiently solves our proposed model. Experimental results on several real-world datasets validate our method's effectiveness, outperforming ten state-of-the-art methods in target detection and clutter suppression. Our code is available at https://github.com/GrokCV/SDD. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# コンラング研究文学におけるネットワーク分析手法
A Network Analysis Approach to Conlang Research Literature ( http://arxiv.org/abs/2407.15370v1 ) ライセンス: Link先を確認 | Simon Gonzalez, | (参考訳) コンラングの分野は、ここ数十年で重要な成長を見せている。
これは、芸術的な目的でのコンラングの使用と研究に対する幅広い関心の産物である。
しかし、重要な疑問は、学術界で何がコンラングで起こっているかである。
本稿では,コンラング研究に関する文献を総合的に理解することを目的としている。
これにより、現代における現場のリアルなイメージを描き出そうとしている。
我々は,Scopusデータベースで利用可能なすべての出版物を調べるために,バイオメトリックスとネットワーク分析を組み合わせた計算言語アプローチを実装した。
1927年から2022年までの2300以上の学術出版物を分析したところ、エスペラントは最も文書化されたコンラングであることがわかった。
Garv\'ia R.、Fiedler S.、Blanke D.、1970年代と1980年代には、現在の研究の基礎が築かれた。
方法論の観点では、言語学習と実験的言語学が、この分野における研究の好むアプローチに最も寄与している分野である。
結果を示し、その限界と今後の課題について論じる。
The field of conlang has evidenced an important growth in the last decades. This has been the product of a wide interest in the use and study of conlangs for artistic purposes. However, one important question is what it is happening with conlang in the academic world. This paper aims to have an overall understanding of the literature on conlang research. With this we aim to give a realistic picture of the field in present days. We have implemented a computational linguistic approach, combining bibliometrics and network analysis to examine all publications available in the Scopus database. Analysing over 2300 academic publications since 1927 until 2022, we have found that Esperanto is by far the most documented conlang. Three main authors have contributed to this: Garv\'ia R., Fiedler S., and Blanke D. The 1970s and 1980s have been the decades where the foundations of current research have been built. In terms of methodologies, language learning and experimental linguistics are the ones contributing to most to the preferred approaches of study in the field. We present the results and discuss our limitations and future work. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# ILiAD: Twitter投稿の言語的注釈付きデータのための対話型コーパス
ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts ( http://arxiv.org/abs/2407.15374v1 ) ライセンス: Link先を確認 | Simon Gonzalez, | (参考訳) ソーシャルメディアプラットフォームは言語研究に貴重な機会を提供してきた。
世界中のあらゆる場所から取得され、自然の文脈から取得される最新のデータにより、研究者はリアルタイムで言語を研究できるようになった。
ソーシャルメディアプラットフォームを大いに活用した分野のひとつにコーパス言語学がある。
現在、ソーシャルメディアからコーパスをうまく作成できる幅広いプロジェクトが存在する。
本稿では,26のニュースエージェンシーと27人の個人を対象とする,英語のTwitter投稿から言語コーパスを作成・展開する。
主な目標は、言語分析のための完全な注釈付き英語コーパスを作ることであった。
形態や構文に関する情報に加えて,トークン化やレムマ,n-gramなどのNLP機能も含んでいます。
情報は、コーパス内の言語パターンを探索するための強力な可視化を通じて提示される。
このツールにより,言語研究に応用された言語技術分野への貢献を目指す。
Social Media platforms have offered invaluable opportunities for linguistic research. The availability of up-to-date data, coming from any part in the world, and coming from natural contexts, has allowed researchers to study language in real time. One of the fields that has made great use of social media platforms is Corpus Linguistics. There is currently a wide range of projects which have been able to successfully create corpora from social media. In this paper, we present the development and deployment of a linguistic corpus from Twitter posts in English, coming from 26 news agencies and 27 individuals. The main goal was to create a fully annotated English corpus for linguistic analysis. We include information on morphology and syntax, as well as NLP features such as tokenization, lemmas, and n- grams. The information is presented through a range of powerful visualisations for users to explore linguistic patterns in the corpus. With this tool, we aim to contribute to the area of language technologies applied to linguistic research. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# 社会音韻研究における音声・語彙タギングのための包括的スペイン語辞書の開発
The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA) ( http://arxiv.org/abs/2407.15375v1 ) ライセンス: Link先を確認 | Simon Gonzalez, | (参考訳) 発音辞書は、音声強制アライメントの過程において重要な要素である。
これらの辞書の精度は、正書法と音響信号のマッピングを支援するため、一致した音声データに強い影響を与える。
本稿では,スペイン語の方言の変種の大部分で使用可能な,スペイン語の包括的発音辞書(ESPADA)の作成について述べる。
現在の辞書は、特定の地域変種に焦点を当てているが、ツールの柔軟な性質により、主要な方言変種間で最も一般的な音韻差を捉えるために、容易に適用することができる。
形態情報や語彙情報などの他のアノテーションをマッピングするだけでなく,現在の発音辞書の改良も提案する。
サイズに関しては、現在16か国の単語を表わす628,000以上のエントリを持つ、最も完全な辞書である。
すべてのエントリには、対応する発音、形態的および語彙的タグ付け、その他の音声分析に関する関連情報(ストレスパターン、フォノタクティクス、IPA転写など)が付属している。
これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
Pronunciation dictionaries are an important component in the process of speech forced alignment. The accuracy of these dictionaries has a strong effect on the aligned speech data since they help the mapping between orthographic transcriptions and acoustic signals. In this paper, I present the creation of a comprehensive pronunciation dictionary in Spanish (ESPADA) that can be used in most of the dialect variants of Spanish data. Current dictionaries focus on specific regional variants, but with the flexible nature of our tool, it can be readily applied to capture the most common phonetic differences across major dialectal variants. We propose improvements to current pronunciation dictionaries as well as mapping other relevant annotations such as morphological and lexical information. In terms of size, it is currently the most complete dictionary with more than 628,000 entries, representing words from 16 countries. All entries come with their corresponding pronunciations, morphological and lexical tagging, and other relevant information for phonetic analysis: stress patterns, phonotactics, IPA transcriptions, and more. This aims to equip socio-phonetic researchers with a complete open-source tool that enhances dialectal research within socio-phonetic frameworks in the Spanish language. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# 光場データによるニューラルディファレンスフィールドの再構成に関する反復的アプローチ
Iterative approach to reconstructing neural disparity fields from light-field data ( http://arxiv.org/abs/2407.15380v1 ) ライセンス: Link先を確認 | Ligen Shi, Chang Liu, Xing Zhao, Jun Qiu, | (参考訳) 本研究では,光場データからNDF再構成の逆問題に対処する反復的アプローチとして,暗黙的かつ連続的なシーン不一致の表現を確立するニューラル不一致場(NDF)を提案する。
NDFは3次元のシーンにおける不均一性の変化をシームレスかつ正確に評価することができ、任意の解像度で不均一性を識別することができ、誤りや補間不正確性をサンプリングする傾向にある従来の不均一性マップの限界を克服することができる。
提案したNAFネットワークアーキテクチャは,多層パーセプトロンと組み合わせたハッシュ符号化を用いて,テクスチャレベルの詳細な相違を捉え,複雑なシーンの幾何学的情報を表現する能力を向上させる。
光フィールドデータに固有の空間角の一貫性を活用することにより、光フィールドデータから中心視画像を生成するための微分可能前方モデルを開発する。
フォワードモデルに基づいて,微分伝搬演算子を用いたNDF再構成の逆問題に対する最適化手法を確立する。
さらに、トレーニングデータセットを必要としない最適化スキームにおいて、NDFを再構成する反復解法を採用し、様々な取得方法によって取得された光フィールドデータに適用する。
実験により,提案手法を用いて光フィールドデータから高品質なNAFを再構成できることが実証された。
高分解能の相違はNDFによって効果的に回復することができ、シーンの相違を暗黙的に連続的に表現する能力を示す。
This study proposes a neural disparity field (NDF) that establishes an implicit, continuous representation of scene disparity based on a neural field and an iterative approach to address the inverse problem of NDF reconstruction from light-field data. NDF enables seamless and precise characterization of disparity variations in three-dimensional scenes and can discretize disparity at any arbitrary resolution, overcoming the limitations of traditional disparity maps that are prone to sampling errors and interpolation inaccuracies. The proposed NDF network architecture utilizes hash encoding combined with multilayer perceptrons to capture detailed disparities in texture levels, thereby enhancing its ability to represent the geometric information of complex scenes. By leveraging the spatial-angular consistency inherent in light-field data, a differentiable forward model to generate a central view image from the light-field data is developed. Based on the forward model, an optimization scheme for the inverse problem of NDF reconstruction using differentiable propagation operators is established. Furthermore, an iterative solution method is adopted to reconstruct the NDF in the optimization scheme, which does not require training datasets and applies to light-field data captured by various acquisition methods. Experimental results demonstrate that high-quality NDF can be reconstructed from light-field data using the proposed method. High-resolution disparity can be effectively recovered by NDF, demonstrating its capability for the implicit, continuous representation of scene disparities. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# ユーザからのフィードバックは常に有益か?ソースデータのない半監督ドメイン適応のための検索潜在ディフェンディング
Is user feedback always informative? Retrieval Latent Defending for Semi-Supervised Domain Adaptation without Source Data ( http://arxiv.org/abs/2407.15383v1 ) ライセンス: Link先を確認 | Junha Song, Tae Soo Kim, Junha Kim, Gunhee Nam, Thijs Kooi, Jaegul Choo, | (参考訳) 本稿では,実際のアプリケーションで容易に利用できる小さなユーザフィードバック(ラベル付きターゲットデータ)を活用して,ソースモデルをターゲット環境に適用することを目的とする。
図1に示すように、既存の半教師付きドメイン適応(SemiSDA)手法は、そのようなフィードバックデータを直接利用する場合、適応性能が低下することが多い。
我々はこの現象をNBF(Negatively Biased Feedback)と呼ばれる新しい概念を用いて解析する。
この問題を回避しながらこのフィードバックを活用するために,スケーラブルな適応型アプローチであるRetrieval Latent Defendingを提案する。
このアプローチは、既存のSemiSDA法において、適応プロセス全体を通して潜在防御サンプルを利用することで、バランスの取れた教師付き信号でモデルを適応させるのに役立つ。
NBFによる問題点と、画像分類、セマンティックセグメンテーション、実世界の医療画像アプリケーションなど、さまざまなベンチマークにおけるアプローチの有効性を実証する。
複数の最先端のSemiSDA手法と我々のアプローチを統合することで、性能が大幅に向上することを明らかにする。
This paper aims to adapt the source model to the target environment, leveraging small user feedback (i.e., labeled target data) readily available in real-world applications. We find that existing semi-supervised domain adaptation (SemiSDA) methods often suffer from poorly improved adaptation performance when directly utilizing such feedback data, as shown in Figure 1. We analyze this phenomenon via a novel concept called Negatively Biased Feedback (NBF), which stems from the observation that user feedback is more likely for data points where the model produces incorrect predictions. To leverage this feedback while avoiding the issue, we propose a scalable adapting approach, Retrieval Latent Defending. This approach helps existing SemiSDA methods to adapt the model with a balanced supervised signal by utilizing latent defending samples throughout the adaptation process. We demonstrate the problem caused by NBF and the efficacy of our approach across various benchmarks, including image classification, semantic segmentation, and a real-world medical imaging application. Our extensive experiments reveal that integrating our approach with multiple state-of-the-art SemiSDA methods leads to significant performance improvements. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# マスケッド適応アンサンブルを用いたロバスト・ビジョン・トランス
Towards Robust Vision Transformer via Masked Adaptive Ensemble ( http://arxiv.org/abs/2407.15385v1 ) ライセンス: Link先を確認 | Fudong Lin, Jiadong Lou, Xu Yuan, Nian-Feng Tzeng, | (参考訳) 対人訓練(AT)は、対人攻撃に対する視覚変換器(ViT)の堅牢性を向上させるのに役立つ。
しかし、この逆噴射方式は必然的に標準精度の低下を招くため、標準精度とロバスト性の間のトレードオフが要求される。
さらに、ATソリューションは依然としてアダプティブアタックに対して脆弱である。
このような欠点に対処するため,本研究では,新たに開発した適応アンサンブルにブリッジされた検出器と分類器を含む,新しいViTアーキテクチャを提案する。
具体的には,敵対例の検出がガイドバックプロパゲーション手法の恩恵を受けることを実証的に発見する。
この発見で駆動される新しいマルチヘッド自己認識(MSA)機構が導入された。
次に、2つのエンコーダを持つ分類器を用いて、クリーン画像と逆例からそれぞれ視覚表現を抽出し、適応アンサンブルを用いて2つのエンコーダから視覚表現の割合を適応的に調整し、正確な分類を行う。
この設計により、私たちのViTアーキテクチャは、標準精度とロバスト性の間のトレードオフをよりよく達成できます。
さらに、適応アンサンブル技術により、入力データ内の画像パッチのランダムなサブセットをマスクでき、標準精度を維持しながら、適応攻撃に対するViTの堅牢性を高めることができる。
CIFAR-10における我々のViTアーキテクチャは, それぞれ90.3%, 49.8%の正正正正正正正正正正正正正正正正正正正正正正正正正正正則を達成している。
Adversarial training (AT) can help improve the robustness of Vision Transformers (ViT) against adversarial attacks by intentionally injecting adversarial examples into the training data. However, this way of adversarial injection inevitably incurs standard accuracy degradation to some extent, thereby calling for a trade-off between standard accuracy and robustness. Besides, the prominent AT solutions are still vulnerable to adaptive attacks. To tackle such shortcomings, this paper proposes a novel ViT architecture, including a detector and a classifier bridged by our newly developed adaptive ensemble. Specifically, we empirically discover that detecting adversarial examples can benefit from the Guided Backpropagation technique. Driven by this discovery, a novel Multi-head Self-Attention (MSA) mechanism is introduced to enhance our detector to sniff adversarial examples. Then, a classifier with two encoders is employed for extracting visual representations respectively from clean images and adversarial examples, with our adaptive ensemble to adaptively adjust the proportion of visual representations from the two encoders for accurate classification. This design enables our ViT architecture to achieve a better trade-off between standard accuracy and robustness. Besides, our adaptive ensemble technique allows us to mask off a random subset of image patches within input data, boosting our ViT's robustness against adaptive attacks, while maintaining high standard accuracy. Experimental results exhibit that our ViT architecture, on CIFAR-10, achieves the best standard accuracy and adversarial robustness of 90.3% and 49.8%, respectively. | 翻訳日:2024-07-23 16:10:42 公開日:2024-07-22 |
# ナノメカニカル原子間力量子ビット
A Nanomechanical Atomic Force Qubit ( http://arxiv.org/abs/2407.15387v1 ) ライセンス: Link先を確認 | Shahin Jahanbani, Zi-Huai Zhang, Binhan Hua, Kadircan Godeneli, Boris Müllendorff, Xueyue Zhang, Haoxin Zhou, Alp Sipahigil, | (参考訳) シリコンナノメカニカル共振器は極低温とマイクロ波周波数で超長寿命を示す。
これらのデバイスにおける単一フォノンの量子制御は、これまでは、アシラリー量子ビットへの結合によって実現された非線形性に依存してきた。
本研究では,原子間力によるシリコンナノメカニカル量子ビットの実現を,アシラリー量子ビットに結合することなく提案する。
提案したqubitは60MHzで動作し、シングルフォノンレベルのアンハーモニシティは5MHzである。
本稿では、電気機械共振器が分散状態の読み出しとマルチキュービット演算を可能にする回路量子音響力学アーキテクチャを提案する。
このプラットフォームで実現可能な強力なアンハーモニック性、超高機械的品質要素、および小さなフットプリントの組み合わせは、量子情報処理とトランスダクションのための量子非線形フォニックを可能にする。
Silicon nanomechanical resonators display ultra-long lifetimes at cryogenic temperatures and microwave frequencies. Achieving quantum control of single-phonons in these devices has so far relied on nonlinearities enabled by coupling to ancillary qubits. In this work, we propose using atomic forces to realize a silicon nanomechanical qubit without coupling to an ancillary qubit. The proposed qubit operates at 60 MHz with a single-phonon level anharmonicity of 5 MHz. We present a circuit quantum acoustodynamics architecture where electromechanical resonators enable dispersive state readout and multi-qubit operations. The combination of strong anharmonicity, ultrahigh mechanical quality factors, and small footprints achievable in this platform could enable quantum-nonlinear phononics for quantum information processing and transduction. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# ピルによる中毒:フェデレーション学習における囲い込み検出
Poisoning with A Pill: Circumventing Detection in Federated Learning ( http://arxiv.org/abs/2407.15389v1 ) ライセンス: Link先を確認 | Hanxi Guo, Hao Wang, Tao Song, Tianhang Zheng, Yang Hua, Haibing Guan, Xiangyu Zhang, | (参考訳) クライアントのデータに直接アクセスすることなく、フェデレートドラーニング(FL)は、既存の分散機械学習技術の中でデータプライバシ保護の独特な強みで知られている。
しかし、その分布的かつ反復的な性質により、FLは本質的に様々な毒殺攻撃に対して脆弱である。
これらの脅威に対処するため、さまざまな検出指標を使用して悪意のあるクライアントをフィルタリングする広範な防御策が提案されている。
既存の攻撃や防御について分析した結果,モデル冗長性には注意が欠如していることが判明した。
ニューラルネットワークでは、様々なモデルパラメータがモデルの性能に異なる貢献をする。
しかし、FLの既存の攻撃はすべてのモデル更新パラメータを同じ戦略で操作し、共通の防御によって容易に検出できる。
一方、防衛隊はモデル全体の統計的特徴を分析する傾向があり、高度な攻撃を行う余地を残している。
本報告では,FLにおける検出に対する既存のFL中毒攻撃の有効性とステルス性を向上し,既存の防御の固有の欠陥を指摘し,きめ細かなFLセキュリティの必要性を明らかにすることを目的とした,汎用的かつ攻撃に依存しない拡張手法を提案する。
具体的には、FLトレーニング中に毒(既存の攻撃によって生成された)をピル(新しい構造を持つ小さなサブネット)に戦略的に構築し、生成し、注入する3段階の手法を用いている。
広汎な実験結果から,本手法により増強されたFL中毒攻撃は,すべての一般的な防御を回避でき,最大7倍のエラー率増加を達成でき,またIIDおよび非IIDデータにおいて,クロスサイロおよびクロスデバイスFLシステムにおいて平均2倍以上のエラー率増加を達成できることがわかった。
Without direct access to the client's data, federated learning (FL) is well-known for its unique strength in data privacy protection among existing distributed machine learning techniques. However, its distributive and iterative nature makes FL inherently vulnerable to various poisoning attacks. To counteract these threats, extensive defenses have been proposed to filter out malicious clients, using various detection metrics. Based on our analysis of existing attacks and defenses, we find that there is a lack of attention to model redundancy. In neural networks, various model parameters contribute differently to the model's performance. However, existing attacks in FL manipulate all the model update parameters with the same strategy, making them easily detectable by common defenses. Meanwhile, the defenses also tend to analyze the overall statistical features of the entire model updates, leaving room for sophisticated attacks. Based on these observations, this paper proposes a generic and attack-agnostic augmentation approach designed to enhance the effectiveness and stealthiness of existing FL poisoning attacks against detection in FL, pointing out the inherent flaws of existing defenses and exposing the necessity of fine-grained FL security. Specifically, we employ a three-stage methodology that strategically constructs, generates, and injects poison (generated by existing attacks) into a pill (a tiny subnet with a novel structure) during the FL training, named as pill construction, pill poisoning, and pill injection accordingly. Extensive experimental results show that FL poisoning attacks enhanced by our method can bypass all the popular defenses, and can gain an up to 7x error rate increase, as well as on average a more than 2x error rate increase on both IID and non-IID data, in both cross-silo and cross-device FL systems. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# ALLaM:アラビア語と英語の大規模言語モデル
ALLaM: Large Language Models for Arabic and English ( http://arxiv.org/abs/2407.15390v1 ) ライセンス: Link先を確認 | M Saiful Bari, Yazeed Alnumay, Norah A. Alzahrani, Nouf M. Alotaibi, Hisham A. Alyahya, Sultan AlRashed, Faisal A. Mirza, Shaykhah Z. Alsubaie, Hassan A. Alahmed, Ghadah Alabduljabbar, Raghad Alkhathran, Yousef Almushayqih, Raneem Alnajim, Salman Alsubaihi, Maryam Al Mansour, Majed Alrubaian, Ali Alammari, Zaki Alawami, Abdulmohsen Al-Thubaity, Ahmed Abdelali, Jeril Kuriakose, Abdalghani Abujabal, Nora Al-Twairesh, Areeb Alowisheq, Haidar Khan, | (参考訳) 本稿では,アラビア語技術 (ALT) のエコシステムを支える,大規模言語モデルのシリーズである Arabic Large Language Model を紹介する。
ALLaMは、言語アライメントと大規模知識伝達の値を考慮して、慎重に訓練されている。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張による第二言語習得と、アラビア語と英語のテキストの混合による事前訓練が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
さらに,言語間の知識アライメントのプロセスを支援するために,並列/翻訳データの有用性を強調した。
最後に,人間の嗜好に対する広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を大幅に向上させることができることを示す。
ALLaMは、MMLUアラビア、ACVA、アラビアエグザムを含む様々なアラビアのベンチマークで最先端のパフォーマンスを達成する。
私たちのアライメントモデルは、ベースアライメントモデルからアラビア語と英語の両方で改善します。
We present ALLaM: Arabic Large Language Model, a series of large language models to support the ecosystem of Arabic Language Technologies (ALT). ALLaM is carefully trained considering the values of language alignment and knowledge transfer at scale. Our autoregressive decoder-only architecture models demonstrate how second-language acquisition via vocabulary expansion and pretraining on a mixture of Arabic and English text can steer a model towards a new language (Arabic) without any catastrophic forgetting in the original language (English). Furthermore, we highlight the effectiveness of using parallel/translated data to aid the process of knowledge alignment between languages. Finally, we show that extensive alignment with human preferences can significantly enhance the performance of a language model compared to models of a larger scale with lower quality alignment. ALLaM achieves state-of-the-art performance in various Arabic benchmarks, including MMLU Arabic, ACVA, and Arabic Exams. Our aligned models improve both in Arabic and English from their base aligned models. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 無バイアスシーングラフ生成のための意味的多様性を考慮したプロトタイプベース学習
Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2407.15396v1 ) ライセンス: Link先を確認 | Jaehyeong Jeon, Kibum Kim, Kanghoon Yoon, Chanyoung Park, | (参考訳) シーングラフ生成(SGG)タスクは、画像内のオブジェクトを検出し、オブジェクト間の関係を表す述語を予測する。
しかし、SGGベンチマークデータセットでは、1つの述語が多様な意味論(セマンティック多様性)を示すとしても、各対象物対に1つの述語が注釈付けされ、既存のSGGモデルは1つの述語と1つの述語のみを予測するように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落とし、バイアスのある予測へと繋がる。
本稿では,述語の意味的多様性の理解に基づいて,偏りのない予測を可能にする,モデルに依存しない意味的多様性を意識したプロトタイプベース学習(DPL)フレームワークを提案する。
具体的には、DPLは各述語がカバーする意味空間内の領域を学習し、単一の述語が表現できる様々な意味論を区別する。
提案したモデルに依存しないDPLフレームワークは,既存のSGGモデルに対して大幅な性能向上をもたらし,述語の意味的多様性を効果的に理解することを示した。
The scene graph generation (SGG) task involves detecting objects within an image and predicting predicates that represent the relationships between the objects. However, in SGG benchmark datasets, each subject-object pair is annotated with a single predicate even though a single predicate may exhibit diverse semantics (i.e., semantic diversity), existing SGG models are trained to predict the one and only predicate for each pair. This in turn results in the SGG models to overlook the semantic diversity that may exist in a predicate, thus leading to biased predictions. In this paper, we propose a novel model-agnostic Semantic Diversity-aware Prototype-based Learning (DPL) framework that enables unbiased predictions based on the understanding of the semantic diversity of predicates. Specifically, DPL learns the regions in the semantic space covered by each predicate to distinguish among the various different semantics that a single predicate can represent. Extensive experiments demonstrate that our proposed model-agnostic DPL framework brings significant performance improvement on existing SGG models, and also effectively understands the semantic diversity of predicates. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 不連続粒子の自然解離
Spontaneous disentanglement of indistinguishable particles ( http://arxiv.org/abs/2407.15397v1 ) ライセンス: Link先を確認 | Eyal Buks, | (参考訳) 近年, 絡み合いを生じさせる非線形項を含む主方程式が研究されている。
本研究では,Bose-HubbardモデルとFermi-Hubbardモデルの両方を対象とした改良版を提案する。
ボソンとフェルミオンの両方で、非絡み合いは量子相転移を引き起こす。
A master equation containing a nonlinear term that gives rise to disentanglement has been recently investigated. In this study, a modified version, which is applicable for indistinguishable particles, is proposed, and explored for both the Bose-Hubbard and the Fermi-Hubbard models. It is found for both Bosons and Fermions that disentanglement can give rise to quantum phase transitions. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# Imposter.AI: 大規模言語モデルに対する隠れた意図による敵攻撃
Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models ( http://arxiv.org/abs/2407.15399v1 ) ライセンス: Link先を確認 | Xiao Liu, Liangzhi Li, Tong Xiang, Fuying Ye, Lu Wei, Wangyue Li, Noa Garcia, | (参考訳) ChatGPTのような大規模言語モデル(LLM)の開発により、その膨大なアプリケーションと潜在的な脆弱性が最前線に現れた。
開発者は誤用を軽減するために複数の安全メカニズムを統合しているが、特にモデルが逆入力に遭遇した場合、リスクは残る。
本研究では,LLMから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
我々は3つの戦略を列挙する。
(i)悪質な質問を一見無謀なサブクエストに分解すること。
(二)過度に悪意のある質問をより隠密で良心的な質問に書き直すこと。
三 例示のモデルに促すことにより、応答の有害性を高めること。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
GPT-3.5-turbo, GPT-4, Llama2で行った実験により, 従来の攻撃法と比較して有意な有効性を示した。
要約すると、この研究は、従来のアプローチよりも優れた新しい攻撃方法を導入し、重要な疑問を提起する。
With the development of large language models (LLMs) like ChatGPT, both their vast applications and potential vulnerabilities have come to the forefront. While developers have integrated multiple safety mechanisms to mitigate their misuse, a risk remains, particularly when models encounter adversarial inputs. This study unveils an attack mechanism that capitalizes on human conversation strategies to extract harmful information from LLMs. We delineate three pivotal strategies: (i) decomposing malicious questions into seemingly innocent sub-questions; (ii) rewriting overtly malicious questions into more covert, benign-sounding ones; (iii) enhancing the harmfulness of responses by prompting models for illustrative examples. Unlike conventional methods that target explicit malicious responses, our approach delves deeper into the nature of the information provided in responses. Through our experiments conducted on GPT-3.5-turbo, GPT-4, and Llama2, our method has demonstrated a marked efficacy compared to conventional attack methods. In summary, this work introduces a novel attack method that outperforms previous approaches, raising an important question: How to discern whether the ultimate intent in a dialogue is malicious? | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# フェデレーションラーニングにおける利己的なクライアントの対応
Tackling Selfish Clients in Federated Learning ( http://arxiv.org/abs/2407.15402v1 ) ライセンス: Link先を確認 | Andrea Augello, Ashish Gupta, Giuseppe Lo Re, Sajal K. Das, | (参考訳) Federated Learning(FL)は、参加者がローカルデータを公開せずに、協力的にモデルをトレーニングすることを可能にする分散機械学習パラダイムである。
しかし、FLが野放しにデプロイされると、一部のインテリジェントクライアントは、標準のトレーニングプロセスから意図的に逸脱し、グローバルモデルをローカルモデルに傾けるようにすることで、ローカルデータの分散を優先順位付けすることができる。
我々は、この不行なクライアントの新たなカテゴリーを利己的だと見なしている。
本稿では,FLサーバのロバスト集約戦略を提案する。
RFL-Selfは、受信したクライアントの真の更新を回復(または見積)するための革新的な手法を取り入れ、各ラウンドにおけるアップデートの堅牢な統計(規範の中間)を活用する。
回復したアグリゲーションの更新を含めることで、当社の戦略は自尊心に対する強い堅牢性を提供します。
MNISTとCIFAR-10データセットで得られた実験結果は、クライアントの2%が自尊心をもって行動することで、その精度を最大36%下げることができ、RFL-Selfは、グローバルモデルの性能を劣化させることなく、その効果を緩和できることを示した。
Federated Learning (FL) is a distributed machine learning paradigm facilitating participants to collaboratively train a model without revealing their local data. However, when FL is deployed into the wild, some intelligent clients can deliberately deviate from the standard training process to make the global model inclined toward their local model, thereby prioritizing their local data distribution. We refer to this novel category of misbehaving clients as selfish. In this paper, we propose a Robust aggregation strategy for FL server to mitigate the effect of Selfishness (in short RFL-Self). RFL-Self incorporates an innovative method to recover (or estimate) the true updates of selfish clients from the received ones, leveraging robust statistics (median of norms) of the updates at every round. By including the recovered updates in aggregation, our strategy offers strong robustness against selfishness. Our experimental results, obtained on MNIST and CIFAR-10 datasets, demonstrate that just 2% of clients behaving selfishly can decrease the accuracy by up to 36%, and RFL-Self can mitigate that effect without degrading the global model performance. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# グラフ検索と検索によるオフライン模倣学習
Offline Imitation Learning Through Graph Search and Retrieval ( http://arxiv.org/abs/2407.15403v1 ) ライセンス: Link先を確認 | Zhao-Heng Yin, Pieter Abbeel, | (参考訳) 模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
しかし、現実の操作タスクの多くは、精密で器用なロボットとオブジェクトの相互作用を含むため、人間が高品質な専門家のデモンストレーションを収集することは困難である。
その結果、ロボットは準最適動作や非構造的相互作用からスキルを学ぶ必要があり、これは依然として重要な課題である。
既存の研究は通常、オフラインの深層強化学習(RL)を使ってこの問題を解決するが、実際にはこれらのアルゴリズムは不安定で脆弱である。
この問題を解決するために,グラフ検索と検索による準最適実演から学習する,単純かつ効果的なアルゴリズムGSRを提案する。
まず、事前学習された表現を用いて、相互作用体験をグラフに整理し、グラフ検索を行い、異なる振る舞いの値を計算する。
次に,各状態の最良の行動(行動)を特定し,その行動を学ぶために行動クローニングを利用するための検索ベースの手順を適用した。
本研究では,複雑な視覚的入力を伴うシミュレーションと実世界のロボット操作タスクにおいて,様々な物理的特性を持つ物体を用いた様々な精密かつ巧妙な操作技術について検討した。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
私たちのプロジェクトページはhttps://zhaohengyin.github.io/gsr.comです。
Imitation learning is a powerful machine learning algorithm for a robot to acquire manipulation skills. Nevertheless, many real-world manipulation tasks involve precise and dexterous robot-object interactions, which make it difficult for humans to collect high-quality expert demonstrations. As a result, a robot has to learn skills from suboptimal demonstrations and unstructured interactions, which remains a key challenge. Existing works typically use offline deep reinforcement learning (RL) to solve this challenge, but in practice these algorithms are unstable and fragile due to the deadly triad issue. To overcome this problem, we propose GSR, a simple yet effective algorithm that learns from suboptimal demonstrations through Graph Search and Retrieval. We first use pretrained representation to organize the interaction experience into a graph and perform a graph search to calculate the values of different behaviors. Then, we apply a retrieval-based procedure to identify the best behavior (actions) on each state and use behavior cloning to learn that behavior. We evaluate our method in both simulation and real-world robotic manipulation tasks with complex visual inputs, covering various precise and dexterous manipulation skills with objects of different physical properties. GSR can achieve a 10% to 30% higher success rate and over 30% higher proficiency compared to baselines. Our project page is at https://zhaohengyin.github.io/gsr. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 道路安全の自動化:AIによるサインと表面損傷検出の強化
Automated Road Safety: Enhancing Sign and Surface Damage Detection with AI ( http://arxiv.org/abs/2407.15406v1 ) ライセンス: Link先を確認 | Davide Merolla, Vittorio Latorre, Antonio Salis, Gianluca Boanelli, | (参考訳) 公共交通機関は私たちの生活において重要な役割を担い、道路網はスマートシティの実現において重要な要素である。
近年のAIの進歩により、道路面や道路標識の異常を検知できる高度な監視システムの開発が可能になった。
本稿では,高度深層学習技術を用いた交通標識と道路表面損傷の検出・分類による道路安全向上のための革新的なアプローチを提案する。
この統合されたアプローチは、積極的維持戦略をサポートし、モーリス地域とカンポバッソ市の道路安全と資源配分を改善している。
Casa delle Tecnologie Emergenti (House of Emergent Technologies) Molise (Molise CTE) というイタリアの経済成長大臣(MIMIT)が資金提供した研究プロジェクトの一環として開発されたこのシステムは、クラウドコンピューティングや高性能コンピューティングなどの最先端技術を活用してGPUを活用している。
市町村にとって貴重な道具であり、異常の迅速検出と維持作業の迅速な組織化を可能にしている。
Public transportation plays a crucial role in our lives, and the road network is a vital component in the implementation of smart cities. Recent advancements in AI have enabled the development of advanced monitoring systems capable of detecting anomalies in road surfaces and road signs, which, if unaddressed, can lead to serious road accidents. This paper presents an innovative approach to enhance road safety through the detection and classification of traffic signs and road surface damage using advanced deep learning techniques. This integrated approach supports proactive maintenance strategies, improving road safety and resource allocation for the Molise region and the city of Campobasso. The resulting system, developed as part of the Casa delle Tecnologie Emergenti (House of Emergent Technologies) Molise (Molise CTE) research project funded by the Italian Minister of Economic Growth (MIMIT), leverages cutting-edge technologies such as Cloud Computing and High Performance Computing with GPU utilization. It serves as a valuable tool for municipalities, enabling quick detection of anomalies and the prompt organization of maintenance operations | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 透明で実践的なAI規制への解決策:オープンソースのジェネレーティブAIベースのアプリケーションのためのプライバシ栄養ラベル
A Solution toward Transparent and Practical AI Regulation: Privacy Nutrition Labels for Open-source Generative AI-based Applications ( http://arxiv.org/abs/2407.15407v1 ) ライセンス: Link先を確認 | Meixue Si, Shidong Pan, Dianshu Liao, Xiaoyu Sun, Zhen Tao, Wenchang Shi, Zhenchang Xing, | (参考訳) ジェネレーティブ・人工知能ベースのアプリケーション(GAI)の急速な開発と普及により、創造性の向上、体験のパーソナライズ、アクセシビリティの向上、さまざまな領域におけるイノベーションと効率の向上などによって、人々の生活を大いに豊かにしている。
しかしながら、GAIアプリケーションの開発とともに、プライバシープラクティスの透明性に関する懸念が高まっている。
従来のプライバシーポリシーは、複雑さと長さのために重要なプライバシー情報を効果的に伝達することができず、オープンソースコミュニティの開発者は、より多くのプライバシープラクティスを無視することが多い。
調査対象のオープンソースGAIアプリの12.2%のみがプライバシポリシを提供している。
これを解決するために,規制駆動型GAIプライバシーラベルを提案し,コードリポジトリに基づいてこれらのラベルを自動的に生成する新しいフレームワークであるRepo2Labelを紹介した。
ユーザ調査は,提案したGAIプライバシーラベルフォーマットの共通支持を示す。
さらに、Repo2Labelは、ベンチマークデータセットに基づいて、精度0.81、リコール0.88、F1スコア0.84を達成し、開発者が宣言したプライバシー通知を大幅に上回る。
また、オープンソースのGAIアプリの共通規制の遵守、他のプライバシ通知との比較、さまざまな利害関係者への影響についても論じる。
我々の発見は、Repo2Labelが、GAIアプリのプライバシー透明性を強化し、より実用的で責任のあるものにするための重要なツールになり得ることを示唆している。
The rapid development and widespread adoption of Generative Artificial Intelligence-based (GAI) applications have greatly enriched our daily lives, benefiting people by enhancing creativity, personalizing experiences, improving accessibility, and fostering innovation and efficiency across various domains. However, along with the development of GAI applications, concerns have been raised about transparency in their privacy practices. Traditional privacy policies often fail to effectively communicate essential privacy information due to their complexity and length, and open-source community developers often neglect privacy practices even more. Only 12.2% of examined open-source GAI apps provide a privacy policy. To address this, we propose a regulation-driven GAI Privacy Label and introduce Repo2Label, a novel framework for automatically generating these labels based on code repositories. Our user study indicates a common endorsement of the proposed GAI privacy label format. Additionally, Repo2Label achieves a precision of 0.81, recall of 0.88, and F1-score of 0.84 based on the benchmark dataset, significantly outperforming the developer self-declared privacy notices. We also discuss the common regulatory (in)compliance of open-source GAI apps, comparison with other privacy notices, and broader impacts to different stakeholders. Our findings suggest that Repo2Label could serve as a significant tool for bolstering the privacy transparency of GAI apps and make them more practical and responsible. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 運動言語モデルの時間的グラウンド化のための時系列的精度検索
Chronologically Accurate Retrieval for Temporal Grounding of Motion-Language Models ( http://arxiv.org/abs/2407.15408v1 ) ライセンス: Link先を確認 | Kent Fujiwara, Mikihiro Tanaka, Qing Yu, | (参考訳) テキストアノテーションを備えた大規模モーションデータセットのリリースにより、言語と3D人間の動きのための堅牢な潜在空間を確立するタスクが、最近関心の高まりを目撃した。
人間の動きとテキストを特徴に変換する手法が提案されている。
言語と運動の表現を整合させるこれらの努力にもかかわらず、時間的要素はしばしば見過ごされ、特に複合行動のために、時間的不正確な結果をもたらすと主張している。
動作言語潜在空間における時間的アライメントを隠蔽するため,時間的精度の高いCAR(Choronologically Accurate Retrieval)を提案し,そのモデルに対する時間的理解を評価する。
テキスト記述をイベントに分解し、複合動作記述におけるイベントの順序をシャッフルすることで、負のテキストサンプルを作成する。
次に、動作言語モデルのための簡単なタスクを設計し、より可能性の高いテキストを、真実と時系列的にシャッフルされたバージョンから検索する。
CARは、従来の評価基準では印象的な性能であったにもかかわらず、現在の動き言語モデルが人間の動きの事象の時系列を区別できないケースが多いことを明らかにしている。
テキストと動きの時間的アライメントを改善するために、トレーニング中にイベントのシャッフルシーケンスを負のサンプルとして用いることで、動き言語モデルを強化することを提案する。
本研究では,従来の動作言語モデルを用いたテキスト・モーション・検索とテキスト・ツー・モーション・ジェネレーションの実験を行い,動作言語アライメントにおける時間的要素の検討の必要性を示す。
With the release of large-scale motion datasets with textual annotations, the task of establishing a robust latent space for language and 3D human motion has recently witnessed a surge of interest. Methods have been proposed to convert human motion and texts into features to achieve accurate correspondence between them. Despite these efforts to align language and motion representations, we claim that the temporal element is often overlooked, especially for compound actions, resulting in chronological inaccuracies. To shed light on the temporal alignment in motion-language latent spaces, we propose Chronologically Accurate Retrieval (CAR) to evaluate the chronological understanding of the models. We decompose textual descriptions into events, and prepare negative text samples by shuffling the order of events in compound action descriptions. We then design a simple task for motion-language models to retrieve the more likely text from the ground truth and its chronologically shuffled version. CAR reveals many cases where current motion-language models fail to distinguish the event chronology of human motion, despite their impressive performance in terms of conventional evaluation metrics. To achieve better temporal alignment between text and motion, we further propose to use these texts with shuffled sequence of events as negative samples during training to reinforce the motion-language models. We conduct experiments on text-motion retrieval and text-to-motion generation using the reinforced motion-language models, which demonstrate improved performance over conventional approaches, indicating the necessity to consider temporal elements in motion-language alignment. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 量子漁業情報に基づくより強い絡み合い基準
Stronger Entanglement Criteria Based on Quantum Fisher Information ( http://arxiv.org/abs/2407.15413v1 ) ライセンス: Link先を確認 | Ao-Xiang Liu, Ma-Cheng Yang, Cong-Feng Qiao, | (参考訳) エンタングルメント検出を最適化するために、測定軌道上のQFIを最大化することにより、量子フィッシャー情報(QFI)において、メトロジー的に動作するエンタングルメント条件を定式化する。
具体的には、局所正規直交可観測(LOO)と対称情報完全正作用素値測度(SIC-POVM)の2つの典型的な局所可観測量のクラスを考える。
結果として、SIC-POVMはエンタングルメント検出においてLOOよりも優れていることが示され、量子情報処理においてSIC-POVMの一般的優位性はまだ確認されていないことが示唆されている。
To optimize the entanglement detection, we formulate the metrologically operational entanglement condition in quantum Fisher information(QFI) by maximizing the QFI on the measurement orbit. Specifically, we consider two classes of typical local observables, i.e. the local orthonormal observables (LOO) and symmetric informationally complete positive operator-valued measures (SIC-POVM). Result shows that the SIC-POVM is superior to LOO in entanglement detection, which in some sense hints the yet unconfirmed generally superiority of SIC-POVM in quantum information processing. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 変圧器モデルにおけるDPSGD改善のための重みシャッフル
Weights Shuffling for Improving DPSGD in Transformer-based Models ( http://arxiv.org/abs/2407.15414v1 ) ライセンス: Link先を確認 | Jungang Yang, Zhe Ji, Liyao Xiang, | (参考訳) 差別化プライバシ(DP)機構、特に高次元設定では、データユーティリティを損なうことなくプライバシを維持するという課題に直面していることが多い。
本研究は,DPSGD(Dariial-Private Stochastic Gradient Descent)における革新的なシャッフル機構を導入し,非シャッフルケースの同一のプライバシ保証において,大規模モデルの実用性を向上する。
具体的には、ランダムシャッフルは、置換不変性によってモデル精度に影響を与えることなく、勾配降下の軌道にさらなるランダム性をもたらすことを明らかにする。
順列化は理論上はDPSGDのプライバシー保証を改善するが、シャッフルモデル上での正確なプライバシー損失の追跡は特に困難である。
そこで我々は, 対数正規分布の和による近似を利用して, シャッフルDPSGDがDP保証を満たす条件を導出する。
調査の結果,我々の状態は,監査されたプライバシレベルにかなり近いDP保証を提供しており,本手法を実際に効果的に評価できることが示唆された。
実験により理論的導出が検証され、様々なモデルやタスクにおける最先端のベースラインよりもDPSGDの精度が向上することが示された。
Differential Privacy (DP) mechanisms, especially in high-dimensional settings, often face the challenge of maintaining privacy without compromising the data utility. This work introduces an innovative shuffling mechanism in Differentially-Private Stochastic Gradient Descent (DPSGD) to enhance the utility of large models at the same privacy guarantee of the unshuffled case. Specifically, we reveal that random shuffling brings additional randomness to the trajectory of gradient descent while not impacting the model accuracy by the permutation invariance property -- the model can be equivalently computed in both forward and backward propagations under permutation. We show that permutation indeed improves the privacy guarantee of DPSGD in theory, but tracking the exact privacy loss on shuffled model is particularly challenging. Hence we exploit the approximation on sum of lognormal distributions to derive the condition for the shuffled DPSGD to meet the DP guarantee. Auditing results show that our condition offers a DP guarantee quite close to the audited privacy level, demonstrating our approach an effective estimation in practice. Experimental results have verified our theoretical derivation and illustrate that our mechanism improves the accuracy of DPSGD over the state-of-the-art baselines on a variety of models and tasks. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# LLaST:大規模言語モデルを用いたエンドツーエンド音声翻訳システムの改良
LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models ( http://arxiv.org/abs/2407.15415v1 ) ライセンス: Link先を確認 | Xi Chen, Songyang Zhang, Qibing Bai, Kai Chen, Satoshi Nakamura, | (参考訳) LLaST(Large Language model based speech-to-text translation system)を提案する。
本稿では,LLMに適したモデル設計と最適化手法を検討することで,エンドツーエンド音声翻訳(E2E ST)モデルの限界に対処する。
我々のアプローチには、LLMベースの音声翻訳アーキテクチャ設計、ASR強化トレーニング、多言語データ拡張、二重LoRA最適化が含まれる。
提案手法は,CoVoST-2ベンチマークにおいて優れた性能を示し,LLMによる優れたスケーリング能力を示す。
我々は,この手法が音声翻訳の強力なベースラインとして機能し,LLMに基づく音声翻訳フレームワークの今後の改良に対する洞察を提供すると信じている。
データ、コード、モデルをhttps://github.com/openaudiolab/LLaSTで公開しています。
We introduces LLaST, a framework for building high-performance Large Language model based Speech-to-text Translation systems. We address the limitations of end-to-end speech translation(E2E ST) models by exploring model architecture design and optimization techniques tailored for LLMs. Our approach includes LLM-based speech translation architecture design, ASR-augmented training, multilingual data augmentation, and dual-LoRA optimization. Our approach demonstrates superior performance on the CoVoST-2 benchmark and showcases exceptional scaling capabilities powered by LLMs. We believe this effective method will serve as a strong baseline for speech translation and provide insights for future improvements of the LLM-based speech translation framework. We release the data, code and models in https://github.com/openaudiolab/LLaST. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# 点追跡のための局所的全対対応
Local All-Pair Correspondence for Point Tracking ( http://arxiv.org/abs/2407.15420v1 ) ライセンス: Link先を確認 | Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee, | (参考訳) ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。
このタスクの以前のアプローチは、クエリ画像のポイントからターゲット画像のローカル領域への対応を確立するために、しばしば局所的な2D相関マップに依存しており、しばしば同種領域や反復的な特徴に悩まされ、あいまいさにマッチする。
LocoTrackはこの課題を、局所的な4D相関などの地域間の全対対応を利用して、双方向の対応と一致した滑らかさにより、あいまいさに対する堅牢性を大幅に向上させる、新しいアプローチで克服している。
また、計算効率を向上させるために軽量な相関エンコーダと、長期時間情報を統合するためのコンパクトなトランスフォーマーアーキテクチャを組み込んだ。
LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。
We introduce LocoTrack, a highly accurate and efficient model designed for the task of tracking any point (TAP) across video sequences. Previous approaches in this task often rely on local 2D correlation maps to establish correspondences from a point in the query image to a local region in the target image, which often struggle with homogeneous regions or repetitive features, leading to matching ambiguities. LocoTrack overcomes this challenge with a novel approach that utilizes all-pair correspondences across regions, i.e., local 4D correlation, to establish precise correspondences, with bidirectional correspondence and matching smoothness significantly enhancing robustness against ambiguities. We also incorporate a lightweight correlation encoder to enhance computational efficiency, and a compact Transformer architecture to integrate long-term temporal information. LocoTrack achieves unmatched accuracy on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than the current state-of-the-art. | 翻訳日:2024-07-23 16:00:55 公開日:2024-07-22 |
# ソコバンを再生するリカレントニューラルネットワークにおける計画行動
Planning behavior in a recurrent neural network that plays Sokoban ( http://arxiv.org/abs/2407.15421v1 ) ライセンス: Link先を確認 | Adrià Garriga-Alonso, Mohammad Taufeeque, Adam Gleave, | (参考訳) ニューラルネットワークがいかに新しい状況に一般化するかを予測するためには、その原因を理解することが不可欠である。
Guez et al (2019, "An investigation of model-free planning") は、モデルなし強化学習でソコバンをプレイするためにリカレントニューラルネットワーク (RNN) を訓練した。
テスト時にエピソードの開始に余分な計算ステップを追加することで、RNNの成功率が向上することがわかった。
さらに、この現象を調査し、トレーニングの早い段階で急速に出現し、徐々に消失するが、比較的簡単なレベルに留まる。
RNNはエピソード開始時に冗長なアクションを取ることが多く、これらは余分な計算ステップを追加することで削減される。
我々の結果は、段階ごとの罰則にもかかわらず、RNNは「平和」による思考に時間がかかることを学び、訓練が計画能力にインセンティブを与えることを示唆している。
このモデルの小さなサイズ(1.29Mパラメータ)と興味深い振る舞いは、機械的解釈性に優れたモデル生物となる。
To predict how advanced neural networks generalize to novel situations, it is essential to understand how they reason. Guez et al. (2019, "An investigation of model-free planning") trained a recurrent neural network (RNN) to play Sokoban with model-free reinforcement learning. They found that adding extra computation steps to the start of episodes at test time improves the RNN's success rate. We further investigate this phenomenon, finding that it rapidly emerges early on in training and then slowly fades, but only for comparatively easier levels. The RNN also often takes redundant actions at episode starts, and these are reduced by adding extra computation steps. Our results suggest that the RNN learns to take time to think by `pacing', despite the per-step penalties, indicating that training incentivizes planning capabilities. The small size (1.29M parameters) and interesting behavior of this model make it an excellent model organism for mechanistic interpretability. | 翻訳日:2024-07-23 15:50:50 公開日:2024-07-22 |
# IPブロードキャストとオーディオタグの統合 - ワークフローと課題-
Integrating IP Broadcasting with Audio Tags- Workflow and Challenges ( http://arxiv.org/abs/2407.15423v1 ) ライセンス: Link先を確認 | Rhys Burchett-Vass, Arshdeep Singh, Gabriel Bibbó, Mark D. Plumbley, | (参考訳) 放送業界は、ニュース収集からライブ音楽イベントまで、生放送と録画されたコンテンツ制作の両方に革命をもたらすIP技術の採用をますます進めている。
IPブロードキャストは、最新のネットワーク技術と整合して、容易に構成可能な方法でオーディオおよびビデオ信号の転送を可能にする。
このIPワークフローへの移行により、ルーティング信号だけでなく、標準的なWeb開発技術を使用したツールの統合によって、はるかに柔軟性が向上します。
考えられる1つのツールは、ライブオーディオタグの使用であり、コンテンツの生産に多くの用途がある。
これには、自動クローズドキャプションから、シーン内の望ましくない音のイベントを特定することが含まれる。
本稿では,複数の異なるネットワーク構成に統合可能な,小さな分離コードモジュールであるマイクロサービスにオーディオタグモデルをコンテナ化するプロセスについて述べる。
目標は、小さなプロダクションから大企業まで、あらゆる規模のブロードキャストワークフローにシームレスにデプロイできるモジュール式でアクセス可能で柔軟なツールを開発することです。
選択した音声タグ付けモデルのレイテンシに関する課題とその製品の有用性への影響について論じる。
The broadcasting industry is increasingly adopting IP techniques, revolutionising both live and pre-recorded content production, from news gathering to live music events. IP broadcasting allows for the transport of audio and video signals in an easily configurable way, aligning with modern networking techniques. This shift towards an IP workflow allows for much greater flexibility, not only in routing signals but with the integration of tools using standard web development techniques. One possible tool could include the use of live audio tagging, which has a number of uses in the production of content. These include from automated closed captioning to identifying unwanted sound events within a scene. In this paper, we describe the process of containerising an audio tagging model into a microservice, a small segregated code module that can be integrated into a multitude of different network setups. The goal is to develop a modular, accessible, and flexible tool capable of seamless deployment into broadcasting workflows of all sizes, from small productions to large corporations. Challenges surrounding latency of the selected audio tagging model and its effect on the usefulness of the end product are discussed. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# ドメイン内不一致によるビデオ異常検出のための双方向スキップフレーム予測
Bidirectional skip-frame prediction for video anomaly detection with intra-domain disparity-driven attention ( http://arxiv.org/abs/2407.15424v1 ) ライセンス: Link先を確認 | Jiahao Lyu, Minghua Zhao, Jing Hu, Runtao Xi, Xuewen Huang, Shuangli Du, Cheng Shi, Tian Ma, | (参考訳) ビデオ監視装置の普及とインテリジェントなシステム開発への需要により、ビデオ異常検出(VAD)はインテリジェントな監視システムの構築において重要な役割を担っている。
正常事象と異常事象の識別境界を広げてパフォーマンスを高めることが、VADの共通の目標と課題である。
この問題に対処するため,両ストリームオートエンコーダをベースとしたBidirectional Skip-frame Prediction (BiSP) ネットワークを提案する。
BiSPは、トレーニングフェーズのフレームをスキップして、それぞれ前方および後方のフレーム予測を行い、テストフェーズでは、双方向連続フレームを使用して、同一の中間フレームを同時予測し、通常のイベントと異常イベントの相違度を拡大する。
BiSPは, 移動パターンと物体スケールの視点から, 分散チャネルの注意とコンテキスト空間の注意をそれぞれ設計し, 特徴抽出における正常と異常の相違の最大化を, 異なる次元で確保する。
4つのベンチマークデータセットによる大規模な実験は、提案したBiSPの有効性を示し、最先端の競合手法を大幅に上回っている。
With the widespread deployment of video surveillance devices and the demand for intelligent system development, video anomaly detection (VAD) has become an important part of constructing intelligent surveillance systems. Expanding the discriminative boundary between normal and abnormal events to enhance performance is the common goal and challenge of VAD. To address this problem, we propose a Bidirectional Skip-frame Prediction (BiSP) network based on a dual-stream autoencoder, from the perspective of learning the intra-domain disparity between different features. The BiSP skips frames in the training phase to achieve the forward and backward frame prediction respectively, and in the testing phase, it utilizes bidirectional consecutive frames to co-predict the same intermediate frames, thus expanding the degree of disparity between normal and abnormal events. The BiSP designs the variance channel attention and context spatial attention from the perspectives of movement patterns and object scales, respectively, thus ensuring the maximization of the disparity between normal and abnormal in the feature extraction and delivery with different dimensions. Extensive experiments from four benchmark datasets demonstrate the effectiveness of the proposed BiSP, which substantially outperforms state-of-the-art competing methods. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# 自己注意型ニューラルネットワークの実証能力モデル
Empirical Capacity Model for Self-Attention Neural Networks ( http://arxiv.org/abs/2407.15425v1 ) ライセンス: Link先を確認 | Aki Härmä, Marcin Pietrasik, Anna Wilbik, | (参考訳) 大規模な事前学習型自己アテンションニューラルネットワーク(トランスフォーマー)は、近年、様々なタスクで大きな成功を収めている。
与えられたタスクにおけるモデルの性能は、トレーニングデータを記憶し、一般化する能力に依存する。
数十億のパラメータを持つ可能性のある大規模なトランスフォーマーモデルは、理論上、コンテンツを記憶する大きな能力を持っている。
しかし、現在の最適化アルゴリズムは理論的な能力に欠けており、その能力も内容に大きく依存している。
本稿では,一般的なトレーニングアルゴリズムと合成トレーニングデータを用いて得られたモデルのメモリ容量に着目した。
この結果に基づいて,汎用変換器の実証容量モデル(ECM)を導出する。
ECMは、タスクの目標記憶能力を定義する場合に最適なパラメータ数を持つタスク固有トランスフォーマーモデルの設計に使用できる。
Large pretrained self-attention neural networks, or transformers, have been very successful in various tasks recently. The performance of a model on a given task depends on its ability to memorize and generalize the training data. Large transformer models, which may have billions of parameters, in theory have a huge capacity to memorize content. However, the current algorithms for the optimization fall short of the theoretical capacity, and the capacity is also highly dependent on the content. In this paper, we focus on the memory capacity of these models obtained using common training algorithms and synthetic training data. Based on the results, we derive an empirical capacity model (ECM) for a generic transformer. The ECM can be used to design task-specific transformer models with an optimal number of parameters in cases where the target memorization capability of the task can be defined. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# 階層的・プログレッシブトレーニングによる資源効率の良いフェデレーション・マルチモーダル学習
Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training ( http://arxiv.org/abs/2407.15426v1 ) ライセンス: Link先を確認 | Ye Lin Tun, Chu Myaet Thwal, Minh N. H. Nguyen, Choong Seon Hong, | (参考訳) 異なるデータモダリティを組み合わせることで、ディープニューラルネットワークは複雑なタスクにより効果的に取り組むことができ、マルチモーダル学習がますます人気になる。
エンドユーザに近いマルチモーダルデータを活用するためには,多モーダル学習と,フェデレートラーニング(FL)などのプライバシ保護トレーニングアプローチを統合することが不可欠である。
しかし、従来の単モーダル学習と比較して、マルチモーダル設定では各モダリティに専用のエンコーダを必要とするため、より大規模で複雑なモデルが大きなリソースを必要としている。
これは、限られた計算資源と通信帯域で動くFLクライアントにとって大きな課題となる。
これらの課題に対処するため,レイヤワイドなマルチモーダル学習アプローチであるLW-FedMMLを導入し,学習プロセスを複数のステップに分割する。
各ステップはモデルの一部のみをトレーニングすることに集中し、それによってメモリと計算要求を大幅に削減する。
さらに、FLクライアントはトレーニング済みのモデル部分と中央サーバを交換するだけで、結果として発生する通信コストを削減できる。
提案手法の有効性を検証するため,様々なFLシナリオとマルチモーダル学習設定の広範な実験を行った。
その結果、LW-FedMMLは、FLクライアントのリソース負担を大幅に軽減しつつ、従来のエンドツーエンドのマルチモーダル学習(FedMML)と競合することを示した。
具体的には、LW-FedMMLはメモリ使用量を最大2.7\times$、計算演算(FLOP)を2.4\times$、通信総コストを2.3\times$に下げる。
また,プログレッシブトレーニング手法であるProg-FedMMLを導入する。
リソース効率はLW-FedMMLより低いが、Prog-FedMMLはエンドツーエンドのFedMMLのパフォーマンスを上回る可能性があり、リソース制約が少ないシナリオでは実行可能な選択肢である。
Combining different data modalities enables deep neural networks to tackle complex tasks more effectively, making multimodal learning increasingly popular. To harness multimodal data closer to end users, it is essential to integrate multimodal learning with privacy-preserving training approaches such as federated learning (FL). However, compared to conventional unimodal learning, multimodal setting requires dedicated encoders for each modality, resulting in larger and more complex models that demand significant resources. This presents a substantial challenge for FL clients operating with limited computational resources and communication bandwidth. To address these challenges, we introduce LW-FedMML, a layer-wise federated multimodal learning approach, which decomposes the training process into multiple steps. Each step focuses on training only a portion of the model, thereby significantly reducing the memory and computational requirements. Moreover, FL clients only need to exchange the trained model portion with the central server, lowering the resulting communication cost. We conduct extensive experiments across various FL scenarios and multimodal learning setups to validate the effectiveness of our proposed method. The results demonstrate that LW-FedMML can compete with conventional end-to-end federated multimodal learning (FedMML) while significantly reducing the resource burden on FL clients. Specifically, LW-FedMML reduces memory usage by up to $2.7\times$, computational operations (FLOPs) by $2.4\times$, and total communication cost by $2.3\times$. We also introduce a progressive training approach called Prog-FedMML. While it offers lesser resource efficiency than LW-FedMML, Prog-FedMML has the potential to surpass the performance of end-to-end FedMML, making it a viable option for scenarios with fewer resource constraints. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# YOLO-pdd:シークエンシャル画像を用いた深部表現を用いたマルチスケールPCB欠陥検出手法
YOLO-pdd: A Novel Multi-scale PCB Defect Detection Method Using Deep Representations with Sequential Images ( http://arxiv.org/abs/2407.15427v1 ) ライセンス: Link先を確認 | Bowen Liu, Dongjie Chen, Xiao Qi, | (参考訳) PCB製造産業の急速な成長に伴い、生産中の欠陥を検出するコンピュータビジョン検査の需要が高まっている。
PCB欠陥検出モデルの精度と一般化は依然として大きな課題である。
本稿では,Deep Convolutional Neural Networks(CNN)に基づくPCB欠陥検出のための高精度で堅牢でリアルタイムなエンドツーエンド手法を提案する。
伝統的な手法は、しばしば低い精度と限られた適用性に悩まされる。
本稿では, YOLOv5とマルチスケールモジュールを組み合わせた階層的残差接続手法を提案する。
PCB欠陥検出では、ノイズは背景と小さなターゲットを混乱させる。
YOLOv5モデルは、リアルタイム処理と正確なオブジェクト検出機能を備えた強力な基盤を提供する。
マルチスケールモジュールは、階層的残差のような接続を単一のブロックに組み込むことで、従来のアプローチを拡張し、マルチスケールの特徴抽出を可能にする。
このプラグイン・アンド・プレイ・モジュールは、様々な大きさと複雑さの欠陥を特定するのに有用な複数のスケールとレベルの特徴を抽出することで、性能を著しく向上させる。
我々のマルチスケールアーキテクチャは、特徴抽出、欠陥ローカライゼーション、および分類を統合ネットワークに統合する。
大規模PCBデータセットの実験では、既存の手法と比較して精度、リコール、F1スコアが大幅に改善された。
この研究はPCBの欠陥検出のためのコンピュータビジョン検査を推進し、PCB製造業界における高精度、堅牢、リアルタイム、ドメイン適応欠陥検出のための信頼性の高いソリューションを提供する。
With the rapid growth of the PCB manufacturing industry, there is an increasing demand for computer vision inspection to detect defects during production. Improving the accuracy and generalization of PCB defect detection models remains a significant challenge. This paper proposes a high-precision, robust, and real-time end-to-end method for PCB defect detection based on deep Convolutional Neural Networks (CNN). Traditional methods often suffer from low accuracy and limited applicability. We propose a novel approach combining YOLOv5 and multiscale modules for hierarchical residual-like connections. In PCB defect detection, noise can confuse the background and small targets. The YOLOv5 model provides a strong foundation with its real-time processing and accurate object detection capabilities. The multi-scale module extends traditional approaches by incorporating hierarchical residual-like connections within a single block, enabling multiscale feature extraction. This plug-and-play module significantly enhances performance by extracting features at multiple scales and levels, which are useful for identifying defects of varying sizes and complexities. Our multi-scale architecture integrates feature extraction, defect localization, and classification into a unified network. Experiments on a large-scale PCB dataset demonstrate significant improvements in precision, recall, and F1-score compared to existing methods. This work advances computer vision inspection for PCB defect detection, providing a reliable solution for high-precision, robust, real-time, and domain-adaptive defect detection in the PCB manufacturing industry. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# Decoding BACnet Packets: パケット解釈のための大規模言語モデルアプローチ
Decoding BACnet Packets: A Large Language Model Approach for Packet Interpretation ( http://arxiv.org/abs/2407.15428v1 ) ライセンス: Link先を確認 | Rashi Sharma, Hiroyuki Okada, Tatsumi Oba, Karthikk Subramanian, Naoto Yanai, Sugiri Pranata, | (参考訳) 産業制御システム(ICS)環境は、幅広い複雑な通信プロトコルを含み、ネットワークの活動やセキュリティインシデントを監視し、解釈し、対処するセキュリティオペレーションセンター(SOC)アナリストにとって重大な課題となっている。
従来の監視ツールや技術は、ICS固有のコミュニケーションの性質と意図を明確に理解するのに苦労することが多い。
本稿では,Large Language Model (LLM) を利用したソフトウェアソリューションを提案する。
このソリューションは現在BACnetプロトコルに注目し、パケットファイルデータを処理し、マッピングデータベースを用いてコンテキストを抽出する。
処理されたパケット情報は、抽出されたコンテキストと組み合わせて、LCMへの入力として機能し、ユーザのための簡潔なパケットファイル要約を生成する。
このソフトウェアは、ネットワークアクティビティの明確で一貫性があり、理解しやすい要約を提供するので、SOCアナリストは制御システムの現在の状態をよりよく評価することができる。
The Industrial Control System (ICS) environment encompasses a wide range of intricate communication protocols, posing substantial challenges for Security Operations Center (SOC) analysts tasked with monitoring, interpreting, and addressing network activities and security incidents. Conventional monitoring tools and techniques often struggle to provide a clear understanding of the nature and intent of ICS-specific communications. To enhance comprehension, we propose a software solution powered by a Large Language Model (LLM). This solution currently focused on BACnet protocol, processes a packet file data and extracts context by using a mapping database, and contemporary context retrieval methods for Retrieval Augmented Generation (RAG). The processed packet information, combined with the extracted context, serves as input to the LLM, which generates a concise packet file summary for the user. The software delivers a clear, coherent, and easily understandable summary of network activities, enabling SOC analysts to better assess the current state of the control system. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# グランスでの学習:意味的不変性モデリングによる解釈可能なデータ制限連続セマンティックセマンティックセグメンテーションを目指して
Learning at a Glance: Towards Interpretable Data-limited Continual Semantic Segmentation via Semantic-Invariance Modelling ( http://arxiv.org/abs/2407.15429v1 ) ライセンス: Link先を確認 | Bo Yuan, Danpei Zhao, Zhenwei Shi, | (参考訳) インクリメンタルラーニング(IL)に基づく連続意味セグメンテーション(CSS)は、人間のようなセグメンテーションモデルを開発する上で大きな取り組みである。
しかしながら、現在のCSSアプローチでは、古い知識の保存と新しい知識の学習のトレードオフに直面する。
本稿では,CSSの効率的,堅牢,人間的,解釈可能なアプローチであるLearning at a Glance(LAG)を提案する。
特に、RAGはシンプルでモデルに依存しないアーキテクチャであるが、限られたインクリメンタルデータで競合するCSS効率を実現する。
人間の認識パターンにインスパイアされたセマンティック・インバーティビティ・モデリング手法として,知識の継承と新しい長期学習を両立させるセマンティック・インバーティビティ・モデリング手法を提案する。
具体的には、提案されたデカップリング方式は、チャネルワイドデカップリングと空間レベルのニューロン関連セマンティック一貫性という2つの方法を含む。
提案手法は,非対称なコントラスト学習法によりサンプル固有内容の制約を緩和し,ILステップにおけるモデルロバスト性を高めるとともに,破滅的忘れを緩和するための固体プロトタイプとして意味不変知識を保存する。
提案手法の有効性を複数のデータセットで検証した。
さらに、現実的なデータ制限CSS設定をよりよく反映する新しいCSSプロトコルを導入し、複数のデータ制限条件下での優れたパフォーマンスを実現する。
Continual semantic segmentation (CSS) based on incremental learning (IL) is a great endeavour in developing human-like segmentation models. However, current CSS approaches encounter challenges in the trade-off between preserving old knowledge and learning new ones, where they still need large-scale annotated data for incremental training and lack interpretability. In this paper, we present Learning at a Glance (LAG), an efficient, robust, human-like and interpretable approach for CSS. Specifically, LAG is a simple and model-agnostic architecture, yet it achieves competitive CSS efficiency with limited incremental data. Inspired by human-like recognition patterns, we propose a semantic-invariance modelling approach via semantic features decoupling that simultaneously reconciles solid knowledge inheritance and new-term learning. Concretely, the proposed decoupling manner includes two ways, i.e., channel-wise decoupling and spatial-level neuron-relevant semantic consistency. Our approach preserves semantic-invariant knowledge as solid prototypes to alleviate catastrophic forgetting, while also constraining sample-specific contents through an asymmetric contrastive learning method to enhance model robustness during IL steps. Experimental results in multiple datasets validate the effectiveness of the proposed method. Furthermore, we introduce a novel CSS protocol that better reflects realistic data-limited CSS settings, and LAG achieves superior performance under multiple data-limited conditions. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# テキスト分散グラフを用いたFew-Shotノード分類のための事前学習とプロンプト
Pre-Training and Prompting for Few-Shot Node Classification on Text-Attributed Graphs ( http://arxiv.org/abs/2407.15431v1 ) ライセンス: Link先を確認 | Huanjing Zhao, Beining Yang, Yukuo Cen, Junyu Ren, Chenhui Zhang, Yuxiao Dong, Evgeny Kharlamov, Shu Zhao, Jie Tang, | (参考訳) テキスト分散グラフ(英: text-attributed graph、TAG)は、生のテキストに関連付けられた各ノードを持つ重要な実世界のグラフ構造化データの一種である。
TAGでは、従来の少数ショットノード分類手法が事前処理されたノード機能を直接的に訓練し、生のテキストを考慮しない。
性能は特徴前処理方式の選択に大きく依存する。
本稿では,グラフ事前学習とプロンプトを備えたTAG上での少数ショットノード分類のためのフレームワークであるP2TAGを提案する。
P2TAGはまず、自己教師付き損失のあるTAG上で、言語モデル(LM)とグラフニューラルネットワーク(GNN)を事前訓練する。
言語モデルの能力を十分に活用するために,我々は,マスキング言語モデリングの目的をフレームワークに適用する。
事前訓練されたモデルは、テキスト情報とグラフ情報の両方を同時に考慮する混合プロンプト法による少数ショットノード分類に使用される。
我々は,紙の引用ネットワークや商品共同購入ネットワークを含む,現実世界のTAGの6つの実験を行っている。
実験の結果,提案フレームワークは,これらのデータセット上で,+18.98%~+35.98%の改善で,既存の数ショット学習手法よりも優れていることがわかった。
The text-attributed graph (TAG) is one kind of important real-world graph-structured data with each node associated with raw texts. For TAGs, traditional few-shot node classification methods directly conduct training on the pre-processed node features and do not consider the raw texts. The performance is highly dependent on the choice of the feature pre-processing method. In this paper, we propose P2TAG, a framework designed for few-shot node classification on TAGs with graph pre-training and prompting. P2TAG first pre-trains the language model (LM) and graph neural network (GNN) on TAGs with self-supervised loss. To fully utilize the ability of language models, we adapt the masked language modeling objective for our framework. The pre-trained model is then used for the few-shot node classification with a mixed prompt method, which simultaneously considers both text and graph information. We conduct experiments on six real-world TAGs, including paper citation networks and product co-purchasing networks. Experimental results demonstrate that our proposed framework outperforms existing graph few-shot learning methods on these datasets with +18.98% ~ +35.98% improvements. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# アーキテクチャのフォトリアリスティックレクリエーションのためのRaw Meshを用いた3次元ガウススプレイティングの強化
Enhancement of 3D Gaussian Splatting using Raw Mesh for Photorealistic Recreation of Architectures ( http://arxiv.org/abs/2407.15435v1 ) ライセンス: Link先を確認 | Ruizhe Wang, Chunliang Hua, Tomakayev Shingys, Mengyuan Niu, Qingxin Yang, Lizhong Gao, Yi Zheng, Junyan Yang, Qiao Wang, | (参考訳) 建築シーンのフォトリアリスティックな再構築とレンダリングは、映画、ゲーム、輸送といった産業に広く応用されている。
また、都市計画、建築設計、特に歴史的・文化的遺物保護において重要な役割を担っている。
NeRFよりも高性能な3Dガウススプラッティングは、3D再構築において主要な技術となっている。
入力は画像の集合のみであるが、SfMプロセスによって計算される幾何学的パラメータに大きく依存している。
同時に、ある建物の構造的認識を知らせるが適用できない生の3Dモデルも数多く存在する。
本稿では,これらの生の3Dモデルを用いて,建物の基本的な形状を把握し,写真が非システム的に撮影された場合のテクスチャやディテールの視覚的品質を向上させる方法を提案する。
この調査は,建築設計分野における3次元再構築技術の有効性を向上する新たな可能性を開くものである。
The photorealistic reconstruction and rendering of architectural scenes have extensive applications in industries such as film, games, and transportation. It also plays an important role in urban planning, architectural design, and the city's promotion, especially in protecting historical and cultural relics. The 3D Gaussian Splatting, due to better performance over NeRF, has become a mainstream technology in 3D reconstruction. Its only input is a set of images but it relies heavily on geometric parameters computed by the SfM process. At the same time, there is an existing abundance of raw 3D models, that could inform the structural perception of certain buildings but cannot be applied. In this paper, we propose a straightforward method to harness these raw 3D models to guide 3D Gaussians in capturing the basic shape of the building and improve the visual quality of textures and details when photos are captured non-systematically. This exploration opens up new possibilities for improving the effectiveness of 3D reconstruction techniques in the field of architectural design. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# 780nmにおけるモードホップフリー波長可変レーザーのチップスケール・古典・量子フォトニクスへの応用
Integrated Mode-Hop-Free Tunable Lasers at 780 nm for Chip-Scale Classical and Quantum Photonic Applications ( http://arxiv.org/abs/2407.15438v1 ) ライセンス: Link先を確認 | Joshua E. Castro, Eber Nolasco-Martinez, Paolo Pintus, Zeyu Zhang, Boqiang Shen, Theodore Morin, Lillian Thiel, Trevor J. Steiner, Nicholas Lewis, Sahil D. Patel, John E. Bowers, David M. Weld, Galan Moody, | (参考訳) 過去10年間で、統合フォトニック技術の顕著な進歩により、テーブルトップ実験と機器を、サイズ、重量、消費電力、コストを大幅に削減したコンパクトチップにスケールダウンすることが可能になった。
ここでは、780nm付近の遠赤外放射スペクトルで放射されるヘテロジニアスガリウム・オン・シリコン窒化物(GaAs-on-SiN)プラットフォームにおいて、20nmのチューニング範囲、<6kHz固有の線幅、40dBのサイドモード抑制比で連続的に波長調整可能なレーザーを合成した。
GaAs光利得領域は低損失SiN導波路と均一に統合される。
狭線幅ラシングは、共振器ベースのVernierミラーと位相シフト器からなる拡張キャビティにより達成される。
一体型ヒーターの同期チューニングを利用して,100GHz (200 pm) 以上の範囲でモードホップフリー波長調整を行う。
デバイスの可能性を示すために,2つの図解的応用について検討する。
一 交絡光子対生成用に設計された窒化ケイ素マイクロ共振器の線形特性、及び
(II)吸収分光と87-RbのD1およびD2遷移線へのロック。
提案した集積レーザーの性能は、通信、制御、センシング、コンピューティングを含む可視領域における古典的および量子的アプリケーションの両方の幅広いスペクトルを約束する。
In the last decade, remarkable advances in integrated photonic technologies have enabled table-top experiments and instrumentation to be scaled down to compact chips with significant reduction in size, weight, power consumption, and cost. Here, we demonstrate an integrated continuously tunable laser in a heterogeneous gallium arsenide-on-silicon nitride (GaAs-on-SiN) platform that emits in the far-red radiation spectrum near 780 nm, with 20 nm tuning range, <6 kHz intrinsic linewidth, and a >40 dB side-mode suppression ratio. The GaAs optical gain regions are heterogeneously integrated with low-loss SiN waveguides. The narrow linewidth lasing is achieved with an extended cavity consisting of a resonator-based Vernier mirror and a phase shifter. Utilizing synchronous tuning of the integrated heaters, we show mode-hop-free wavelength tuning over a range larger than 100 GHz (200 pm). To demonstrate the potential of the device, we investigate two illustrative applications: (i) the linear characterization of a silicon nitride microresonator designed for entangled-photon pair generation, and (ii) the absorption spectroscopy and locking to the D1 and D2 transition lines of 87-Rb. The performance of the proposed integrated laser holds promise for a broader spectrum of both classical and quantum applications in the visible range, encompassing communication, control, sensing, and computing. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# 制限のないフィードバック遅延を伴うメリットベースのFair Combinatorial Semi-Bandit
Merit-based Fair Combinatorial Semi-Bandit with Unrestricted Feedback Delays ( http://arxiv.org/abs/2407.15439v1 ) ライセンス: Link先を確認 | Ziqun Chen, Kechao Cai, Zhuoyue Chen, Jinbei Zhang, John C. S. Lui, | (参考訳) 本研究では, 確率的組合せ半帯域問題と, 有益性制約の下での非制限フィードバック遅延について検討する。
これはクラウドソーシングやオンライン広告などのアプリケーションによって動機付けられており、即時にフィードバックが得られず、さまざまな選択肢(または武器)の公平性が不可欠である。
本稿では,報酬非依存の遅延と報酬非依存の遅延と,報酬非依存の遅延と,報酬非依存の遅延とを考察する。
さらに、腕の公平な選択を保証するために、有益性に基づく公正性制約を導入する。
我々は、報酬の後悔と公平さの後悔を定義し、そのメリットに基づいて、制限のないフィードバック遅延の下で武器を選択するための新しいバンディットアルゴリズムを提示する。
我々のアルゴリズムはいずれも,遅延分布の量子化に依拠して,サブ線形で期待される報酬の後悔と期待される公平さの後悔を達成できることを証明している。
我々はまた、合成データと実世界のデータを用いて広範な実験を行い、我々のアルゴリズムがフィードバック遅延の異なる腕を適切に選択できることを示します。
We study the stochastic combinatorial semi-bandit problem with unrestricted feedback delays under merit-based fairness constraints. This is motivated by applications such as crowdsourcing, and online advertising, where immediate feedback is not immediately available and fairness among different choices (or arms) is crucial. We consider two types of unrestricted feedback delays: reward-independent delays where the feedback delays are independent of the rewards, and reward-dependent delays where the feedback delays are correlated with the rewards. Furthermore, we introduce merit-based fairness constraints to ensure a fair selection of the arms. We define the reward regret and the fairness regret and present new bandit algorithms to select arms under unrestricted feedback delays based on their merits. We prove that our algorithms all achieve sublinear expected reward regret and expected fairness regret, with a dependence on the quantiles of the delay distribution. We also conduct extensive experiments using synthetic and real-world data and show that our algorithms can fairly select arms with different feedback delays. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# 信頼性・汎用型幻覚検出・緩和サービスの開発:洞察と教訓
Developing a Reliable, General-Purpose Hallucination Detection and Mitigation Service: Insights and Lessons Learned ( http://arxiv.org/abs/2407.15441v1 ) ライセンス: Link先を確認 | Song Wang, Xun Wang, Jie Mei, Yujia Xie, Sean Muarray, Zhang Li, Lingfeng Wu, Si-Qing Chen, Wayne Xiong, | (参考訳) 幻覚(Halucination)とは、大規模言語モデル(LLM)が実際に入力と正しくないし無関係な出力を生成する現象であり、精度と信頼性を必要とするLLMアプリケーションにとって大きな課題である。
本稿では,LLMにおける幻覚の発見と修正を目的とした,信頼性の高い高速生産システムを提案する。
提案システムは,命名されたエンティティ認識(NER),自然言語推論(NLI),スパンベース検出(SBD),およびLLM応答における広範囲の幻覚を確実に検出する複雑な決定木に基づくプロセスを含む。
さらに、我々のチームは、精度、応答時間、費用対効果の最適な混合を維持する書き換えメカニズムを構築しました。
当社のフレームワークの中核となる要素を詳述するとともに、これらのテクノロジの現実的な展開に不可欠である応答時間、可用性、パフォーマンスメトリクスに関連する最重要課題について述べています。
オフラインデータと実運用トラフィックを利用した大規模な評価により,提案するフレームワークとサービスの有効性を確認した。
Hallucination, a phenomenon where large language models (LLMs) produce output that is factually incorrect or unrelated to the input, is a major challenge for LLM applications that require accuracy and dependability. In this paper, we introduce a reliable and high-speed production system aimed at detecting and rectifying the hallucination issue within LLMs. Our system encompasses named entity recognition (NER), natural language inference (NLI), span-based detection (SBD), and an intricate decision tree-based process to reliably detect a wide range of hallucinations in LLM responses. Furthermore, our team has crafted a rewriting mechanism that maintains an optimal mix of precision, response time, and cost-effectiveness. We detail the core elements of our framework and underscore the paramount challenges tied to response time, availability, and performance metrics, which are crucial for real-world deployment of these technologies. Our extensive evaluation, utilizing offline data and live production traffic, confirms the efficacy of our proposed framework and service. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# Text2Place:人間の配置をガイドするアフォーマンス対応テキスト
Text2Place: Affordance-aware Text Guided Human Placement ( http://arxiv.org/abs/2407.15446v1 ) ライセンス: Link先を確認 | Rishubh Parihar, Harsh Gupta, Sachidanand VS, R. Venkatesh Babu, | (参考訳) 特定のシーンでは、人間が簡単に場所を判断し、オブジェクトを配置するポーズをとることができる。
これらの余裕を推論するために計算モデルを設計することは、人間の直感的な推論能力を反映する重要な課題となる。
本研究は,「textbf{Semantic Human Placement}」と呼ばれる背景シーンにおける現実的な人間挿入の問題に取り組む。
このタスクは、生成した人の多様な背景、スケール、ポーズ、そして最後に、その人のアイデンティティを保存することを考えると、非常に難しい。
本研究では,画像中の領域を位置づけして人間を配置するためのテキストガイダンスを用いた「textbf{i} Learning \textit{semantic masks}」と、「textit{semantic masks}」内のシーンの空き度に忠実な被写体を配置するための「textbf{ii}」の2つの段階に分割する。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの事前情報を活用し,セマンティックマスクの新しいパラメータ化を最適化し,大規模トレーニングの必要性を解消する。
私たちの知識を最大限に活用するために、私たちは、さまざまな現実世界のシーンにおいて、現実的な人間の配置に効果的なソリューションを提供する最初の人です。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
さらに,複数のダウンストリームタスク – 単一あるいは複数生成した人物からのシーン幻覚とテキストベースの属性編集 – の結果を提示する。
強いベースラインとの比較により,現実的な人間配置における手法の優位性を示す。
For a given scene, humans can easily reason for the locations and pose to place objects. Designing a computational model to reason about these affordances poses a significant challenge, mirroring the intuitive reasoning abilities of humans. This work tackles the problem of realistic human insertion in a given background scene termed as \textbf{Semantic Human Placement}. This task is extremely challenging given the diverse backgrounds, scale, and pose of the generated person and, finally, the identity preservation of the person. We divide the problem into the following two stages \textbf{i)} learning \textit{semantic masks} using text guidance for localizing regions in the image to place humans and \textbf{ii)} subject-conditioned inpainting to place a given subject adhering to the scene affordance within the \textit{semantic masks}. For learning semantic masks, we leverage rich object-scene priors learned from the text-to-image generative models and optimize a novel parameterization of the semantic mask, eliminating the need for large-scale training. To the best of our knowledge, we are the first ones to provide an effective solution for realistic human placements in diverse real-world scenes. The proposed method can generate highly realistic scene compositions while preserving the background and subject identity. Further, we present results for several downstream tasks - scene hallucination from a single or multiple generated persons and text-based attribute editing. With extensive comparisons against strong baselines, we show the superiority of our method in realistic human placement. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# SIGMA:Sinkhorn-Guided Masked Video Modeling
SIGMA:Sinkhorn-Guided Masked Video Modeling ( http://arxiv.org/abs/2407.15447v1 ) ライセンス: Link先を確認 | Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano, | (参考訳) ビデオベースの事前学習は、前例のない規模で強力な視覚表現を学習する大きな可能性を秘めている。
近年,マスク付きビデオモデリング手法では,画素などの低レベルターゲットの再構成により,高レベルセマンティクスの獲得に期待できるスケーラビリティを示したが,高レベルセマンティクスの獲得には至らなかった。
そこで本研究では,プロジェクションネットワークを用いたターゲット特徴空間に加えて,映像モデルを共同で学習する新しいビデオ事前学習手法である,シンクホーン誘導型マスケ動画モデリング(SIGMA)を提案する。
しかし、この単純な修正により、通常のL2再構成損失は、両ネットワークが協調的に最適化されるため、自明な解決につながる。
解法として,学習可能なクラスタ数が少ない場合に,時空管の特徴を均等に分散する。
これを最適な輸送問題とすることで、バッチ全体で生成された特徴に高いエントロピーを課し、特徴空間に意味と時間的意味を注入する。
得られたクラスタ割り当ては、ビデオモデルがプロジェクションネットワークのクラスタ割り当てを予測し、その逆の対称予測タスクのターゲットとして使用される。
3つのベンチマークにまたがる10のデータセットによる実験結果から、より高性能、時間的、堅牢なビデオ表現を学習し、最先端の手法で改善するSIGMAの有効性が検証された。
コード付きプロジェクトのWebサイトは、https://quva-lab.github.io/SIGMA.com/で公開されています。
Video-based pretraining offers immense potential for learning strong visual representations on an unprecedented scale. Recently, masked video modeling methods have shown promising scalability, yet fall short in capturing higher-level semantics due to reconstructing predefined low-level targets such as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling (SIGMA), a novel video pretraining method that jointly learns the video model in addition to a target feature space using a projection network. However, this simple modification means that the regular L2 reconstruction loss will lead to trivial solutions as both networks are jointly optimized. As a solution, we distribute features of space-time tubes evenly across a limited number of learnable clusters. By posing this as an optimal transport problem, we enforce high entropy in the generated features across the batch, infusing semantic and temporal meaning into the feature space. The resulting cluster assignments are used as targets for a symmetric prediction task where the video model predicts cluster assignment of the projection network and vice versa. Experimental results on ten datasets across three benchmarks validate the effectiveness of SIGMA in learning more performant, temporally-aware, and robust video representations improving upon state-of-the-art methods. Our project website with code is available at: https://quva-lab.github.io/SIGMA. | 翻訳日:2024-07-23 15:50:49 公開日:2024-07-22 |
# 逆結合スピン-1/2系と誘導結合フラクソニウムの類似性の検証
Verifying the analogy between transversely coupled spin-1/2 systems and inductively-coupled fluxoniums ( http://arxiv.org/abs/2407.15450v1 ) ライセンス: Link先を確認 | Wei-Ju Lin, Hyunheung Cho, Yinqi Chen, Maxim G. Vavilov, Chen Wang, Vladimir E. Manucharyan, | (参考訳) 高忠実度クロス共振ゲート実装のための2つの誘導結合超伝導フラクソニウム量子ビットの詳細な特性を報告する。
我々の回路は、2つの横結合スピン-1/2系の場合と非常に密接に振る舞うので際立っている。
特に、非計算遷移による一般に望ましくない静的ZZ項は、強い量子ビット-量子ハイブリッド化にもかかわらずほとんど欠落している。
非計算遷移の分光により、2つの量子ビット回路の端子間の結合インダクタンスと容量リンクの組み合わせから生じるスプリアスLCモードが明らかになる。
このようなモードは、我々の特定のデバイスに小さな影響を与えるが、将来の設計を最適化するために慎重に検討する必要がある。
We report a detailed characterization of two inductively coupled superconducting fluxonium qubits for implementing high-fidelity cross-resonance gates. Our circuit stands out because it behaves very closely to the case of two transversely coupled spin-1/2 systems. In particular, the generally unwanted static ZZ-term due to the non-computational transitions is nearly absent despite a strong qubit-qubit hybridization. Spectroscopy of the non-computational transitions reveals a spurious LC-mode arising from the combination of the coupling inductance and the capacitive links between the terminals of the two qubit circuits. Such a mode has a minor effect on our specific device, but it must be carefully considered for optimizing future designs. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 極低光環境下での二重教師によるドメイン適応型2次元人物位置推定
Domain-Adaptive 2D Human Pose Estimation via Dual Teachers in Extremely Low-Light Conditions ( http://arxiv.org/abs/2407.15451v1 ) ライセンス: Link先を確認 | Yihao Ai, Yifei Qi, Bo Wang, Yu Cheng, Xinchao Wang, Robby T. Tan, | (参考訳) 既存の2次元ポーズ推定研究は主に、生活の一般的な側面である照明条件の少ない探索に焦点を絞った、明るいシナリオに焦点を当てている。
低照度ポーズ推定の最近の研究は、低照度画像のアノテーションにかかわる固有の課題のため、地上の真理とペアの良照度画像と低照度画像の併用を訓練に必要としている。
そこで本研究では,低照度地平の真理を排除した新しいアプローチを提案する。
我々の主な特徴は、2つの補完的な教員ネットワークを利用してより信頼性の高い擬似ラベルを生成することである。
私たちのフレームワークは2つのステージで構成されています。
第一段階では、我々のモデルは、低照度拡張を伴う明るいデータに基づいて訓練されている。
第2段階では,主教官が比較的可視なケースに対して擬似ラベルを生成するのに対して,主教官の欠席者に対して擬似ラベルを生成するのに主教官が主教官の擬似ラベルを作成するという,ラベルのない低照度データを利用するための二重教官フレームワークを提案する。
両教師の擬似ラベルを用いて,学生モデルに挑戦する個人固有の低照度増進を提案し,教師に優越する結果を得た。
実際の低照度データセット(ExLPose-OCN)による実験結果から,SOTA法とは対照的に,SOTA法に比べて6.8%(2.4 AP)の改善が得られた。
私たちのコードは、https://github.com/ayh015-dev/DA-LLPose.comで公開されます。
Existing 2D human pose estimation research predominantly concentrates on well-lit scenarios, with limited exploration of poor lighting conditions, which are a prevalent aspect of daily life. Recent studies on low-light pose estimation require the use of paired well-lit and low-light images with ground truths for training, which are impractical due to the inherent challenges associated with annotation on low-light images. To this end, we introduce a novel approach that eliminates the need for low-light ground truths. Our primary novelty lies in leveraging two complementary-teacher networks to generate more reliable pseudo labels, enabling our model achieves competitive performance on extremely low-light images without the need for training with low-light ground truths. Our framework consists of two stages. In the first stage, our model is trained on well-lit data with low-light augmentations. In the second stage, we propose a dual-teacher framework to utilize the unlabeled low-light data, where a center-based main teacher produces the pseudo labels for relatively visible cases, while a keypoints-based complementary teacher focuses on producing the pseudo labels for the missed persons of the main teacher. With the pseudo labels from both teachers, we propose a person-specific low-light augmentation to challenge a student model in training to outperform the teachers. Experimental results on real low-light dataset (ExLPose-OCN) show, our method achieves 6.8% (2.4 AP) improvement over the state-of-the-art (SOTA) method, despite no low-light ground-truth data is used in our approach, in contrast to the SOTA method. Our code will be available at:https://github.com/ayh015-dev/DA-LLPose. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# GraphScale: 数十億のノードグラフで機械学習を可能にするフレームワーク
GraphScale: A Framework to Enable Machine Learning over Billion-node Graphs ( http://arxiv.org/abs/2407.15452v1 ) ライセンス: Link先を確認 | Vipul Gupta, Xin Chen, Ruoyun Huang, Fanlong Meng, Jianjun Chen, Yujun Yan, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データよりも機械学習を教師する強力なツールとして登場し、サンプリングベースのノード表現学習は教師なし学習に広く利用されている。
しかし、大規模なグラフ(例えば10億以上のノードを持つもの)の教師あり学習と教師なし学習において、スケーラビリティは依然として大きな課題である。
スケーラビリティのボトルネックは、GNNのミニバッチサンプリングフェーズと教師なし手法のランダムウォークサンプリングフェーズに大きく起因している。
これらのプロセスは、しばしば機能やメモリへの埋め込みを必要とする。
分散トレーニングのコンテキストでは、さまざまなワーカにまたがるデータに対して、頻繁で非効率なランダムアクセスを必要とする。
各ミニバッチに対する労働者間通信の繰り返しは、高い通信オーバーヘッドと計算効率の低下につながる。
大規模なグラフデータを分散的に保存・処理するための教師付き学習と教師なし学習の両方のための統合フレームワークであるGraphScaleを提案する。
私たちの設計における重要な洞察は、データを保存する労働者とトレーニングを行う労働者の分離です。
この分離により、グラフトレーニングで計算とストレージを分離し、データフェッチとデータ計算が非同期に重複するパイプラインを効果的に構築できます。
実験の結果,GraphScaleはGNNとノード埋め込みの両方の分散トレーニングにおいて,最先端の手法よりも優れていることがわかった。
GraphScaleを公開とプロプライエタリの両方のグラフデータセットで評価し、パフォーマンスを損なうことなく、人気のある分散フレームワークと比較して、エンドツーエンドのトレーニング時間の少なくとも40%削減を観測しました。
既存のほとんどのメソッドはノードの埋め込みをトレーニングするための数十億のノードグラフをサポートしていませんが、GraphScaleは現在、TikTokで本番環境にデプロイされています。
Graph Neural Networks (GNNs) have emerged as powerful tools for supervised machine learning over graph-structured data, while sampling-based node representation learning is widely utilized in unsupervised learning. However, scalability remains a major challenge in both supervised and unsupervised learning for large graphs (e.g., those with over 1 billion nodes). The scalability bottleneck largely stems from the mini-batch sampling phase in GNNs and the random walk sampling phase in unsupervised methods. These processes often require storing features or embeddings in memory. In the context of distributed training, they require frequent, inefficient random access to data stored across different workers. Such repeated inter-worker communication for each mini-batch leads to high communication overhead and computational inefficiency. We propose GraphScale, a unified framework for both supervised and unsupervised learning to store and process large graph data distributedly. The key insight in our design is the separation of workers who store data and those who perform the training. This separation allows us to decouple computing and storage in graph training, thus effectively building a pipeline where data fetching and data computation can overlap asynchronously. Our experiments show that GraphScale outperforms state-of-the-art methods for distributed training of both GNNs and node embeddings. We evaluate GraphScale both on public and proprietary graph datasets and observe a reduction of at least 40% in end-to-end training times compared to popular distributed frameworks, without any loss in performance. While most existing methods don't support billion-node graphs for training node embeddings, GraphScale is currently deployed in production at TikTok enabling efficient learning over such large graphs. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 未ラベルポストプロセッシングによる人口均等制約による回帰
Regression under demographic parity constraints via unlabeled post-processing ( http://arxiv.org/abs/2407.15453v1 ) ライセンス: Link先を確認 | Evgenii Chzhen, Mohamed Hebiri, Gayane Taturyan, | (参考訳) 我々は、推論中にセンシティブな属性にアクセスしなくても、人口密度を保証しながらレグレッションを行うという問題に対処する。
本稿では、回帰関数の正確な推定値と感度特性予測器を用いて、人口統計学的パリティ制約を満たす予測を生成する汎用後処理アルゴリズムを提案する。
本手法は,滑らかな凸関数の離散化と確率最小化を含む。
オンラインのポストプロセッシングや、ポストプロセッシングのためのラベルのないデータのみを含むマルチクラス分類タスクに適している。
従来の手法とは異なり、我々の手法は完全に理論駆動である。
凸関数の勾配ノルムを正確に制御する必要があるので、標準確率勾配降下よりも高度な手法に依存する。
提案アルゴリズムは有限サンプル解析と後処理バウンダリによって裏付けられ, 実験結果から理論的知見が得られた。
We address the problem of performing regression while ensuring demographic parity, even without access to sensitive attributes during inference. We present a general-purpose post-processing algorithm that, using accurate estimates of the regression function and a sensitive attribute predictor, generates predictions that meet the demographic parity constraint. Our method involves discretization and stochastic minimization of a smooth convex function. It is suitable for online post-processing and multi-class classification tasks only involving unlabeled data for the post-processing. Unlike prior methods, our approach is fully theory-driven. We require precise control over the gradient norm of the convex function, and thus, we rely on more advanced techniques than standard stochastic gradient descent. Our algorithm is backed by finite-sample analysis and post-processing bounds, with experimental results validating our theoretical findings. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 時間反転のない橋のスコアマッチング
Score matching for bridges without time-reversals ( http://arxiv.org/abs/2407.15455v1 ) ライセンス: Link先を確認 | Elizabeth L. Baker, Moritz Schauer, Stefan Sommer, | (参考訳) スコアマッチング手法を用いてブリッジ拡散過程を学習するための新しいアルゴリズムを提案する。
提案手法は前処理のダイナミクスを逆転させてスコア関数を学習することで,Doobの$h$-transformを通じて,エンドポイント上で条件付けられたプロセスであるブリッジ拡散プロセスを提供する。
従来の方法とは対照的に、我々はスコア項 $\nabla_x \log p(t, x; T, y)$, for given $t, Y$ を直接学習し、時間逆転を初めて学習する必要を完全に回避する。
アルゴリズムの性能を既存の手法と比較し、(学習した)時間反転を用いてスコア項を学習することで性能が向上することを示す。
コードはhttps://github.com/libbylbaker/forward_bridgeで見ることができる。
We propose a new algorithm for learning a bridged diffusion process using score-matching methods. Our method relies on reversing the dynamics of the forward process and using this to learn a score function, which, via Doob's $h$-transform, gives us a bridged diffusion process; that is, a process conditioned on an endpoint. In contrast to prior methods, ours learns the score term $\nabla_x \log p(t, x; T, y)$, for given $t, Y$ directly, completely avoiding the need for first learning a time reversal. We compare the performance of our algorithm with existing methods and see that it outperforms using the (learned) time-reversals to learn the score term. The code can be found at https://github.com/libbylbaker/forward_bridge. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# Text-to-Battery Recipe: 自動バッテリレシピ抽出と検索のための言語モデリングベースのプロトコル
Text-to-Battery Recipe: A language modeling-based protocol for automatic battery recipe extraction and retrieval ( http://arxiv.org/abs/2407.15459v1 ) ライセンス: Link先を確認 | Daeun Lee, Jaewoong Choi, Hiroshi Mizuseki, Byungju Lee, | (参考訳) 近年, 自然言語処理(NLP)を用いて, 実験データを自動的に抽出する研究が盛んに行われている。
材料合成から細胞組み立てまで、バッテリー製造に関わる複雑なプロセスにもかかわらず、この情報を体系的に整理する包括的な研究は行われていない。
そこで本研究では,LiFePO4陰極材料を含む電池のケーススタディを用いて,エンド・ツー・エンドの電池レシピの自動抽出を行うための言語モデリングベースのプロトコルであるText-to-Battery Recipe (T2BR)を提案する。
本稿では,機械学習に基づく紙フィルタリングモデル,キーワードベースの検索結果から2,174件の関連論文の検索,および,カソード合成に関連する2,876件のトピックモデル,セルアセンブリに関連する2,958件のトピックモデルについて報告する。
次に2つのトピックに焦点をあてて、前駆体、活性物質、合成方法を含む合計30個のエンティティを抽出し、F1スコア88.18%、94.61%を得る。
エンティティの正確な抽出により、LiFePO4電池の165のエンドツーエンドレシピを体系的に生成することができる。
我々のプロトコルと結果は、前駆体と合成方法の関連や、異なる前駆体との組み合わせなど、特定のトレンドに関する貴重な洞察を提供する。
本研究の成果は,バッテリレシピ情報検索の基盤となることを期待する。
提案プロトコルは,バッテリ材料文献のレビューを著しく加速し,バッテリ設計・開発におけるイノベーションを触媒する。
Recent studies have increasingly applied natural language processing (NLP) to automatically extract experimental research data from the extensive battery materials literature. Despite the complex process involved in battery manufacturing -- from material synthesis to cell assembly -- there has been no comprehensive study systematically organizing this information. In response, we propose a language modeling-based protocol, Text-to-Battery Recipe (T2BR), for the automatic extraction of end-to-end battery recipes, validated using a case study on batteries containing LiFePO4 cathode material. We report machine learning-based paper filtering models, screening 2,174 relevant papers from the keyword-based search results, and unsupervised topic models to identify 2,876 paragraphs related to cathode synthesis and 2,958 paragraphs related to cell assembly. Then, focusing on the two topics, two deep learning-based named entity recognition models are developed to extract a total of 30 entities -- including precursors, active materials, and synthesis methods -- achieving F1 scores of 88.18% and 94.61%. The accurate extraction of entities enables the systematic generation of 165 end-toend recipes of LiFePO4 batteries. Our protocol and results offer valuable insights into specific trends, such as associations between precursor materials and synthesis methods, or combinations between different precursor materials. We anticipate that our findings will serve as a foundational knowledge base for facilitating battery-recipe information retrieval. The proposed protocol will significantly accelerate the review of battery material literature and catalyze innovations in battery design and development. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 学習類似性を考慮した効率的な検索法
Efficient Retrieval with Learned Similarities ( http://arxiv.org/abs/2407.15462v1 ) ライセンス: Link先を確認 | Bailu Ding, Jiaqi Zhai, | (参考訳) Retrievalはリコメンデーションシステム、検索、自然言語処理において、クエリが与えられた大きなコーパスから関連項目を効率的に見つけることによって、基本的な役割を担っている。
ドット製品に基づく効率的な検索を可能にするMIPS(Maximum Inner Product Search)のおかげで、ドット製品はこのような検索タスクにおける類似機能として広く利用されている。
しかし、最先端の検索アルゴリズムは、学習した類似点に移行した。
クエリは複数の埋め込みで表現でき、複雑なニューラルネットワークをデプロイでき、アイテムIDはビームサーチを使用してクエリから直接デコードでき、複数のアプローチをハイブリッドソリューションで組み合わせることができる。
残念なことに、これらの最先端のセットアップでは、検索のための効率的なソリューションが欠如しています。
本研究は,学習類似度関数を用いた近接探索手法について検討する。
最初に、Mixture-of-Logits (MoL) が普遍近似であり、学習されたすべての類似性関数を表現できることを証明した。
次に, タイトな境界を持つMoLを用いて, 近似トップK値を求める手法を提案する。
提案手法を既存の手法と比較し,MoLが推薦検索タスクに新たな最先端結果を設定することを示し,学習類似性を持つ近似トップk検索は,精度の高いアルゴリズムの.99リコール率を達成しつつ,最大2桁のレイテンシでベースラインを上回った。
Retrieval plays a fundamental role in recommendation systems, search, and natural language processing by efficiently finding relevant items from a large corpus given a query. Dot products have been widely used as the similarity function in such retrieval tasks, thanks to Maximum Inner Product Search (MIPS) that enabled efficient retrieval based on dot products. However, state-of-the-art retrieval algorithms have migrated to learned similarities. Such algorithms vary in form; the queries can be represented with multiple embeddings, complex neural networks can be deployed, the item ids can be decoded directly from queries using beam search, and multiple approaches can be combined in hybrid solutions. Unfortunately, we lack efficient solutions for retrieval in these state-of-the-art setups. Our work investigates techniques for approximate nearest neighbor search with learned similarity functions. We first prove that Mixture-of-Logits (MoL) is a universal approximator, and can express all learned similarity functions. We next propose techniques to retrieve the approximate top K results using MoL with a tight bound. We finally compare our techniques with existing approaches, showing that MoL sets new state-of-the-art results on recommendation retrieval tasks, and our approximate top-k retrieval with learned similarities outperforms baselines by up to two orders of magnitude in latency, while achieving > .99 recall rate of exact algorithms. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 多様性ボーナス:個人化フェデレーション学習における異種分散クライアントからの学習
The Diversity Bonus: Learning from Dissimilar Distributed Clients in Personalized Federated Learning ( http://arxiv.org/abs/2407.15464v1 ) ライセンス: Link先を確認 | Xinghao Wu, Xuefeng Liu, Jianwei Niu, Guogang Zhu, Shaojie Tang, Xiaotian Li, Jiannong Cao, | (参考訳) Personalized Federated Learning (PFL)は、クライアントがパーソナライズされたモデルを協調的にトレーニングできるフレームワークである。
PFLは、異なるクライアントからのデータが独立せず、同一に分散されていない(非IID)状況を扱うのに特に有用である。
PFLの以前の研究は、クライアントが同様のデータ分布を持つ人からより多くの利益を得ることができると暗に仮定している。
それに対応して、トレーニング中に類似のクライアントに重み付けを割り当てるために、パーソナライズされた重み付けなどの手法が開発されている。
クライアントは、異なるデータ分散を持つ他のクライアントから利益を得ることができますか?
この質問は、クライアントが広範囲に異なるデータ分散を持ち、類似のクライアントのみから学ぶことで、他の多くのクライアントからの知識を失う、高いレベルの非IIDのシナリオに特に関係している。
類似したデータ分布でクライアントを扱う場合、パーソナライズされた重み付けなどの手法は、パラメータ空間に近づくようにモデルを強制する傾向にあることに留意する。
モデルが互いに離れることを許せば、クライアントが異種クライアントの恩恵を受けることができると推測するのは妥当です。
このアイデアに基づいて、個人化されたフェデレーション学習において、各クライアントが多様なデータ分布を持つクライアントから学習できるDiversiFedを提案する。
DiversiFedは、パラメータ空間内で異なるデータ分散を持つクライアントのパーソナライズされたモデルをプッシュし、類似した分散を持つクライアントをプルする。
また,データ分布の事前の知識を使わずに上記の効果を達成するために,モデル類似性を利用した損失関数を設計し,各モデル間のアトラクションと反発の度合いを判定する。
いくつかのデータセットの実験では、DiversiFedは異種クライアントの恩恵を受けられるため、最先端の手法よりも優れていることが示されている。
Personalized Federated Learning (PFL) is a commonly used framework that allows clients to collaboratively train their personalized models. PFL is particularly useful for handling situations where data from different clients are not independent and identically distributed (non-IID). Previous research in PFL implicitly assumes that clients can gain more benefits from those with similar data distributions. Correspondingly, methods such as personalized weight aggregation are developed to assign higher weights to similar clients during training. We pose a question: can a client benefit from other clients with dissimilar data distributions and if so, how? This question is particularly relevant in scenarios with a high degree of non-IID, where clients have widely different data distributions, and learning from only similar clients will lose knowledge from many other clients. We note that when dealing with clients with similar data distributions, methods such as personalized weight aggregation tend to enforce their models to be close in the parameter space. It is reasonable to conjecture that a client can benefit from dissimilar clients if we allow their models to depart from each other. Based on this idea, we propose DiversiFed which allows each client to learn from clients with diversified data distribution in personalized federated learning. DiversiFed pushes personalized models of clients with dissimilar data distributions apart in the parameter space while pulling together those with similar distributions. In addition, to achieve the above effect without using prior knowledge of data distribution, we design a loss function that leverages the model similarity to determine the degree of attraction and repulsion between any two models. Experiments on several datasets show that DiversiFed can benefit from dissimilar clients and thus outperform the state-of-the-art methods. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 非相対論的タキオン:ガリレイ群の新しい表現
Non-relativistic tachyons: a new representation of the Galilei group ( http://arxiv.org/abs/2407.15466v1 ) ライセンス: Link先を確認 | Victor Aldaya, Julio Guerrero, Francisco F. López-Ruiz, | (参考訳) ポアンカルイ群の縮約の代数的特徴づけは、そのタキオン表現の非相対論的極限の適切な構成を可能にする。
我々はガリレイ群の一貫した非標準表現にたどり着くが、これは古くから非物理的性質によって無視されていた。
対応する量子(および古典)理論は、その基本となる相対論的理論と共通しており、タキオン表現の異常な振る舞いをよりよく理解するためのおもちゃモデルとして機能する。
例えば、相対論的タキオンのように時間ではなく空間座標で進化が起こるのが分かるが、3モーメントのモジュラリティはガリレオの観測者全員に同じであり、ガリレオ系の新しい分散関係をもたらす。
さらに、新しい表現によって記述されるタキオンオブジェクトは、標準的な意味ではローカライズできない。
An algebraic characterization of the contractions of the Poincar\'e group permits a proper construction of a non-relativistic limit of its tachyonic representation. We arrive at a consistent, nonstandard representation of the Galilei group which was disregarded long ago by supposedly unphysical properties. The corresponding quantum (and classical) theory shares with the relativistic one their fundamentals, and serves as a toy model to better comprehend the unusual behavior of the tachyonic representation. For instance, we see that evolution takes place in a spatial coordinate rather than time, as for relativistic tachyons, but the modulus of the three-momentum is the same for all Galilean observers, leading to a new dispersion relation for a Galilean system. Furthermore, the tachyonic objects described by the new representation cannot be regarded as localizable in the standard sense. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# マルチスペクトルフィルタアレイ画像からの深部照明特性の学習
Learning deep illumination-robust features from multispectral filter array images ( http://arxiv.org/abs/2407.15472v1 ) ライセンス: Link先を確認 | Anis Amziane, | (参考訳) マルチスペクトル(MS)スナップショットカメラはMSフィルタアレイ(MSFA)を備え、1枚のショットで複数のスペクトル帯域をキャプチャし、各ピクセルが1つのチャネル値しか持たないモザイク画像を生成する。
完全に定義されたMS画像は生画像から$\textit{demosaicing}$まで推定される。
さらに、完全に定義されたMS画像のトレーニングは、特にディープニューラルネットワーク(DNN)で計算集約され、時空間相互作用の最適下学習による識別能力の欠如が生じる可能性がある。
さらに、屋外のMS画像の取得は様々な照明条件下で行われ、照明に依存した特徴をもたらす。
本稿では, 原画像から直接, 識別的・照明的特徴を学習するための独自のアプローチを提案する。
$\textit{raw spectrum constancy}$ 照明の影響を軽減するために、$\textit{MSFA-preserving}$ さまざまな生のテクスチャでDNNをトレーニングするための生のイメージ拡張に適した変換、生のイメージにおける差別的な時空間相互作用をキャプチャするために$\textit{raw-mixing}$ である。
MS画像分類実験により,本手法は手工芸法と近年の深層学習法の両方に優れ,計算労力も大幅に削減された。
ソースコードは公開されます。
Multispectral (MS) snapshot cameras equipped with a MS filter array (MSFA), capture multiple spectral bands in a single shot, resulting in a raw mosaic image where each pixel holds only one channel value. The fully-defined MS image is estimated from the raw one through $\textit{demosaicing}$, which inevitably introduces spatio-spectral artifacts. Moreover, training on fully-defined MS images can be computationally intensive, particularly with deep neural networks (DNNs), and may result in features lacking discrimination power due to suboptimal learning of spatio-spectral interactions. Furthermore, outdoor MS image acquisition occurs under varying lighting conditions, leading to illumination-dependent features. This paper presents an original approach to learn discriminant and illumination-robust features directly from raw images. It involves: $\textit{raw spectral constancy}$ to mitigate the impact of illumination, $\textit{MSFA-preserving}$ transformations suited for raw image augmentation to train DNNs on diverse raw textures, and $\textit{raw-mixing}$ to capture discriminant spatio-spectral interactions in raw images. Experiments on MS image classification show that our approach outperforms both handcrafted and recent deep learning-based methods, while also requiring significantly less computational effort.~The source code will be available. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 自律型ロボットスワムの検証と検証のための多層相関手法
A Multi-Level Corroborative Approach for Verification and Validation of Autonomous Robotic Swarms ( http://arxiv.org/abs/2407.15475v1 ) ライセンス: Link先を確認 | Dhaminda B. Abeywickrama, Suet Lee, Chris Bennett, Razanne Abu-Aisheh, Tom Didiot-Cook, Simon Jones, Sabine Hauert, Kerstin Eder, | (参考訳) Swarm内の創発的な振る舞いをモデル化し、特徴付けることは、"保証"という観点で重要な課題を引き起こす可能性がある。
保証タスクは、標準の遵守、認証プロセス、モデルチェックのような検証と検証(V&V)メソッドの実行を含む。
本研究では, ロボット群を形式的に検証し, 検証を行うための総合的多段階モデリング手法を提案し, マクロな形式的モデリング, 低忠実度シミュレーション, 高忠実度シミュレーション, 実ロボットレベルで定義する。
我々の形式的マクロモデルでは、実際のシミュレーションから得られたデータによって特徴付けられ、異なるシステムモデル間での精度とトレーサビリティが保証される。
さらに,本研究は,実際のロボットによる形式検証と実験検証を組み合わせたものである。
このようにして、V&Vの相関的アプローチは、これらの手法を別々に採用するのとは対照的に、証拠の信頼性を高めることを目指している。
我々は,公営クロークルーム内で動作するロボット群に着目したケーススタディを通じて,我々のアプローチを探究する。
Modelling and characterizing emergent behaviour within a swarm can pose significant challenges in terms of 'assurance'. Assurance tasks encompass adherence to standards, certification processes, and the execution of verification and validation (V&V) methods, such as model checking. In this study, we propose a holistic, multi-level modelling approach for formally verifying and validating autonomous robotic swarms, which are defined at the macroscopic formal modelling, low-fidelity simulation, high-fidelity simulation, and real-robot levels. Our formal macroscopic models, used for verification, are characterized by data derived from actual simulations, ensuring both accuracy and traceability across different system models. Furthermore, our work combines formal verification with experimental validation involving real robots. In this way, our corroborative approach for V&V seeks to enhance confidence in the evidence, in contrast to employing these methods separately. We explore our approach through a case study focused on a swarm of robots operating within a public cloakroom. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# MODRL-TA:Eコマース検索における交通割当のための多目的深層強化学習フレームワーク
MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search ( http://arxiv.org/abs/2407.15476v1 ) ライセンス: Link先を確認 | Peng Cheng, Huimu Wang, Jinyuan Zhao, Yihao Wang, Enqiang Xu, Yu Zhao, Zhuojian Xiao, Songlin Wang, Guoyu Tang, Lin Liu, Sulong Xu, | (参考訳) 交通割当とは、検索後の段階において、商店の成長を効果的に促進し、顧客の要求を正確に満たし、電子商取引プラットフォーム内の様々な当事者間の利益の最大化を確保することを目的として、自然交通を製品に再分配するプロセスである。
既存の学習手法では、交通割当の長期的価値を無視する一方で、強化学習のアプローチでは複数の目標のバランスがとられ、現実のデータ環境内では寒さの難しさが始まります。
上記の課題に対処するために,多目的Q-ラーニング(MOQ)と,クロスエントロピー法(CEM)に基づく決定融合アルゴリズム(DFM)と,プログレッシブデータ拡張システム(PDA)からなる多目的深層強化学習フレームワークを提案する。
特に。
MOQはエンサンブルRLモデルを構築し、それぞれが目標(クリックスルーレート、変換レートなど)に特化している。
これらのモデルは、個々の視点から複数の目的の長期的な価値を推定することを目的として、アクションとしてのアイテムの位置を個別に決定する。
次に、DFMを用いて目標間の重みを動的に調整し、長期的価値を最大化し、電子商取引シナリオにおける客観的嗜好の時間的ダイナミクスに対処する。
当初、PDAはオフラインログからシミュレーションデータでMOQをトレーニングした。
実験が進むにつれて、実際のユーザインタラクションデータを戦略的に統合し、最終的にシミュレーションデータセットを置き換えて、分散シフトとコールドスタート問題を緩和した。
実世界のオンラインeコマースシステムの実験結果から,MODRL-TAの大幅な改善が示され,我々は,MODRL-TAをeコマース検索プラットフォームに導入することに成功している。
Traffic allocation is a process of redistributing natural traffic to products by adjusting their positions in the post-search phase, aimed at effectively fostering merchant growth, precisely meeting customer demands, and ensuring the maximization of interests across various parties within e-commerce platforms. Existing methods based on learning to rank neglect the long-term value of traffic allocation, whereas approaches of reinforcement learning suffer from balancing multiple objectives and the difficulties of cold starts within realworld data environments. To address the aforementioned issues, this paper propose a multi-objective deep reinforcement learning framework consisting of multi-objective Q-learning (MOQ), a decision fusion algorithm (DFM) based on the cross-entropy method(CEM), and a progressive data augmentation system(PDA). Specifically. MOQ constructs ensemble RL models, each dedicated to an objective, such as click-through rate, conversion rate, etc. These models individually determine the position of items as actions, aiming to estimate the long-term value of multiple objectives from an individual perspective. Then we employ DFM to dynamically adjust weights among objectives to maximize long-term value, addressing temporal dynamics in objective preferences in e-commerce scenarios. Initially, PDA trained MOQ with simulated data from offline logs. As experiments progressed, it strategically integrated real user interaction data, ultimately replacing the simulated dataset to alleviate distributional shifts and the cold start problem. Experimental results on real-world online e-commerce systems demonstrate the significant improvements of MODRL-TA, and we have successfully deployed MODRL-TA on an e-commerce search platform. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# Affordance Labeling and Exploration: A Manifold-Based Approach
Affordance Labeling and Exploration: A Manifold-Based Approach ( http://arxiv.org/abs/2407.15479v1 ) ライセンス: Link先を確認 | İsmail Özçil, A. Buğra Koku, | (参考訳) コンピュータパワーの進歩により、ディープラーニングのトレーニング時間が大幅に短縮され、オブジェクト認識用に設計されたネットワークの急速な開発が促進された。
しかし、オブジェクト認識とは対照的に、オブジェクトの可利用性であるオブジェクトユーティリティの探索には、比較的注意が払われていない。
本研究は,対象分類データセットに基づいて訓練された既存ネットワークを用いて,対象物価の探索に焦点をあてる。
事前学習されたネットワークは、分類タスクの伝達学習に有効であることが証明されているが、本研究は従来の対象分類手法とは異なっている。
代わりに、トレーニング済みのネットワークを使用して、特別なレイヤを必要とせず、分類レイヤの追加による最終レイヤの変更を控える、価格ラベルを識別する。
このような変更を伴わない空きラベルの決定を容易にするため、サブスペースクラスタリングと多様体曲率法という2つの手法が試験された。
これらの手法は、アベイランス・ラベルの認識に関して、明確な視点を提供する。
特に、9つの異なる事前学習ネットワークを用いて、多様体曲率法をうまくテストし、それぞれ95%を超える精度を達成している。
さらに, 多様体曲率および部分空間クラスタリング法は, 地平線上にマークされていないが, 様々な場合において, 対象物に余裕があるような空きラベルを探索することが観察された。
The advancement in computing power has significantly reduced the training times for deep learning, fostering the rapid development of networks designed for object recognition. However, the exploration of object utility, which is the affordance of the object, as opposed to object recognition, has received comparatively less attention. This work focuses on the problem of exploration of object affordances using existing networks trained on the object classification dataset. While pre-trained networks have proven to be instrumental in transfer learning for classification tasks, this work diverges from conventional object classification methods. Instead, it employs pre-trained networks to discern affordance labels without the need for specialized layers, abstaining from modifying the final layers through the addition of classification layers. To facilitate the determination of affordance labels without such modifications, two approaches, i.e. subspace clustering and manifold curvature methods are tested. These methods offer a distinct perspective on affordance label recognition. Especially, manifold curvature method has been successfully tested with nine distinct pre-trained networks, each achieving an accuracy exceeding 95%. Moreover, it is observed that manifold curvature and subspace clustering methods explore affordance labels that are not marked in the ground truth, but object affords in various cases. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 符号化量子アニールの誤差補正
Error correction for encoded quantum annealing revisited ( http://arxiv.org/abs/2407.15480v1 ) ライセンス: Link先を確認 | Yoshihiro Nambu, | (参考訳) F. Pastawski と J. Preskill は、Sourlas-Lechner-Hauke-Zoller (SLHZ) と呼ばれるパリティ符号化スピン系に基づく量子アニール(QA)の誤り訂正について議論した。
彼らは、SLHZシステムは古典的な低密度パリティチェック(LDPC)符号と密接な関係があることを指摘し、独立ランダムスピンフリップ誤差を仮定した信念伝搬(BP)アルゴリズムを用いて、その誤り訂正能力を実証した。
これとは対照的に、AblashらはSLHZシステムはポスト・リードアウト・デコーディングの恩恵を受けていないことを示唆した。
理由は、無作為なスピンフリップは、閉系の場合や開系の場合であっても、アニーリング過程中に励起状態のサンプリングによって生じる最も関連性の高い誤差ではないからである。
本稿では,SLHZシステムの読み出しにおける誤りを除去する,非常に単純な復号アルゴリズムを提案する。
我々の新しいアルゴリズムはLDPC符号のビットフリップアルゴリズムと考えることができる。
独立かつ同一のノイズモデルと仮定すると,我々のアルゴリズムの性能はBPアルゴリズムに匹敵することがわかった。
最終時間分布を模擬したモンテカルロ計算を用いて,サンプル読み出しにおける誤り訂正能力について検討した。
その結果, 誤りのない状態やコード状態が全くサンプリングされない条件下で, サンプリング済みの読み出しにおけるエラーの除去に成功していることがわかった。
本シミュレーションは, 従来の復号プロセスの前処理として, 復号化処理により復号化処理が可能である場合, 復号化処理が成功し, 復号化処理が可能であることを示唆している。
この知識は近い将来,SLHZシステムに基づく実用的なQAの設計・開発に有用である。
F. Pastawski and J. Preskill discussed error correction of quantum annealing (QA) based on a parity-encoded spin system, known as the Sourlas-Lechner-Hauke-Zoller (SLHZ) system. They pointed out that the SLHZ system is closely related to a classical low-density parity-check (LDPC) code and demonstrated its error-correcting capability through a belief propagation (BP) algorithm assuming independent random spin-flip errors. In contrast, Ablash et al. suggested that the SLHZ system does not receive the benefits of post-readout decoding. The reason is that independent random spin-flips are not the most relevant error arising from sampling excited states during the annealing process, whether in closed or open system cases. In this work, we revisit this issue: we propose a very simple decoding algorithm to eliminate errors in the readout of SLHZ systems and show experimental evidence suggesting that SLHZ system exhibits error-correcting capability in decoding annealing readouts. Our new algorithm can be thought of as a bit-flipping algorithm for LDPC codes. Assuming an independent and identical noise model, we found that the performance of our algorithm is comparable to that of the BP algorithm. The error correcting-capability for the sampled readouts was investigated using Monte Carlo calculations that simulate the final time distribution of QA. The results show that the algorithm successfully eliminates errors in the sampled readouts under conditions where error-free state or even code state is not sampled at all. Our simulation suggests that decoding of annealing readouts will be successful if the correctable states can be sampled by annealing, and annealing can be considered to play a role as a pre-process of the classical decoding process. This knowledge will be useful for designing and developing practical QA based on the SLHZ system in the near future. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 広帯域画像の高調波化
Diverse Image Harmonization ( http://arxiv.org/abs/2407.15481v1 ) ライセンス: Link先を確認 | Xinhao Tao, Tianyuan Qiu, Junyan Cao, Li Niu, | (参考訳) 画像調和は、合成画像の前景照明を調整して調和させることを目的としている。
既存のハーモニゼーション法は合成画像に対して1つの決定論的結果しか生成できず、合成画像は複数の可塑性反射により複数の可塑性調和結果が得られることを無視する。
本研究では,まず,地表面の反射率の誘導により,より優れた性能が得られる反射率誘導型ハーモニゼーションネットワークを提案する。
また、複数の可塑性前景反射率を予測するための多様な反射率生成ネットワークを設計し、複数の可塑性調和結果を得る。
ベンチマークデータセットの広範な実験により,本手法の有効性が示された。
Image harmonization aims to adjust the foreground illumination in a composite image to make it harmonious. The existing harmonization methods can only produce one deterministic result for a composite image, ignoring that a composite image could have multiple plausible harmonization results due to multiple plausible reflectances. In this work, we first propose a reflectance-guided harmonization network, which can achieve better performance with the guidance of ground-truth foreground reflectance. Then, we also design a diverse reflectance generation network to predict multiple plausible foreground reflectances, leading to multiple plausible harmonization results. The extensive experiments on the benchmark datasets demonstrate the effectiveness of our method. | 翻訳日:2024-07-23 15:40:55 公開日:2024-07-22 |
# 6DGS: 単一画像と3次元ガウス散乱モデルからの6次元ポス推定
6DGS: 6D Pose Estimation from a Single Image and a 3D Gaussian Splatting Model ( http://arxiv.org/abs/2407.15484v1 ) ライセンス: Link先を確認 | Matteo Bortolon, Theodore Tsesmelis, Stuart James, Fabio Poiesi, Alessio Del Bue, | (参考訳) シーンを表す3Dガウス・スティング(3DGS)モデルから,ターゲットRGB画像のカメラポーズを推定する6DGSを提案する。
6DGSは、分析バイシンセシス法(例えばiNeRF)の典型的な反復過程を回避し、カメラのポーズを収束させるために初期化する必要がある。
その代わりに、3DGSレンダリング処理を反転させて6DoFのポーズを推定する。
対象物体表面から始めると、3DGSモデルのパラメータ化を行う楕円体から離射する線を均一に生成する放射型エリセルを定義する。
各エリセル線は、それぞれの楕円体のレンダリングパラメータに関連付けられ、それによって、ターゲット画像画素とキャスト線との最良の結合を得る。
これらのピクセル・レイ・バインドは、カメラ・センターとカメラ・ローテーションに最適なスコアリング・バンドルを選択するためにランク付けされる。
提案した解は、初期化のための"a priori"のポーズの必要性を排除し、反復を必要とせずに、6DoFのポーズ推定をクローズドな形で解決する。
さらに、ポーズ推定のための既存のノベルビュー合成(NVS)ベースラインと比較して、6DGSは、初期化ポーズを必要としないにも関わらず、実際のシーンで平均回転精度を12%改善し、翻訳精度を22%向上させることができる。
同時に、我々の手法は、ほぼリアルタイムで動作し、消費者ハードウェア上で15fpsに達する。
We propose 6DGS to estimate the camera pose of a target RGB image given a 3D Gaussian Splatting (3DGS) model representing the scene. 6DGS avoids the iterative process typical of analysis-by-synthesis methods (e.g. iNeRF) that also require an initialization of the camera pose in order to converge. Instead, our method estimates a 6DoF pose by inverting the 3DGS rendering process. Starting from the object surface, we define a radiant Ellicell that uniformly generates rays departing from each ellipsoid that parameterize the 3DGS model. Each Ellicell ray is associated with the rendering parameters of each ellipsoid, which in turn is used to obtain the best bindings between the target image pixels and the cast rays. These pixel-ray bindings are then ranked to select the best scoring bundle of rays, which their intersection provides the camera center and, in turn, the camera rotation. The proposed solution obviates the necessity of an "a priori" pose for initialization, and it solves 6DoF pose estimation in closed form, without the need for iterations. Moreover, compared to the existing Novel View Synthesis (NVS) baselines for pose estimation, 6DGS can improve the overall average rotational accuracy by 12% and translation accuracy by 22% on real scenes, despite not requiring any initialization pose. At the same time, our method operates near real-time, reaching 15fps on consumer hardware. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# 高磁場磁気共鳴データにおける視床下核分割
Subthalamic Nucleus segmentation in high-field Magnetic Resonance data. Is space normalization by template co-registration necessary? ( http://arxiv.org/abs/2407.15485v1 ) ライセンス: Link先を確認 | Tomás Lima, Igor Varga, Eduard Bakštein, Daniel Novák, Victor Alves, | (参考訳) 深部脳刺激(Deep Brain Stimulation、DBS)は、後期パーキンソン病(PD)症状を減少させる最も成功した方法の1つである。
手術前患者の詳細な研究を必要とする微妙な外科的処置である。
高磁場MRI(High-field Magnetic Resonance Imaging)は、PDにおけるDBSの主ターゲットである視床下核(STN)を低磁場画像よりも詳細に捉える能力の向上を証明している。
本稿では、脳テンプレートへの登録に基づく2つの異なるDeep Learning(DL)自動セグメンテーションアーキテクチャの性能と、MRI取得ネイティブ空間におけるセグメンテーションの実行性能を比較した。
この研究は、T1重みとT2重み付きシーケンスの高磁場7テスラ(T)脳MRIデータセットをベースとした。
nnUNetは両方のアーキテクチャのセグメンテーションステップで使われ、データプレと後処理パイプラインは多様化した。
評価指標から, 自然空間におけるセグメンテーションの直接的性能はSTNセグメンテーションのより良い結果を得たが, 他の解析構造である Red Nucleus (RN) や Substantia Nigra (SN) に対してテンプレートベースの手法には何の利点も示さなかった。
Deep Brain Stimulation (DBS) is one of the most successful methods to diminish late-stage Parkinson's Disease (PD) symptoms. It is a delicate surgical procedure which requires detailed pre-surgical patient's study. High-field Magnetic Resonance Imaging (MRI) has proven its improved capacity of capturing the Subthalamic Nucleus (STN) - the main target of DBS in PD - in greater detail than lower field images. Here, we present a comparison between the performance of two different Deep Learning (DL) automatic segmentation architectures, one based in the registration to a brain template and the other performing the segmentation in in the MRI acquisition native space. The study was based on publicly available high-field 7 Tesla (T) brain MRI datasets of T1-weighted and T2-weighted sequences. nnUNet was used on the segmentation step of both architectures, while the data pre and post-processing pipelines diverged. The evaluation metrics showed that the performance of the segmentation directly in the native space yielded better results for the STN segmentation, despite not showing any advantage over the template-based method for the to other analysed structures: the Red Nucleus (RN) and the Substantia Nigra (SN). | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# In-Context Learningは視覚言語モデルの構成的理解を改善する
In-Context Learning Improves Compositional Understanding of Vision-Language Models ( http://arxiv.org/abs/2407.15487v1 ) ライセンス: Link先を確認 | Matteo Nulli, Anesa Ibrahimi, Avik Pal, Hoshe Lee, Ivona Najdenkoska, | (参考訳) VLM(Vision-Language Models)は、多くの下流タスクにおいて顕著な機能を示している。
それでも、構成的イメージ理解は、トレーニングデータに存在するオブジェクトバイアスのため、かなり難しい課題である。
本稿では,VLMにおける構成的理解のベンチマーキングを行うことにより,このような能力の欠如の原因を解明する。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
さらに、画像に対してより複雑な推論と理解を行うために、VLMの能力を改善する手段として、インコンテキスト学習(ICL)を利用する。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れていることを示す。
Vision-Language Models (VLMs) have shown remarkable capabilities in a large number of downstream tasks. Nonetheless, compositional image understanding remains a rather difficult task due to the object bias present in training data. In this work, we investigate the reasons for such a lack of capability by performing an extensive bench-marking of compositional understanding in VLMs. We compare contrastive models with generative ones and analyze their differences in architecture, pre-training data, and training tasks and losses. Furthermore, we leverage In-Context Learning (ICL) as a way to improve the ability of VLMs to perform more complex reasoning and understanding given an image. Our extensive experiments demonstrate that our proposed approach outperforms baseline models across multiple compositional understanding datasets. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# DiffX: クロスモーダルな生成モデルにレイアウトをガイドする
DiffX: Guide Your Layout to Cross-Modal Generative Modeling ( http://arxiv.org/abs/2407.15488v1 ) ライセンス: Link先を確認 | Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang, | (参考訳) 拡散モデルはテキスト駆動およびレイアウト駆動の画像生成において大きな進歩を遂げている。
しかし、ほとんどの拡散モデルは可視RGB画像生成に限られている。
実際、世界の人間の知覚は、色調コントラスト、熱照明、深度情報など、様々な視点で富んでいる。
本稿では,DiffX と呼ばれる一般レイアウト誘導型クロスモーダル "RGB+X" 生成のための新しい拡散モデルを提案する。
まず,手動補正により補足された画像キャプションのためのLLaVAモデルを用いて,テキスト記述によるクロスモーダル画像データセットを構築する。
特に、DiffXは単純だが効果的なクロスモーダルな生成モデルパイプラインを示し、このパイプラインは、Dual-Path Variational AutoEncoder (DP-VAE) によって促進されるモード共有潜在空間における拡散および偏極プロセスを実行する。
さらに,長い字幕を埋め込むためにLong-CLIPを利用してユーザガイダンスを強化することで,レイアウトとテキスト条件を接続するためのゲートクロスアテンション機構を組み込んだ。
広範な実験を通じて、DiffXは3つのRGB+Xデータセット(FLIR、MFNet、COME15K)にわたるクロスモーダル生成の堅牢性と柔軟性を示す。
また、「RGB+X+Y」あるいはより多様なモダリティを適応的に生成する可能性も示している。
私たちのコードと画像処理された画像キャプションはhttps://github.com/zeyuwang-zju/DiffX.comで公開されています。
Diffusion models have made significant strides in text-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, including chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal "RGB+X" generation, called DiffX. We firstly construct the cross-modal image datasets with text descriptions using the LLaVA model for image captioning, supplemented by manual corrections. Notably, DiffX presents a simple yet effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space, facilitated by our Dual-Path Variational AutoEncoder (DP-VAE). Furthermore, we incorporate the gated cross-attention mechanism to connect the layout and text conditions, leveraging Long-CLIP for embedding long captions to enhance user guidance. Through extensive experiments, DiffX demonstrates robustness and flexibility in cross-modal generation across three RGB+X datasets: FLIR, MFNet, and COME15K, guided by various layout types. It also shows the potential for adaptive generation of "RGB+X+Y" or more diverse modalities. Our code and processed image captions are available at https://github.com/zeyuwang-zju/DiffX. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# 2つのスタックが1より優れている:多言語事前学習対象としての言語モデリングと翻訳の比較
Two Stacks Are Better Than One: A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives ( http://arxiv.org/abs/2407.15489v1 ) ライセンス: Link先を確認 | Zihao Li, Shaoxiong Ji, Timothee Mickus, Vincent Segonne, Jörg Tiedemann, | (参考訳) プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
したがって、事前学習におけるベストプラクティスを確立することは、NLP研究の大部分において主要な焦点となっている。
現在の最先端の重大な注意事項の1つは、異なる作業はめったに比較されず、異なるパラメータ数、トレーニングデータ、評価方法論について議論することが多いことである。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
データとモデルアーキテクチャのトレーニングが同等であることを確認し、調査と微調整のシナリオで観察する6つの言語にわたるダウンストリームのパフォーマンスについて議論します。
本研究では,(1)事前学習対象が最適であるかをアーキテクチャが規定し,(2)多言語翻訳は適切な条件下での学習対象として極めて効果的であることを示す。
私たちは、コード、データ、モデルの重み付けを、texttt{\url{https://github.com/Helsinki-NLP/lm-vs-mt}}で公開しています。
Pretrained language models (PLMs) display impressive performances and have captured the attention of the NLP community. Establishing the best practices in pretraining has therefore become a major point of focus for much of NLP research -- especially since the insights developed for monolingual English models need not carry to more complex multilingual. One significant caveat of the current state of the art is that different works are rarely comparable: they often discuss different parameter counts, training data, and evaluation methodology. This paper proposes a comparison of multilingual pretraining objectives in a controlled methodological environment. We ensure that training data and model architectures are comparable, and discuss the downstream performances across 6 languages that we observe in probing and fine-tuning scenarios. We make two key observations: (1) the architecture dictates which pretraining objective is optimal; (2) multilingual translation is a very effective pre-training objective under the right conditions. We make our code, data, and model weights available at \texttt{\url{https://github.com/Helsinki-NLP/lm-vs-mt}}. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# 次元4における2-異性体の高速計算と暗号応用
Fast computation of 2-isogenies in dimension 4 and cryptographic applications ( http://arxiv.org/abs/2407.15492v1 ) ライセンス: Link先を確認 | Pierrick Dartois, | (参考訳) 4次元異性体は、SIDH(Supersingular Isogeny Diffie-Hellman)の暗号解析のための暗号で最初に導入され、SQIsignHD(SQIsign isogenyベースのシグネチャスキーム)の派生である。
次元 2 と 3 とは異なり、ヤコビアンモデルとその微分を等元性を計算するためにもはや依存することはできない。
4次元(およびそれ以上)では、テータモデルのみを使用することができる。
Romain Cosset, David Lubicz と Damien Robert による以前の研究は、レベル $n$ coprime から $\ell$ (次元 $g$ で $n^g$ 座標を使用する必要がある)のtheta-models における $\ell$-isogenies の計算に焦点を当てている。
暗号アプリケーションでは、2ドルの異種連鎖を計算し、最先端のアルゴリズムで次元$g$で$\geq 3^g$座標を使用する必要がある。
本稿では、次元$g\geq 1$ のアーベル多様体とレベル$n=2$ のテータ座標を持つ2ドルの等質鎖を計算し、Pierrick Dartois, Luciano Maino, Giacomo Pope, Damien Robert による以前の研究を次元$g=2$ で一般化するアルゴリズムを提案する。
本稿では,これらのアルゴリズムを次元$g=4$で実装し,カニの補題から導出される楕円曲線積の自己準同型を計算し,SQIsignHDとSIDHの暗号解析への応用を提案する。
現在、全てのNIST SIKEパラメータに対して、ラップトップ上で開始曲線の自己準同型環が数秒以内に未知である場合に、SIDHに対して完全な鍵回復攻撃を実行することができる。
Dimension 4 isogenies have first been introduced in cryptography for the cryptanalysis of Supersingular Isogeny Diffie-Hellman (SIDH) and have been used constructively in several schemes, including SQIsignHD, a derivative of SQIsign isogeny based signature scheme. Unlike in dimensions 2 and 3, we can no longer rely on the Jacobian model and its derivatives to compute isogenies. In dimension 4 (and higher), we can only use theta-models. Previous works by Romain Cosset, David Lubicz and Damien Robert have focused on the computation of $\ell$-isogenies in theta-models of level $n$ coprime to $\ell$ (which requires to use $n^g$ coordinates in dimension $g$). For cryptographic applications, we need to compute chains of $2$-isogenies, requiring to use $\geq 3^g$ coordinates in dimension $g$ with state of the art algorithms. In this paper, we present algorithms to compute chains of $2$-isogenies between abelian varieties of dimension $g\geq 1$ with theta-coordinates of level $n=2$, generalizing a previous work by Pierrick Dartois, Luciano Maino, Giacomo Pope and Damien Robert in dimension $g=2$. We propose an implementation of these algorithms in dimension $g=4$ to compute endomorphisms of elliptic curve products derived from Kani's lemma with applications to SQIsignHD and SIDH cryptanalysis. We are now able to run a complete key recovery attack on SIDH when the endomorphism ring of the starting curve is unknown within a few seconds on a laptop for all NIST SIKE parameters. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# 中国語スペル補正モデル校正の観点からのコーパスの精製
Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction ( http://arxiv.org/abs/2407.15498v1 ) ライセンス: Link先を確認 | Dingyao Yu, Yang An, Wei Ye, Xiongfeng Xiao, Shaoguang Mao, Tao Ge, Shikun Zhang, | (参考訳) 中国語のspelling Correction(CSC)は、現実の人間の筆記やタイピングシナリオにおけるスペルエラーの労働集約的なラベル付けのため、大規模な高品質コーパスを欠いていることが多い。
1)混乱集合の誘導による \textit{Random Replacement} と,(2) 文字誤用をシミュレートする \textit{OCR/ASR-based Generation} の2つのデータ拡張手法が広く採用されている。
しかし、どちらの手法も必然的にノイズの多いデータ(例えば偽の綴り誤り)を導入し、過度な訂正につながる可能性がある。
2種類のコーパスを慎重に解析することにより、後者はより堅牢な一般化性能を得るが、前者はより良い校正CSCモデルを得る。
次に、この経験的観察に関する理論的分析を行い、コーパス精製戦略を提案する。
具体的には、OCR/ASRベースのデータサンプルを、ランダムな置換ベースのコーパスに基づいて訓練されたよく校正されたCSCモデルに入力し、予測信頼度に基づいてフィルタリングする。
改良されたOCR/ASRベースのコーパス上で単純なBERTベースのモデルを学ぶことによって、広く使用されている3つのベンチマークに対して、最先端のパフォーマンスを印象的に設定すると同時に、オーバーコレクション(例えば、偽陽性の予測を下げる)を大幅に緩和する。
Chinese Spelling Correction (CSC) commonly lacks large-scale high-quality corpora, due to the labor-intensive labeling of spelling errors in real-life human writing or typing scenarios. Two data augmentation methods are widely adopted: (1) \textit{Random Replacement} with the guidance of confusion sets and (2) \textit{OCR/ASR-based Generation} that simulates character misusing. However, both methods inevitably introduce noisy data (e.g., false spelling errors), potentially leading to over-correction. By carefully analyzing the two types of corpora, we find that though the latter achieves more robust generalization performance, the former yields better-calibrated CSC models. We then provide a theoretical analysis of this empirical observation, based on which a corpus refining strategy is proposed. Specifically, OCR/ASR-based data samples are fed into a well-calibrated CSC model trained on random replacement-based corpora and then filtered based on prediction confidence. By learning a simple BERT-based model on the refined OCR/ASR-based corpus, we set up impressive state-of-the-art performance on three widely-used benchmarks, while significantly alleviating over-correction (e.g., lowering false positive predictions). | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# 幾何学的局所確率的ハミルトン多様体の複素性
Complexity of geometrically local stoquastic Hamiltonians ( http://arxiv.org/abs/2407.15499v1 ) ライセンス: Link先を確認 | Asad Raza, Jens Eisert, Alex B. Grilo, | (参考訳) 局所ハミルトン問題のQMA完全性は、量子多体物理学における問題の計算複雑性を研究するハミルトン複雑性の分野の画期的な結果である。
提案以来、ハミルトンの重要な家族の物理的動機付けの問題をよりよく理解するためにかなりの努力が注がれている。
特に、局所ハミルトニアンの基底状態エネルギーを近似するQMA完全性は、ハミルトニアンが1次元と2次元で幾何学的に局所である場合まで拡張されている。
物理的に動機づけられたハミルトン派のうち、モンテカルロのアプローチにおいて顕著に無記号のハミルトン派を構成するため、確率的ハミルトン派は特に重要な役割を担っている。
興味深いことに、そのようなハミルトニアンにとって、手元の問題はより「古典的」になり、クラス MA (NP のランダム化版) にとって困難であり、その複雑さはデランドマイズと密接な関係を持つ。
この研究において、2次元および1次元の幾何学的局所的な類似物の両方が、十分なクディット次元を持つMAハードのままであることを示す。
さらに、関連する問題はStoqMA完全であることを示す。
The QMA-completeness of the local Hamiltonian problem is a landmark result of the field of Hamiltonian complexity that studies the computational complexity of problems in quantum many-body physics. Since its proposal, substantial effort has been invested in better understanding the problem for physically motivated important families of Hamiltonians. In particular, the QMA-completeness of approximating the ground state energy of local Hamiltonians has been extended to the case where the Hamiltonians are geometrically local in one and two spatial dimensions. Among those physically motivated Hamiltonians, stoquastic Hamiltonians play a particularly crucial role, as they constitute the manifestly sign-free Hamiltonians in Monte Carlo approaches. Interestingly, for such Hamiltonians, the problem at hand becomes more ''classical'', being hard for the class MA (the randomized version of NP) and its complexity has tight connections with derandomization. In this work, we prove that both the two- and one-dimensional geometrically local analogues remain MA-hard with high enough qudit dimension. Moreover, we show that related problems are StoqMA-complete. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# TextureCrop: テクスチャベースのクロップによる合成画像検出の強化
TextureCrop: Enhancing Synthetic Image Detection through Texture-based Cropping ( http://arxiv.org/abs/2407.15500v1 ) ライセンス: Link先を確認 | Despina Konstantinidou, Christos Koutlis, Symeon Papadopoulos, | (参考訳) ジェネレーティブAI技術は、誤解を招くコンテンツや有害なコンテンツなどの悪質な目的に使用できる超現実的な画像を生成する。
これにより、SID(Synthetic Image Detection)は、AIが生成する有害なコンテンツを防御するための重要なツールとなる。
現在のSID法は、通常、入力イメージを固定解像度にリサイズするか、計算上の問題によるセンタークロッピングを行うため、高解像度画像のアーティファクトを効果的に検出する上での課題となっている。
そこで本研究では,新しい画像前処理技術であるTextureCropを提案する。
生成アーティファクトが普及している高周波画像部品に注目することにより、TextureCropは、管理可能なメモリ要件を維持しながら、SIDの精度を効果的に向上する。
実験結果は、ForensynthsとSynthbusterのデータセットの高解像度画像に対して、中央の収穫に比べてAUCが5.7%改善し、14%改善したことを示している。
Generative AI technologies produce hyper-realistic imagery that can be used for nefarious purposes such as producing misleading or harmful content, among others. This makes Synthetic Image Detection (SID) an essential tool for defending against AI-generated harmful content. Current SID methods typically resize input images to a fixed resolution or perform center-cropping due to computational concerns, leading to challenges in effectively detecting artifacts in high-resolution images. To this end, we propose TextureCrop, a novel image pre-processing technique. By focusing on high-frequency image parts where generation artifacts are prevalent, TextureCrop effectively enhances SID accuracy while maintaining manageable memory requirements. Experimental results demonstrate a consistent improvement in AUC across various detectors by 5.7% compared to center cropping and by 14% compared to resizing, across high-resolution images from the Forensynths and Synthbuster datasets. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# WebRPG:ビジュアルプレゼンテーションのためのWebレンダリングパラメータの自動生成
WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation ( http://arxiv.org/abs/2407.15502v1 ) ライセンス: Link先を確認 | Zirui Shao, Feiyu Gao, Hangdi Xing, Zepeng Zhu, Zhi Yu, Jiajun Bu, Qi Zheng, Cong Yao, | (参考訳) 生成モデルの進歩によって促進されたコンテンツ創造革命の時代において、ウェブデザインの分野は現代のデジタルコミュニケーションにおいて重要な役割を担っているにもかかわらず、まだ解明されていない。
ウェブデザインのプロセスは複雑で、特に専門知識に乏しい人には時間がかかります。
本稿では,HTML コードに基づく Web ページの視覚的表示の自動生成を目的とした WebRPG (Web Rendering Parameters Generation) を提案する。
WebRPGはより高速なWeb開発ワークフローに寄与する。
既存のベンチマークは利用できないので、自動パイプラインを通じてWebRPG用の新しいデータセットを開発します。
さらに,多数の要素やレンダリングパラメータを管理するためにVAEを利用するベースラインモデルと,HTMLから本質的なセマンティックおよび階層的な情報を取得するためのカスタムHTML埋め込みを提案する。
このタスクをカスタマイズした定量的評価を含む広範囲な実験を行い、結果の質を評価する。
In the era of content creation revolution propelled by advancements in generative models, the field of web design remains unexplored despite its critical role in modern digital communication. The web design process is complex and often time-consuming, especially for those with limited expertise. In this paper, we introduce Web Rendering Parameters Generation (WebRPG), a new task that aims at automating the generation for visual presentation of web pages based on their HTML code. WebRPG would contribute to a faster web development workflow. Since there is no existing benchmark available, we develop a new dataset for WebRPG through an automated pipeline. Moreover, we present baseline models, utilizing VAE to manage numerous elements and rendering parameters, along with custom HTML embedding for capturing essential semantic and hierarchical information from HTML. Extensive experiments, including customized quantitative evaluations for this specific task, are conducted to evaluate the quality of the generated results. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# プロンプト圧縮の基本限界:ブラックボックス言語モデルにおけるレート歪みフレームワーク
Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models ( http://arxiv.org/abs/2407.15504v1 ) ライセンス: Link先を確認 | Adway Girish, Alliot Nagle, Marco Bondaschi, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim, | (参考訳) 我々は,大規模言語モデル(LLM)のプロンプト圧縮の問題を形式化し,ブラックボックスモデルのためのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,この構成の歪み率関数を線形プログラムとして導出し,この基本極限を線形プログラムの双対で計算するアルゴリズムを提案する。
変形率関数をベースラインとして,マルコフ連鎖から生成されたプロンプト,自然言語クエリ,およびそれらの解からなる合成データセット上での既存の圧縮スキームの性能について検討した。
我々の経験的分析は、圧縮機がブラックボックスLLMのダウンストリームタスク/クエリの知識を持つ場合、クエリ対応のプロンプト圧縮の臨界性を示す。
提案手法は,現行のプロンプト圧縮手法の性能と最適戦略との間に大きなギャップがあることを示し,そのギャップを埋めるために,前処理のクエリアウェア,可変レート適応を提案する。
私たちは実験を小さな自然言語データセットに拡張し、我々の合成データセットの発見をさらに確認します。
We formalize the problem of prompt compression for large language models (LLMs) and present a framework to unify token-level prompt compression methods which create hard prompts for black-box models. We derive the distortion-rate function for this setup as a linear program, and provide an efficient algorithm to compute this fundamental limit via the dual of the linear program. Using the distortion-rate function as the baseline, we study the performance of existing compression schemes on a synthetic dataset consisting of prompts generated from a Markov chain, natural language queries, and their respective answers. Our empirical analysis demonstrates the criticality of query-aware prompt compression, where the compressor has knowledge of the downstream task/query for the black-box LLM. We show that there is a large gap between the performance of current prompt compression methods and the optimal strategy, and propose a query-aware, variable-rate adaptation of a prior work to close the gap. We extend our experiments to a small natural language dataset to further confirm our findings on our synthetic dataset. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# SpotDiffusion: シームレスパノラマ生成のための高速なアプローチ
SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time ( http://arxiv.org/abs/2407.15507v1 ) ライセンス: Link先を確認 | Stanislav Frolov, Brian B. Moser, Andreas Dengel, | (参考訳) 大規模データセット上で事前学習した拡散モデルを活用することにより,高解像度画像を生成モデルで生成する手法が近年広く普及している。
MultiDiffusionやSyncDiffusionといった様々な技術は、複数の重複拡散経路をマージしたり、勾配勾配を利用して知覚コヒーレンスを維持することによって、正方形画像からパノラマまで、トレーニングの解像度を超えて画像生成を推し進めている。
しかし、これらの手法は、高画質でシームレスな画像を生成するために実際に必要となる、多くの予測を生成、平均化することによる、かなりの計算効率の低下に悩まされている。
この研究は、この制限に対処し、重複する重なり合った予測を生成する必要性を排除し、新しいアプローチを示す。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
これにより、全体のステップが少なく、コヒーレントで高解像度の画像が得られる。
本手法の有効性を質的,定量的に評価し,MultiDiffusion,SyncDiffusion,StitchDiffusionと比較した。
提案手法は計算効率の向上や推論時間の向上,画像品質の向上など,いくつかの重要な利点を提供する。
Generating high-resolution images with generative models has recently been made widely accessible by leveraging diffusion models pre-trained on large-scale datasets. Various techniques, such as MultiDiffusion and SyncDiffusion, have further pushed image generation beyond training resolutions, i.e., from square images to panorama, by merging multiple overlapping diffusion paths or employing gradient descent to maintain perceptual coherence. However, these methods suffer from significant computational inefficiencies due to generating and averaging numerous predictions, which is required in practice to produce high-quality and seamless images. This work addresses this limitation and presents a novel approach that eliminates the need to generate and average numerous overlapping denoising predictions. Our method shifts non-overlapping denoising windows over time, ensuring that seams in one timestep are corrected in the next. This results in coherent, high-resolution images with fewer overall steps. We demonstrate the effectiveness of our approach through qualitative and quantitative evaluations, comparing it with MultiDiffusion, SyncDiffusion, and StitchDiffusion. Our method offers several key benefits, including improved computational efficiency and faster inference times while producing comparable or better image quality. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# Compensate Quantization Errors+: Quantized Models are Inquisitive Learners
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners ( http://arxiv.org/abs/2407.15508v1 ) ライセンス: Link先を確認 | Yifei Gao, Jie Ou, Lei Wang, Fanhua Shang, Jaji Wu, Jun Cheng, | (参考訳) 大規模言語モデル(LLM)は、優れた性能と堅牢な推論能力を示すが、その拡張サイズは、相当なリソース消費のために、デプロイメントを複雑にし、環境上の懸念を増す。
近年、Learnerable Singular-value Increment (LSI) と呼ばれる量子化技術が開発され、これらの量子化の課題に対処している。
LSIと我々の広範な研究から得られた知見を活用して、量子化LDMの性能、特に低ビット環境における性能を向上させる革新的な手法を開発した。
我々の手法は、様々な量子化シナリオをまたいだ最先端の結果を一貫して提供し、量子化プロセスに関する深い理論的洞察を提供し、広範囲な応用のための量子化モデルのポテンシャルを解明する。
Large Language Models (LLMs) showcase remarkable performance and robust deductive capabilities, yet their expansive size complicates deployment and raises environmental concerns due to substantial resource consumption. The recent development of a quantization technique known as Learnable Singular-value Increment (LSI) has addressed some of these quantization challenges. Leveraging insights from LSI and our extensive research, we have developed innovative methods that enhance the performance of quantized LLMs, particularly in low-bit settings. Our methods consistently deliver state-of-the-art results across various quantization scenarios and offer deep theoretical insights into the quantization process, elucidating the potential of quantized models for widespread application. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# 代数的アンチ・ユニフィケーション
Algebraic anti-unification ( http://arxiv.org/abs/2407.15510v1 ) ライセンス: Link先を確認 | Christian Antić, | (参考訳) 抽象は人間や人工知能にとって重要な要素であり、他の異なる対象や状況において共通の構造を見ることができるため、AIの一般性にとって重要な要素である。
アンチユニフィケーション(英: anti-unification, あるいは generalization)は、理論計算機科学とAIによる抽象研究の分野である。
これはAI関連の様々な問題、最も重要な帰納的論理プログラミングにうまく適用されている。
現在まで、反統一は文学の統語論的観点からのみ研究されている。
本論文の目的は、一般代数内での反統一の代数的(意味論)理論を開始することである。
これは最近の類似性や類似度への応用によって動機づけられている。
Abstraction is key to human and artificial intelligence as it allows one to see common structure in otherwise distinct objects or situations and as such it is a key element for generality in AI. Anti-unification (or generalization) is \textit{the} part of theoretical computer science and AI studying abstraction. It has been successfully applied to various AI-related problems, most importantly inductive logic programming. Up to this date, anti-unification is studied only from a syntactic perspective in the literature. The purpose of this paper is to initiate an algebraic (i.e. semantic) theory of anti-unification within general algebras. This is motivated by recent applications to similarity and analogical proportions. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# TeX生成文書の不整合性
Inconsistencies in TeX-Produced Documents ( http://arxiv.org/abs/2407.15511v1 ) ライセンス: Link先を確認 | Jovyn Tan, Manuel Rigger, | (参考訳) TeXは、ほとんどの出版社やプロ社会で広く使われているタイプセットシステムである。
TeXは相当数のドキュメントを生成する責任があるが、TeXエコシステムの不規則性は一貫性のないドキュメントを生成する可能性がある。
これらの矛盾は、異なるTeXエンジンまたは異なるバージョンのTeXディストリビューションで発生し、結果としてフォーマット仕様に従わなかったり、異なる著者に対して異なる方法で同じ文書がレンダリングされたりする。
本研究では,432文書の大規模研究を通じて,TeXエコシステムのロバスト性を調査し,定量化する。
我々は,TeXエコシステムのクロスエンジンおよびクロスバージョン互換性を評価する自動パイプラインを開発した。
XeTeXとPDFTeXで同じ出力にコンパイルされた文書のわずか0.2%は、一般的なLaTeXパッケージと学術会議で使用されるクラスでクロスエンジンサポートが欠如しているため、異なるTeXエンジンの出力に重大な矛盾があることがわかった。
より小さな$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencys were found across different TeX Live distributions, with only 42.1% document creating the same output from 2020 to 2023。
10のユニークな根本原因のサンプルから、LaTeXパッケージに2つの新しいバグと、この調査とは独立して修正された5つの既存のバグを特定しました。
また、変更ログに記載された更新以外の、さまざまなTeX Liveディストリビューションにおける意図しない不整合も観測した。
我々は、この研究がTeXの文書作成者にとって、予想外の結果を避けるのに役立ち、TEXエコシステムのしばしば文書化されていない微妙さにどのように影響を受けるかを理解しながら、異なる実装が意図しない不整合をもたらすかを実証することで、開発者に利益をもたらすことを期待している。
TeX is a widely-used typesetting system adopted by most publishers and professional societies. While TeX is responsible for generating a significant number of documents, irregularities in the TeX ecosystem may produce inconsistent documents. These inconsistencies may occur across different TeX engines or different versions of TeX distributions, resulting in failures to adhere to formatting specifications, or the same document rendering differently for different authors. In this work, we investigate and quantify the robustness of the TeX ecosystem through a large-scale study of 432 documents. We developed an automated pipeline to evaluate the cross-engine and cross-version compatibility of the TeX ecosystem. We found significant inconsistencies in the outputs of different TeX engines: only 0.2% of documents compiled to identical output with XeTeX and PDFTeX due to a lack of cross-engine support in popular LaTeX packages and classes used in academic conferences. A smaller$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencies was found across different TeX Live distributions, with only 42.1% of documents producing the same output from 2020 to 2023. Our automated pipeline additionally reduces the human effort in bug-finding: from a sample of 10 unique root causes of inconsistencies, we identified two new bugs in LaTeX packages and five existing bugs that were fixed independently of this study. We also observed potentially unintended inconsistencies across different TeX Live distributions beyond the updates listed in changelogs. We expect that this study will help authors of TeX documents to avoid unexpected outcomes by understanding how they may be affected by the often undocumented subtleties of the TeX ecosystem, while benefiting developers by demonstrating how different implementations result in unintended inconsistencies. | 翻訳日:2024-07-23 15:31:05 公開日:2024-07-22 |
# 地球観測における欠損センサに対するモデル予測のロバスト性の向上
Increasing the Robustness of Model Predictions to Missing Sensors in Earth Observation ( http://arxiv.org/abs/2407.15512v1 ) ライセンス: Link先を確認 | Francisco Mena, Diego Arenas, Andreas Dengel, | (参考訳) EOのためのマルチセンサMLモデルは、様々なソースからのデータを統合することにより、予測精度を向上させることを目的としている。
しかし、特に外部要因の影響を受けやすい非永続センサーでは、欠落したデータの存在が重大な課題となる。
既存の文献は、時間的ドロップアウトやセンサ不変モデルのような戦略を探求し、欠落したデータ問題への一般化に対処している。
これらの研究に触発されて、入力センサドロップアウト(ISensD)とアンサンブルセンサ不変(ESensI)という、マルチセンサーシナリオに適した2つの新しい手法を研究した。
3つのマルチセンサ時間的EOデータセットを用いた実験により,モデル予測のロバスト性をより効果的に向上させることが実証された。
特に,センサが無くなった場合,モデルの予測性能が低下する様子に注目した。
アンサンブル・マルチセンサー・モデルはセンサの欠如に対して最も頑丈であることが観察された。
さらに、ISensDのセンサードロップアウト成分は、有望な堅牢性を示す。
Multi-sensor ML models for EO aim to enhance prediction accuracy by integrating data from various sources. However, the presence of missing data poses a significant challenge, particularly in non-persistent sensors that can be affected by external factors. Existing literature has explored strategies like temporal dropout and sensor-invariant models to address the generalization to missing data issues. Inspired by these works, we study two novel methods tailored for multi-sensor scenarios, namely Input Sensor Dropout (ISensD) and Ensemble Sensor Invariant (ESensI). Through experimentation on three multi-sensor temporal EO datasets, we demonstrate that these methods effectively increase the robustness of model predictions to missing sensors. Particularly, we focus on how the predictive performance of models drops when sensors are missing at different levels. We observe that ensemble multi-sensor models are the most robust to the lack of sensors. In addition, the sensor dropout component in ISensD shows promising robustness results. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 大規模言語モデルの推論には注意が必要だが、全てを必要としない
Attention Is All You Need But You Don't Need All Of It For Inference of Large Language Models ( http://arxiv.org/abs/2407.15516v1 ) ライセンス: Link先を確認 | Georgy Tyukin, Gbetondji J-S Dovonon, Jean Kaddour, Pasquale Minervini, | (参考訳) LLMの需要は近年急増しており、注目層の2次入力長の複雑さのため、低レイテンシのサービスモデルは依然として困難である。
本研究は,Llama-v2モデルの性能に及ぼすMLPとアテンション層の影響について検討する。
ドライパー・アテンション・レイヤのドロップはパフォーマンスをわずかに低下させるが、すべてのレイヤのドロップと同時に最高のスピードアップにつながる。
例えば、13B Llama2モデルで33\%の注意層を削除すると、OpenLLMベンチマークの平均パフォーマンスは1.8\%低下する。
また、後者の層以外の層をスキップすることは、注意層をスキップする以外は、より多くの層をスキップする性能を低下させる。
The inference demand for LLMs has skyrocketed in recent months, and serving models with low latencies remains challenging due to the quadratic input length complexity of the attention layers. In this work, we investigate the effect of dropping MLP and attention layers at inference time on the performance of Llama-v2 models. We find that dropping dreeper attention layers only marginally decreases performance but leads to the best speedups alongside dropping entire layers. For example, removing 33\% of attention layers in a 13B Llama2 model results in a 1.8\% drop in average performance over the OpenLLM benchmark. We also observe that skipping layers except the latter layers reduces performances for more layers skipped, except for skipping the attention layers. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# ユーザフィードバックの自動処理について
On the Automated Processing of User Feedback ( http://arxiv.org/abs/2407.15519v1 ) ライセンス: Link先を確認 | Walid Maalej, Volodymyr Biryuk, Jialiang Wei, Fabian Panse, | (参考訳) ユーザからのフィードバックは,要件エンジニアリングやユーザインターフェース設計,ソフトウェアエンジニアリング全般において,ますます重要な情報ソースになりつつある。
現在では、ソーシャルメディア、製品フォーラム、アプリストアで、ユーザからのフィードバックがほとんど利用でき、簡単にアクセスできるようになっている。
過去10年間で、ユーザーからのフィードバックがソフトウェアチームに役立つことが研究で示されている。
a) ユーザが特定の製品機能やコンポーネントを実際にどのように使っているかをよりよく理解する。
b) 欠陥を迅速に識別し、再生し、修正し、
b) 改善や新機能に対するインスピレーションを得る。
しかし、フィードバックの可能性を最大限に活用するためには、解決すべき主な課題が2つあります。
まず、ソフトウェアベンダは大量のフィードバックデータに対処しなければなりません。
第二に、ベンダーはさまざまなフィードバックの質に対処しなければならない。
この章は、さまざまなデータマイニング、機械学習、および最近のLarge Language Modelsを含む自然言語処理技術をまとめてパイプライン化し、量と品質の課題に対処します。
我々は,ソフトウェアや要件工学のユーザフィードバックを効果的かつ実効的に分析することで,研究者や実践者を指導する。
User feedback is becoming an increasingly important source of information for requirements engineering, user interface design, and software engineering in general. Nowadays, user feedback is largely available and easily accessible in social media, product forums, or app stores. Over the last decade, research has shown that user feedback can help software teams: a) better understand how users are actually using specific product features and components, b) faster identify, reproduce, and fix defects, and b) get inspirations for improvements or new features. However, to tap the full potential of feedback, there are two main challenges that need to be solved. First, software vendors must cope with a large quantity of feedback data, which is hard to manage manually. Second, vendors must also cope with a varying quality of feedback as some items might be uninformative, repetitive, or simply wrong. This chapter summarises and pipelines various data mining, machine learning, and natural language processing techniques, including recent Large Language Models, to cope with the quantity and quality challenges. We guide researchers and practitioners through implementing effective, actionable analysis of user feedback for software and requirements engineering. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 未来のモバイルネットワーク:マルチシグナル管理のためのデジタルツインアプローチ
Future-Proofing Mobile Networks: A Digital Twin Approach to Multi-Signal Management ( http://arxiv.org/abs/2407.15520v1 ) ライセンス: Link先を確認 | Roberto Morabito, Bivek Pandey, Paulius Daubaris, Yasith R Wanigarathna, Sasu Tarkoma, | (参考訳) デジタルツイン(DT)は、将来の無線ネットワークにおいて鍵となる技術となり、ネットワーク管理における利用が著しく増加する。
我々は、ネットワークアクセス技術の異質性を生かしたDTフレームワークを開発し、ネットワーク性能と管理を向上し、物理ネットワークにおけるスマートデータ処理を可能にする。
我々のフレームワークは、textit{Campus Area Network}環境下でテストされ、様々なデータソースを統合し、ネットワーク性能と環境検知に関するリアルタイムで総合的な洞察を提供する。
私たちはまた、従来の分析が、現在の分析機能を活用しながら、Generative AI(GenAI)のような新しいAIモデルに依存するように進化することを期待しています。
このキャパシティは、高度なMLモデルによる分析プロセスを単純化し、統一された方法で記述、診断、予測、規範分析を可能にする。
最後に、相互運用性に関する具体的な研究機会を示し、進化したAI統合によるDT技術の進歩の整合を構想する。
Digital Twins (DTs) are set to become a key enabling technology in future wireless networks, with their use in network management increasing significantly. We developed a DT framework that leverages the heterogeneity of network access technologies as a resource for enhanced network performance and management, enabling smart data handling in the physical network. Tested in a \textit{Campus Area Network} environment, our framework integrates diverse data sources to provide real-time, holistic insights into network performance and environmental sensing. We also envision that traditional analytics will evolve to rely on emerging AI models, such as Generative AI (GenAI), while leveraging current analytics capabilities. This capacity can simplify analytics processes through advanced ML models, enabling descriptive, diagnostic, predictive, and prescriptive analytics in a unified fashion. Finally, we present specific research opportunities concerning interoperability aspects and envision aligning advancements in DT technology with evolved AI integration. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# TOM: ウェアラブルなインテリジェントアシスタントのための開発プラットフォーム
TOM: A Development Platform For Wearable Intelligent Assistants ( http://arxiv.org/abs/2407.15523v1 ) ライセンス: Link先を確認 | Nuwan Janaka, Shengdong Zhao, David Hsu, Sherisse Tan Jing Wen, Koh Chun Keat, | (参考訳) 高度なデジタルアシスタントは、タスクパフォーマンスを大幅に向上させ、ユーザの負担を軽減し、ユーザの能力を改善するためのパーソナライズされたガイダンスを提供する。
しかし、このようなインテリジェントなデジタルアシスタントの開発は、非常に困難な課題である。
これを解決するために、ユーザと環境の両方を文脈的に認識するインテリジェントなウェアラブルアシスタントの開発を支援するために設計されたコンセプトアーキテクチャとソフトウェアプラットフォームTOM(https://github.com/TOM-Platform)を紹介します。
このシステムは、AR/MR研究者、HCI研究者、AI/ロボット研究者、およびソフトウェア開発者と共同で開発された。
TOMは、日々のアクティビティのためのインテリジェントな補助ARアプリケーションの作成を促進し、ユーザインタラクションの記録と分析、新しいデバイスの統合、さまざまなアクティビティへの支援の提供をサポートする。
さらに,概念実証支援サービスについて紹介し,そのようなサービス開発に関わる課題について論じる。
Advanced digital assistants can significantly enhance task performance, reduce user burden, and provide personalized guidance to improve users' abilities. However, the development of such intelligent digital assistants presents a formidable challenge. To address this, we introduce TOM, a conceptual architecture and software platform (https://github.com/TOM-Platform) designed to support the development of intelligent wearable assistants that are contextually aware of both the user and the environment. This system was developed collaboratively with AR/MR researchers, HCI researchers, AI/Robotic researchers, and software developers, and it continues to evolve to meet the diverse requirements of these stakeholders. TOM facilitates the creation of intelligent assistive AR applications for daily activities and supports the recording and analysis of user interactions, integration of new devices, and the provision of assistance for various activities. Additionally, we showcase several proof-of-concept assistive services and discuss the challenges involved in developing such services. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 効率的な移動型先制防御に向けて
Towards Efficient Transferable Preemptive Adversarial Defense ( http://arxiv.org/abs/2407.15524v1 ) ライセンス: Link先を確認 | Hanrui Wang, Ching-Chun Chang, Chun-Shien Lu, Isao Echizen, | (参考訳) ディープラーニング技術は、利便性と高度な発展をもたらしたが、不明瞭な摂動(すなわち敵の攻撃)に敏感なため、信頼できないものになっている。
攻撃者はこの感度を利用して送信されたメッセージをわずかに操作する。
このような攻撃に対して防御するため、攻撃前にメッセージを「攻撃」する戦略を考案しました。
この戦略はFast Preemptionと呼ばれ、入力のラベル付けや重要な特徴の学習に異なるモデルを使用することで、効率的な転送可能なプリエンプティブ・ディフェンスを提供する。
前方方向のカスケード学習アルゴリズムを用いて保護摂動を計算し、前方方向の伝搬最適化から高速収束を実現する。
この戦略は、様々なシステムにわたる最先端の転送性と保護を提供する。
私たちのFast Preemptionフレームワークはわずか3ステップで、ベンチマークのトレーニング時間、テスト時間、プリエンプティブの敵防御よりも優れています。
また, バックボーンモデル, アルゴリズム, 設定が完全に損なわれない限り, 防御戦略が付加した保護が不可逆であることを示す。
この研究は、敵の攻撃に対する積極的な防御を開発するための新しい方向を提供する。
Deep learning technology has brought convenience and advanced developments but has become untrustworthy because of its sensitivity to inconspicuous perturbations (i.e., adversarial attacks). Attackers utilize this sensitivity to slightly manipulate transmitted messages. To defend against such attacks, we have devised a strategy for "attacking" the message before it is attacked. This strategy, dubbed Fast Preemption, provides an efficient transferable preemptive defense by using different models for labeling inputs and learning crucial features. A forward-backward cascade learning algorithm is used to compute protective perturbations, starting with forward propagation optimization to achieve rapid convergence, followed by iterative backward propagation learning to alleviate overfitting. This strategy offers state-of-the-art transferability and protection across various systems. With the running of only three steps, our Fast Preemption framework outperforms benchmark training-time, test-time, and preemptive adversarial defenses. We have also devised the first to our knowledge effective white-box adaptive reversion attack and demonstrate that the protection added by our defense strategy is irreversible unless the backbone model, algorithm, and settings are fully compromised. This work provides a new direction to developing active defenses against adversarial attacks. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 確率勾配推定のための多重重要サンプリング
Multiple importance sampling for stochastic gradient estimation ( http://arxiv.org/abs/2407.15525v1 ) ライセンス: Link先を確認 | Corentin Salaün, Xingchang Huang, Iliyan Georgiev, Niloy J. Mitra, Gurprit Singh, | (参考訳) 単一および複数確率分布からの勾配推定のためのミニバッチサンプルの効率的な重要サンプリングのための理論的および実用的なフレームワークを提案する。
雑音の勾配に対処するため、我々のフレームワークは自己適応的計量を用いてトレーニング中の重要度分布を動的に進化させる。
本フレームワークは,パラメータ勾配に合わせて,多種多様なサンプリング分布を組み合わせる。
このアプローチはベクトル値勾配推定の重要サンプリングを容易にする。
私たちのフレームワークは、複数のディストリビューションをナビゲート的に組み合わせるのではなく、複数のディストリビューションにまたがるデータコントリビューションを最適に重み付けする。
この多重重要度の組み合わせにより、より優れた勾配推定が得られ、より高速な訓練収束がもたらされる。
画像および点クラウドデータセットの分類や回帰といった,さまざまな最適化タスクに対する経験的評価を通じて,このアプローチの有効性を実証する。
We introduce a theoretical and practical framework for efficient importance sampling of mini-batch samples for gradient estimation from single and multiple probability distributions. To handle noisy gradients, our framework dynamically evolves the importance distribution during training by utilizing a self-adaptive metric. Our framework combines multiple, diverse sampling distributions, each tailored to specific parameter gradients. This approach facilitates the importance sampling of vector-valued gradient estimation. Rather than naively combining multiple distributions, our framework involves optimally weighting data contribution across multiple distributions. This adapted combination of multiple importance yields superior gradient estimates, leading to faster training convergence. We demonstrate the effectiveness of our approach through empirical evaluations across a range of optimization tasks like classification and regression on both image and point cloud datasets. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 合成画像学習:パフォーマンスの確保とメンバーシップ推論攻撃の防止
Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks ( http://arxiv.org/abs/2407.15526v1 ) ライセンス: Link先を確認 | Eugenio Lomurno, Matteo Matteucci, | (参考訳) 生成的人工知能は、合成データの生成を変革し、データ不足やプライバシーといった課題に対する革新的な解決策を提供する。
しかし、この合成データを高性能モデルのトレーニングに効果的に利用することは、依然として大きな課題である。
本稿では、下流分類器の学習に合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を導入することにより、この問題に対処する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、合成データセット再生とソフトラベリング機構を通じて分類器に提供する情報の品質と有用性を大幅に改善する技術である。
KRパイプラインはさまざまなデータセットでテストされており、網膜画像から臓器スキャンまで、非常に異質な6つの医療画像データセットに焦点を当てている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
さらに、得られたモデルはメンバーシップ推論攻撃に対するほぼ完全な免疫を示し、従来の手法で訓練されたモデルに欠けているプライバシー特性を示す。
Generative artificial intelligence has transformed the generation of synthetic data, providing innovative solutions to challenges like data scarcity and privacy, which are particularly critical in fields such as medicine. However, the effective use of this synthetic data to train high-performance models remains a significant challenge. This paper addresses this issue by introducing Knowledge Recycling (KR), a pipeline designed to optimise the generation and use of synthetic data for training downstream classifiers. At the heart of this pipeline is Generative Knowledge Distillation (GKD), the proposed technique that significantly improves the quality and usefulness of the information provided to classifiers through a synthetic dataset regeneration and soft labelling mechanism. The KR pipeline has been tested on a variety of datasets, with a focus on six highly heterogeneous medical image datasets, ranging from retinal images to organ scans. The results show a significant reduction in the performance gap between models trained on real and synthetic data, with models based on synthetic data outperforming those trained on real data in some cases. Furthermore, the resulting models show almost complete immunity to Membership Inference Attacks, manifesting privacy properties missing in models trained with conventional techniques. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 解釈可能な概念ベースメモリ推論
Interpretable Concept-Based Memory Reasoning ( http://arxiv.org/abs/2407.15527v1 ) ライセンス: Link先を確認 | David Debot, Pietro Barbiero, Francesco Giannini, Gabriele Ciravegna, Michelangelo Diligenti, Giuseppe Marra, | (参考訳) ディープラーニングシステムの意思決定プロセスにおける透明性の欠如は、現代の人工知能(AI)において重要な課題となっている。
この課題に対処するために、Deep Learning Architecturesに人間解釈可能な概念を組み込むことで、Concept Bottleneck Models (CBM) は大きな進歩を遂げた。
このアプローチにより、予測はユーザーが理解し、潜在的に介入できる特定の概念パターンに遡ることができる。
しかし、既存のCBMのタスク予測器は完全には解釈できないため、徹底的な分析や、配置前の意思決定プロセスの形式的検証を妨げ、重大な信頼性の懸念を生じさせる。
このギャップを埋めるために,概念ベースのメモリリゾネータ(CMR)を導入する。
本研究の目的は,各タスク予測を学習可能な論理規則のメモリ上でのニューラル選択機構としてモデル化し,次に選択されたルールのシンボリック評価を行うことである。
明示的な記憶の存在と象徴的な評価により、ドメインの専門家はタスク予測プロセスにおいて、特定のグローバルな特性の妥当性を検査し、正式に検証することができる。
実験により、CMRは最先端のCBMと同等の精度-解釈可能性のトレードオフを達成し、基礎的な真実と整合した論理規則を発見し、規則の介入を可能にし、事前デプロイ検証を可能にすることを示した。
The lack of transparency in the decision-making processes of deep learning systems presents a significant challenge in modern artificial intelligence (AI), as it impairs users' ability to rely on and verify these systems. To address this challenge, Concept Bottleneck Models (CBMs) have made significant progress by incorporating human-interpretable concepts into deep learning architectures. This approach allows predictions to be traced back to specific concept patterns that users can understand and potentially intervene on. However, existing CBMs' task predictors are not fully interpretable, preventing a thorough analysis and any form of formal verification of their decision-making process prior to deployment, thereby raising significant reliability concerns. To bridge this gap, we introduce Concept-based Memory Reasoner (CMR), a novel CBM designed to provide a human-understandable and provably-verifiable task prediction process. Our approach is to model each task prediction as a neural selection mechanism over a memory of learnable logic rules, followed by a symbolic evaluation of the selected rule. The presence of an explicit memory and the symbolic evaluation allow domain experts to inspect and formally verify the validity of certain global properties of interest for the task prediction process. Experimental results demonstrate that CMR achieves comparable accuracy-interpretability trade-offs to state-of-the-art CBMs, discovers logic rules consistent with ground truths, allows for rule interventions, and allows pre-deployment verification. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# ダブルディープラーニングに基づくイベントデータ符号化と分類
Double Deep Learning-based Event Data Coding and Classification ( http://arxiv.org/abs/2407.15531v1 ) ライセンス: Link先を確認 | Abdelrahman Seleem, André F. R. Guarda, Nuno M. M. Rodrigues, Fernando Pereira, | (参考訳) イベントカメラは"イベント(events)"と呼ばれる、ピクセルごとの非同期の明るさ変化をキャプチャする機能を備えており、コンピュータビジョンアプリケーションのための従来のフレームベースのカメラよりも利点がある。
イベントデータの効率的なコーディングは、大量のイベントを考慮すれば、送信とストレージに不可欠である。
本稿では、イベントのポイントクラウドベースの表現を用いて、イベントデータ符号化と分類の両方のための新しいダブルディープラーニングベースのアーキテクチャを提案する。
この文脈では、イベントからポイントクラウドへの変換とイベントへの変換は提案手法の重要なステップであり、その影響は圧縮と分類性能の観点から評価される。
実験結果から,近年のJPEG Pleno Point Cloud Coding標準において,損失点クラウドコーデックを適用した場合でも,圧縮イベントの分類性能が元のイベントの1つに類似していることが示唆された。
また、JPEG PCCを用いて符号化されたイベントは、従来のMPEG幾何ベースのPoint Cloud Coding標準を用いて符号化されたイベントよりも優れた分類性能が得られることを示した。
さらに、学習ベースのコーディングの採用は、圧縮されたドメインでコンピュータビジョンタスクを実行する可能性が高く、コーディングアーティファクトの影響を緩和しつつ、デコードステージをスキップすることができる。
Event cameras have the ability to capture asynchronous per-pixel brightness changes, called "events", offering advantages over traditional frame-based cameras for computer vision applications. Efficiently coding event data is critical for transmission and storage, given the significant volume of events. This paper proposes a novel double deep learning-based architecture for both event data coding and classification, using a point cloud-based representation for events. In this context, the conversions from events to point clouds and back to events are key steps in the proposed solution, and therefore its impact is evaluated in terms of compression and classification performance. Experimental results show that it is possible to achieve a classification performance of compressed events which is similar to one of the original events, even after applying a lossy point cloud codec, notably the recent learning-based JPEG Pleno Point Cloud Coding standard, with a clear rate reduction. Experimental results also demonstrate that events coded using JPEG PCC achieve better classification performance than those coded using the conventional lossy MPEG Geometry-based Point Cloud Coding standard. Furthermore, the adoption of learning-based coding offers high potential for performing computer vision tasks in the compressed domain, which allows skipping the decoding stage while mitigating the impact of coding artifacts. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# グラフ注意ネットワークを用いた大規模時間変化ポートフォリオ最適化
Large-scale Time-Varying Portfolio Optimisation using Graph Attention Networks ( http://arxiv.org/abs/2407.15532v1 ) ライセンス: Link先を確認 | Kamesh Korangi, Christophe Mues, Cristián Bravo, | (参考訳) 個別の資産パフォーマンスの評価とは別に、金融市場の投資家は、一組の企業がポートフォリオとしてどのように振る舞うかを検討する必要がある。
従来のMarkowitzベースの平均分散ポートフォリオは広く使われているが、ネットワークベースの最適化技術はこれらの発展の上に構築されている。
しかし、ほとんどの研究は、デフォルトのリスクのある企業を含まないため、一定期間にわたって指標を下げる企業を取り除きます。
これはリスクの高い企業を取り入れ、ポートフォリオの最適化に全企業を使う最初の研究だ。
本稿では,グラフニューラルネットワーク(GNN)のサブクラスであるグラフ注意ネットワーク(GAT)を利用した新しい手法を提案する。
GNNは、ディープラーニングベースのモデルとして、非線形関係を明らかにするためにネットワークデータを利用することができる。
高次元の機能を処理し、特定の目的のためにカスタマイズされたレイヤに対応する能力は、中小規模のポートフォリオ最適化のような大規模な問題に特にアピールする。
本研究では、中規模企業における30年間のデータを活用し、距離相関と三角最大フィルタグラフを用いた企業のグラフを作成する。
これらのグラフは、重みと割り当ての制約を課すカスタムレイヤとシャープ比に由来する損失関数を用いてトレーニングしたGATモデルへの入力であり、ポートフォリオのリスク調整されたリターンを直接最大化する。
この新モデルは、ネットワーク特性ベースのポートフォリオ、平均分散ベースのポートフォリオ、および等しい重み付けされたポートフォリオに対してベンチマークされる。
以上の結果から,GATモデルによるポートフォリオは,すべてのベンチマークを上回り,長期にわたって他の戦略よりも一貫して優れており,市場ダイナミクスにも有益であることが明らかとなった。
Apart from assessing individual asset performance, investors in financial markets also need to consider how a set of firms performs collectively as a portfolio. Whereas traditional Markowitz-based mean-variance portfolios are widespread, network-based optimisation techniques have built upon these developments. However, most studies do not contain firms at risk of default and remove any firms that drop off indices over a certain time. This is the first study to incorporate risky firms and use all the firms in portfolio optimisation. We propose and empirically test a novel method that leverages Graph Attention networks (GATs), a subclass of Graph Neural Networks (GNNs). GNNs, as deep learning-based models, can exploit network data to uncover nonlinear relationships. Their ability to handle high-dimensional features and accommodate customised layers for specific purposes makes them particularly appealing for large-scale problems such as mid- and small-cap portfolio optimization. This study utilises 30 years of data on mid-cap firms, creating graphs of firms using distance correlation and the Triangulated Maximally Filtered Graph approach. These graphs are the inputs to a GAT model that we train using custom layers which impose weight and allocation constraints and a loss function derived from the Sharpe ratio, thus directly maximising portfolio risk-adjusted returns. This new model is benchmarked against a network characteristic-based portfolio, a mean variance-based portfolio, and an equal-weighted portfolio. The results show that the portfolio produced by the GAT-based model outperforms all benchmarks and is consistently superior to other strategies over a long period while also being informative of market dynamics. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# InAsナノワイヤにおける電荷センサと一体化された1次元量子ドットアレイ
One-dimensional quantum dot array integrated with charge sensors in an InAs nanowire ( http://arxiv.org/abs/2407.15534v1 ) ライセンス: Link先を確認 | Yi Luo, Xiao-Fei Liu, Zhi-Hai Liu, Weijie Li, Shili Yan, Han Gao, Haitian Su, Dong Pan, Jianhua Zhao, Ji-Yin Wang, H. Q. Xu, | (参考訳) InAsナノワイヤ内の2つの量子ドット電荷センサと一体化した1次元量子ドットアレイの実験的検討を行った。
アレイ内で連続的に形成された二重量子ドットを計測し、直流測定と電荷センサ信号の両方で対応する電荷安定性図を明らかにする。
1次元のクインタプル量子ドットアレイを調整し、その電荷構成を2つの電荷センサーで完全にマッピングする。
アレイ内の各ドットのエネルギーレベルは補償ゲートアーキテクチャ(仮想ゲート)を用いて個別に制御できる。
その後、配列内の4つの点が2つの二重量子ドットを形成するように選択され、超強い二重ドット間相互作用が得られる。
4次元ハミルトニアンに基づく理論シミュレーションにより、2つの二重量子ドット間の強い結合強度が確かめられる。
この研究で達成された高制御可能な1次元量子ドットアレイは、将来高度な量子ハードウェアを構築するためにInAsナノワイヤを利用することに価値があると期待されている。
We report an experimental study of a one-dimensional quintuple-quantum-dot array integrated with two quantum dot charge sensors in an InAs nanowire. The device is studied by measuring double quantum dots formed consecutively in the array and corresponding charge stability diagrams are revealed with both direct current measurements and charge sensor signals. The one-dimensional quintuple-quantum-dot array are then tuned up and its charge configurations are fully mapped out with the two charge sensors. The energy level of each dot in the array can be controlled individually by using a compensated gate architecture (i.e., "virtual gate"). After that, four dots in the array are selected to form two double quantum dots and ultra strong inter-double-dot interaction is obtained. A theoretical simulation based on a 4-dimensional Hamiltonian confirms the strong coupling strength between the two double quantum dots. The highly controllable one-dimensional quantum dot array achieved in this work is expected to be valuable for employing InAs nanowires to construct advanced quantum hardware in the future. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# ペナルティ・メトリック・ネットワークを用いた制約条件下での刑罰政策最適化
Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints ( http://arxiv.org/abs/2407.15537v1 ) ライセンス: Link先を確認 | Shiqing Gao, Jiaxin Ding, Luoyi Fu, Xinbing Wang, Chenghu Zhou, | (参考訳) 制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
ペナルティ関数法は制約を扱うための効果的な手法として研究され、制約された問題を制約のないものに変換する目的に制約を課している。
しかし、政策性能と制約満足度を効率的にバランスさせる適切な罰則を選択することは困難である。
本稿では,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法である刑罰政策最適化法(EPO)を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
理論的には、EPOは収束保証を伴う制約満足度を一貫して改善する。
本稿では,新しいサロゲート関数を提案し,最悪の制約違反と近似誤差を提供する。
実際に,一階最適化器で容易に実装可能なスムーズなペナルティ関数を提案する。
EPOは、特に複雑なタスクにおいて、安定的なトレーニングプロセスにおいて、政策パフォーマンスと制約満足度の観点から、ベースラインを上回っていることを示す、広範囲な実験が実施されている。
In Constrained Reinforcement Learning (CRL), agents explore the environment to learn the optimal policy while satisfying constraints. The penalty function method has recently been studied as an effective approach for handling constraints, which imposes constraints penalties on the objective to transform the constrained problem into an unconstrained one. However, it is challenging to choose appropriate penalties that balance policy performance and constraint satisfaction efficiently. In this paper, we propose a theoretically guaranteed penalty function method, Exterior Penalty Policy Optimization (EPO), with adaptive penalties generated by a Penalty Metric Network (PMN). PMN responds appropriately to varying degrees of constraint violations, enabling efficient constraint satisfaction and safe exploration. We theoretically prove that EPO consistently improves constraint satisfaction with a convergence guarantee. We propose a new surrogate function and provide worst-case constraint violation and approximation error. In practice, we propose an effective smooth penalty function, which can be easily implemented with a first-order optimizer. Extensive experiments are conducted, showing that EPO outperforms the baselines in terms of policy performance and constraint satisfaction with a stable training process, particularly on complex tasks. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 量子ビット効率の量子組合せ最適化器
Qubit-efficient quantum combinatorial optimization solver ( http://arxiv.org/abs/2407.15539v1 ) ライセンス: Link先を確認 | Bhuvanesh Sundar, Maxime Dupont, | (参考訳) 量子最適化の解法は通常、1-変数から1-ビットのマッピングに依存する。
しかし、現在の量子コンピュータにおける量子ビット数が少ないことは、古典的手法と競合する大きな障害である。
そこで本研究では、候補ビット列解をより少ない量子ビットの絡み合った波動関数にマッピングすることで、この制限を克服する量子ビット効率のアルゴリズムを開発する。
本稿では,量子近似最適化アンサッツ(QAOA)を一般化した変分量子回路を提案する。
シェリントン・カークパトリック・スピングラス問題に対するアンザッツの最大化は、アンザッツパラメータの濃度や性能保証の導出など、重要な性質を示す。
このアプローチは、短期的な中間スケールと将来のフォールトトレラントな小規模量子デバイスに有効である。
Quantum optimization solvers typically rely on one-variable-to-one-qubit mapping. However, the low qubit count on current quantum computers is a major obstacle in competing against classical methods. Here, we develop a qubit-efficient algorithm that overcomes this limitation by mapping a candidate bit string solution to an entangled wave function of fewer qubits. We propose a variational quantum circuit generalizing the quantum approximate optimization ansatz (QAOA). Extremizing the ansatz for Sherrington-Kirkpatrick spin glass problems, we show valuable properties such as the concentration of ansatz parameters and derive performance guarantees. This approach could benefit near-term intermediate-scale and future fault-tolerant small-scale quantum devices. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# メモリ効率の良いカメラ再ローカライズのための微分可能な製品量子化
Differentiable Product Quantization for Memory Efficient Camera Relocalization ( http://arxiv.org/abs/2407.15540v1 ) ライセンス: Link先を確認 | Zakaria Laskar, Iaroslav Melekhov, Assia Benbihi, Shuzhe Wang, Juho Kannala, | (参考訳) カメラの再ローカライゼーションはシーンの3Dモデルに依存しており、メモリフットプリントが大きく、複数のアプリケーションのメモリ予算と互換性がない。
シーンメモリサイズを減らす解決策の1つは、特定の3Dポイントとディスクリプタ量子化を取り除くことで、マップ圧縮である。
これは高い圧縮を実現するが、情報損失による性能低下につながる。
メモリ性能のトレードオフに対処するため、バックプロパゲーションにより製品量子化セントロイドとネットワークパラメータの両方を更新するエンド・ツー・エンドの微分可能な方法でディスクリプタ量子化復号を行う軽量シーン固有オートエンコーダネットワークを訓練する。
ディスクリプタ再構築のためのネットワークの最適化に加えて,マージンに基づく距離損失関数を用いた記述子マッチング性能の維持を推奨する。
その結果,1MBのローカルディスクリプタメモリの場合,提案するネットワークとマップ圧縮の相乗的組み合わせは,既存の圧縮方式と比較して,Aachen Day-Night上で最高の性能が得られることがわかった。
Camera relocalization relies on 3D models of the scene with a large memory footprint that is incompatible with the memory budget of several applications. One solution to reduce the scene memory size is map compression by removing certain 3D points and descriptor quantization. This achieves high compression but leads to performance drop due to information loss. To address the memory performance trade-off, we train a light-weight scene-specific auto-encoder network that performs descriptor quantization-dequantization in an end-to-end differentiable manner updating both product quantization centroids and network parameters through back-propagation. In addition to optimizing the network for descriptor reconstruction, we encourage it to preserve the descriptor-matching performance with margin-based metric loss functions. Results show that for a local descriptor memory of only 1MB, the synergistic combination of the proposed network and map compression achieves the best performance on the Aachen Day-Night compared to existing compression methods. | 翻訳日:2024-07-23 15:21:11 公開日:2024-07-22 |
# 反転活性化
Inverted Activations ( http://arxiv.org/abs/2407.15545v1 ) ライセンス: Link先を確認 | Georgii Novikov, Ivan Oseledets, | (参考訳) データとモデルサイズの増加によるニューラルネットワークのスケーリングは、より効率的なディープラーニングアルゴリズムを必要とする。
本稿では, ニューラルネットワークトレーニングにおけるメモリフットプリントの課題に対して, ポイントワイド非線形層におけるアクティベーションテンソルのハンドリングを改良することを提案する。
伝統的に、これらのレイヤは入力テンソル全体を後方パスに保存し、メモリ使用量を大幅に削減する。
我々の方法は代わりに出力テンソルを節約し、後続の層が入力テンソルを節約するために必要なメモリを削減します。
このアプローチは、GPT、BERT、Mistral、Llamaといったトランスフォーマーベースのアーキテクチャにとって特に有益である。
この手法の応用は、非線形性の逆関数を取ることである。
我々の知る限りでは、それは鎮痛的に行うことができず、代わりにより単純な関数を使って正確な近似を埋める。
実験の結果,トレーニング精度に影響を与えることなくメモリ使用量を大幅に削減できることが確認された。
実装はhttps://github.com/PgLoLo/optiacts.comで公開されている。
The scaling of neural networks with increasing data and model sizes necessitates more efficient deep learning algorithms. This paper addresses the memory footprint challenge in neural network training by proposing a modification to the handling of activation tensors in pointwise nonlinearity layers. Traditionally, these layers save the entire input tensor for the backward pass, leading to substantial memory use. Our method involves saving the output tensor instead, reducing the memory required when the subsequent layer also saves its input tensor. This approach is particularly beneficial for transformer-based architectures like GPT, BERT, Mistral, and Llama. Application of our method involves taken an inverse function of nonlinearity. To the best of our knowledge, that can not be done analitically and instead we buid an accurate approximations using simpler functions. Experimental results confirm that our method significantly reduces memory usage without affecting training accuracy. The implementation is available at https://github.com/PgLoLo/optiacts. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# LLMの持続的有害行動に対するロバスト性の改善
Targeted Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs ( http://arxiv.org/abs/2407.15549v1 ) ライセンス: Link先を確認 | Abhay Sheshadri, Aidan Ewart, Phillip Guo, Aengus Lynch, Cindy Wu, Vivek Hebbar, Henry Sleight, Asa Cooper Stickland, Ethan Perez, Dylan Hadfield-Menell, Stephen Casper, | (参考訳) 大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。
例えば、LLMのレッドチーム文学は、有害なテキストを無害とするために微調整されたモデルから引き出す「ジェイルブレイク」テクニックを多種多様に作り出している。
レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆)微調整がLLMから望ましくない能力を除去するよりも、どのように抑制するかに起因していることを示唆している。
従来の作業では、幅広い障害のクラスに対する堅牢性を改善する手段として、潜在敵訓練(LAT)が導入されていた。
これらの先行研究は、敵の摂動が望ましい行動の例における損失を最大化するために、非標的の潜時空間攻撃を検討した。
Untargeted LATは汎用的な堅牢性を提供するが、特定の障害モードに関する情報を活用できない。
ここでは、特定の競合タスクにおける損失を最小限に抑えるために、LATを対象とする実験を行う。
さまざまな最先端の手法を拡張できることがわかりました。
まず、ターゲットのLATを使用してジェイルブレイクの堅牢性を向上し、R2D2ベースラインを桁違いの計算量で上回ります。
第2に,トリガの知識のないバックドアをより効果的に除去するために,それを使用します。
最後に、より効果的に、特定の望ましくないタスクの知識を、再学習にもより堅牢な方法で解き放つために使用します。
以上の結果から, LLMの有害行動に対する防御手段として, LATが有効であることが示唆された。
Large language models (LLMs) can often be made to behave in undesirable ways that they are explicitly fine-tuned not to. For example, the LLM red-teaming literature has produced a wide variety of `jailbreaking' techniques to elicit harmful text from models that were fine-tuned to be harmless. Recent work on red-teaming, model editing, and interpretability suggests that this challenge stems from how (adversarial) fine-tuning largely serves to suppress rather than remove undesirable capabilities from LLMs. Prior work has introduced latent adversarial training (LAT) as a way to improve robustness to broad classes of failures. These prior works have considered untargeted latent space attacks where the adversary perturbs latent activations to maximize loss on examples of desirable behavior. Untargeted LAT can provide a generic type of robustness but does not leverage information about specific failure modes. Here, we experiment with targeted LAT where the adversary seeks to minimize loss on a specific competing task. We find that it can augment a wide variety of state-of-the-art methods. First, we use targeted LAT to improve robustness to jailbreaks, outperforming a strong R2D2 baseline with orders of magnitude less compute. Second, we use it to more effectively remove backdoors with no knowledge of the trigger. Finally, we use it to more effectively unlearn knowledge for specific undesirable tasks in a way that is also more robust to re-learning. Overall, our results suggest that targeted LAT can be an effective tool for defending against harmful behaviors from LLMs. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# MoXI Checker: MoXI用の拡張可能なモデルチェッカー
MoXIchecker: An Extensible Model Checker for MoXI ( http://arxiv.org/abs/2407.15551v1 ) ライセンス: Link先を確認 | Salih Ates, Dirk Beyer, Po-Chun Chien, Nian-Ze Lee, | (参考訳) MoXIは2024年に導入された新しい中間検証言語で、SMT-LIB 2言語を拡張して状態遷移システムを定義することで、シンボリックモデルチェックの標準化とオープンソース実装を促進する。
MoXIのツールスイートは、ハードウェア検証のための低レベル中間言語であるMoXIからBtor2へのトランスレータと、Btor2用の成熟ハードウェアモデルチェッカーを起動して、翻訳された検証タスクを分析する翻訳ベースモデルチェッカーを提供する。
このような翻訳ベースのモデルチェッカーの拡張性は、整数や実算術のようなより複雑な理論は、Btor2の固定長のビットベクトルで正確に表現できないため制限される。
我々はMoXI検証タスクを直接解決する最初のモデルチェッカーであるMoXIcheckerを紹介する。
MoXI を低レベル言語に翻訳する代わりに、MoXIchecker はその検証アルゴリズムのバックエンドとして SMT のソルバ非依存ライブラリ PySMT を使用している。
MoXIcheckerは、低レベル言語に制限されず、より複雑な理論を含む検証タスクに対応し、新しいアルゴリズムの実装を容易にするため拡張可能であり、PySMTのAPIを使用することで解決者に依存しない。
評価において、MoXIcheckerは整数や実算術を使うタスクを一意に解決し、MoXIツールスイートから翻訳ベースのモデルチェッカーと同等のパフォーマンスを達成した。
MoXI is a new intermediate verification language introduced in 2024 to promote the standardization and open-source implementations for symbolic model checking by extending the SMT-LIB 2 language with constructs to define state-transition systems. The tool suite of MoXI provides a translator from MoXI to Btor2, which is a lower-level intermediate language for hardware verification, and a translation-based model checker, which invokes mature hardware model checkers for Btor2 to analyze the translated verification tasks. The extensibility of such a translation-based model checker is restricted because more complex theories, such as integer or real arithmetics, cannot be precisely expressed with bit-vectors of fixed lengths in Btor2. We present MoXIchecker, the first model checker that solves MoXI verification tasks directly. Instead of translating MoXI to lower-level languages, MoXIchecker uses the solver-agnostic library PySMT for SMT solvers as backend for its verification algorithms. MoXIchecker is extensible because it accommodates verification tasks involving more complex theories, not limited by lower-level languages, facilitates the implementation of new algorithms, and is solver-agnostic by using the API of PySMT. In our evaluation, MoXIchecker uniquely solved tasks that use integer or real arithmetics, and achieved a comparable performance against the translation-based model checker from the MoXI tool suite. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# 大規模3次元マッピングのためのニューラル離散表現の分解
Decomposition of Neural Discrete Representations for Large-Scale 3D Mapping ( http://arxiv.org/abs/2407.15554v1 ) ライセンス: Link先を確認 | Minseong Park, Suhan Woo, Euntai Kim, | (参考訳) 局所的な特徴の効率的な表現を学習することは、特に大規模環境で、特徴量に基づく3Dニューラルマッピングにおいて重要な課題である。
本稿では,分解戦略に基づく離散表現を用いたストレージ効率の高い大規模3次元マッピング手法である分解型ニューラルマッピング(DNMap)を提案する。
この分解戦略は、各離散的な埋め込みを、埋め込み空間全体で共有されるコンポーネントベクトルに分解することで、繰り返しおよび代表的な形状パターンを効率的に捕捉することを目的としている。
我々のDNMapは、離散埋め込み全体ではなく、コンポーネントベクトルの集合を最適化し、離散埋め込みをインデックス化するのではなく、合成を学ぶ。
さらに、マッピングの品質を補完するために、小さなストレージ空間を必要とする低解像度の連続埋め込みを学習する。
これらの表現を浅いニューラルネットワークと効率的なオクツリーベースの特徴量と組み合わせることで、DNMapは符号付き距離関数をうまく近似し、マッピング品質を維持しながら特徴量を圧縮する。
ソースコードはhttps://github.com/minseong-p/dnmapで公開しています。
Learning efficient representations of local features is a key challenge in feature volume-based 3D neural mapping, especially in large-scale environments. In this paper, we introduce Decomposition-based Neural Mapping (DNMap), a storage-efficient large-scale 3D mapping method that employs a discrete representation based on a decomposition strategy. This decomposition strategy aims to efficiently capture repetitive and representative patterns of shapes by decomposing each discrete embedding into component vectors that are shared across the embedding space. Our DNMap optimizes a set of component vectors, rather than entire discrete embeddings, and learns composition rather than indexing the discrete embeddings. Furthermore, to complement the mapping quality, we additionally learn low-resolution continuous embeddings that require tiny storage space. By combining these representations with a shallow neural network and an efficient octree-based feature volume, our DNMap successfully approximates signed distance functions and compresses the feature volume while preserving mapping quality. Our source code is available at https://github.com/minseong-p/dnmap. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# 説明可能な分類とクラスタリングのためのRピークアライメントによる心電図解析のリガンアルゴリズム
The Rlign Algorithm for Enhanced Electrocardiogram Analysis through R-Peak Alignment for Explainable Classification and Clustering ( http://arxiv.org/abs/2407.15555v1 ) ライセンス: Link先を確認 | Lucas Plagwitz, Lucas Bickmann, Michael Fujarski, Alexander Brenner, Warnes Gobalakrishnan, Lars Eckardt, Antonius Büscher, Julian Varghese, | (参考訳) 心電図 (ECG) 記録は, 心疾患の診断に長年欠かせない存在であった。
近年,機械学習を用いた自動心電図処理の分野では,主に生の心電図信号を用いた深層学習が重要になっている。
畳み込みニューラルネットワーク(CNN)のようなモデルの主な利点は、バイオメディカルイメージングやシグナルデータを効果的に処理できることである。
しかし、この強みは、説明責任の欠如、大量のトレーニングデータの必要性、そして教師なしクラスタリングタスクにそれらを適用するのにまつわる複雑さに関する課題によって誘惑されている。
これらの課題に対処するために、我々は、補助ベクトルマシンや主成分分析を含む浅層学習技術を、半構造化された循環型形式を利用してECG信号処理に再導入することを目的としている。
そこで我々は,ECG信号を完全に構造化したフォーマットに効果的に再構成し,浅い学習アルゴリズムによる解析を容易にする変換を開発し,評価した。
本研究では、データセット内の全信号に対してRピークを整列させ、Rピーク間のセグメントを心拍依存性と非心拍依存性の両方で再サンプリングする適応的変換手法を提案する。
分類,クラスタリング,説明可能性の分野における従来の分析手法において,この変換が有益であることを示す。
我々のアプローチは、特に限られたトレーニングデータを扱う場合、CNNよりも浅い機械学習手法に顕著な優位性を示す。
さらに、完全にテストされ一般公開されたコードフレームワークをリリースし、将来の研究をサポートするための堅牢なアライメントパイプラインを提供しています。
Electrocardiogram (ECG) recordings have long been vital in diagnosing different cardiac conditions. Recently, research in the field of automatic ECG processing using machine learning methods has gained importance, mainly by utilizing deep learning methods on raw ECG signals. A major advantage of models like convolutional neural networks (CNNs) is their ability to effectively process biomedical imaging or signal data. However, this strength is tempered by challenges related to their lack of explainability, the need for a large amount of training data, and the complexities involved in adapting them for unsupervised clustering tasks. In addressing these tasks, we aim to reintroduce shallow learning techniques, including support vector machines and principal components analysis, into ECG signal processing by leveraging their semi-structured, cyclic form. To this end, we developed and evaluated a transformation that effectively restructures ECG signals into a fully structured format, facilitating their subsequent analysis using shallow learning algorithms. In this study, we present this adaptive transformative approach that aligns R-peaks across all signals in a dataset and resamples the segments between R-peaks, both with and without heart rate dependencies. We illustrate the substantial benefit of this transformation for traditional analysis techniques in the areas of classification, clustering, and explainability, outperforming commercial software for median beat transformation and CNN approaches. Our approach demonstrates a significant advantage for shallow machine learning methods over CNNs, especially when dealing with limited training data. Additionally, we release a fully tested and publicly accessible code framework, providing a robust alignment pipeline to support future research, available at https://github.com/ imi-ms/rlign. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# SETTP:デュアルレベルトランスファー可能なプロンプト学習によるスタイル抽出と可変推論
SETTP: Style Extraction and Tunable Inference via Dual-level Transferable Prompt Learning ( http://arxiv.org/abs/2407.15556v1 ) ライセンス: Link先を確認 | Chunzhen Jin, Yongfeng Huang, Yaqi Wang, Peng Cao, Osmar Zaiane, | (参考訳) 自然言語処理における重要な研究方向であるテキストスタイル転送は、テキストを様々な好みに適応させることを目的としているが、リソースが限られている場合が多い。
本研究では、低リソースシナリオにおける効果的なスタイル伝達のための2レベルトランスファーブル・プロンプト・ラーニング(SETTP)によるスタイル抽出とチューナブル推論という新しい手法を提案する。
まず、SETTPは、高リソーススタイル転送から基本スタイルの特徴を含むソーススタイルレベルのプロンプトを学習する。
トレーニング中、ソーススタイルレベルのプロンプトはアテンションモジュールを介して転送され、低リソーススタイルのトランスファーにおいて有益な知識提供のためのターゲットスタイルレベルのプロンプトが導出される。
さらに,セマンティックコンテンツに基づいてターゲットリソースをクラスタ化して得られるインスタンスレベルのプロンプトを提案し,セマンティックバイアスを低減する。
また,ChatGPT-4を用いた人的評価のアライメントに基づくスタイル類似度の自動評価手法を提案する。
SETTPは最先端の手法に匹敵する性能を達成するためにデータボリュームの1/20しか必要としないことを示す。
書き方やロールスタイルのような少ないデータを含むタスクでは、SETTPは従来のメソッドを16.24\%上回る。
Text style transfer, an important research direction in natural language processing, aims to adapt the text to various preferences but often faces challenges with limited resources. In this work, we introduce a novel method termed Style Extraction and Tunable Inference via Dual-level Transferable Prompt Learning (SETTP) for effective style transfer in low-resource scenarios. First, SETTP learns source style-level prompts containing fundamental style characteristics from high-resource style transfer. During training, the source style-level prompts are transferred through an attention module to derive a target style-level prompt for beneficial knowledge provision in low-resource style transfer. Additionally, we propose instance-level prompts obtained by clustering the target resources based on the semantic content to reduce semantic bias. We also propose an automated evaluation approach of style similarity based on alignment with human evaluations using ChatGPT-4. Our experiments across three resourceful styles show that SETTP requires only 1/20th of the data volume to achieve performance comparable to state-of-the-art methods. In tasks involving scarce data like writing style and role style, SETTP outperforms previous methods by 16.24\%. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# レジリエントなサイバー物理システムのためのエンジニアリングディ科目に向けて
Towards an Engineering Discipline for Resilient Cyber-Physical Systems ( http://arxiv.org/abs/2407.15562v1 ) ライセンス: Link先を確認 | Ricardo D. Caldas, | (参考訳) レジリエントなサイバー物理システムは、実行時エラーにもかかわらず、動作している物理環境と継続的に対話できるコンピュータシステムを構成する。
レジリエンスという用語は、正しいサービスを提供しながら予期せぬ入力に対処する能力を指す。
レジリエントコンピューティングシステムの例としては、GoogleのPageRankとBubblesortアルゴリズムがある。
レジリエントなサイバー物理システムのエンジニアリングはパラダイムシフトを必要とし、動的環境への適応性を優先する。
自己管理のためのツールとしてのソフトウェアは、不確実性に対処し、レジリエンスを組み込むための重要な手段である。
しかし、ソフトウェアエンジニアは、環境のダイナミックな変化にもかかわらず、レジリエンスを確保するという継続的な課題に直面している。
私の論文は、レジリエントなサイバー物理システムのためのエンジニアリングの分野を開拓することを目的としています。
4年間にわたって、私たちは研究を行い、メソッドとツールを構築し、ソフトウェアパッケージを提供し、実践者へのガイダンスを提供するウェブサイトを作りました。
本稿では,課題の概要,方法論,重要なコントリビューション,結果のハイライトについて概説する。
本論文は,コミュニティからフィードバックを得た上で,論文防衛の準備と今後の研究展望の洞察として機能する。
Resilient cyber-physical systems comprise computing systems able to continuously interact with the physical environment in which they operate, despite runtime errors. The term resilience refers to the ability to cope with unexpected inputs while delivering correct service. Examples of resilient computing systems are Google's PageRank and the Bubblesort algorithm. Engineering for resilient cyber-physical systems requires a paradigm shift, prioritizing adaptability to dynamic environments. Software as a tool for self-management is a key instrument for dealing with uncertainty and embedding resilience in these systems. Yet, software engineers encounter the ongoing challenge of ensuring resilience despite environmental dynamic change. My thesis aims to pioneer an engineering discipline for resilient cyber-physical systems. Over four years, we conducted studies, built methods and tools, delivered software packages, and a website offering guidance to practitioners. This paper provides a condensed overview of the problems tackled, our methodology, key contributions, and results highlights. Seeking feedback from the community, this paper serves both as preparation for the thesis defense and as insight into future research prospects. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# すべてのペアが平等であるとは限らない: 平均精度指向ビデオ検索のための階層的学習
Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval ( http://arxiv.org/abs/2407.15566v1 ) ライセンス: Link先を確認 | Yang Liu, Qianqian Xu, Peisong Wen, Siran Dai, Qingming Huang, | (参考訳) オンラインビデオリソースの急速な成長は、ビデオ検索手法の開発を著しく促進している。
ビデオ検索の標準的な評価基準として、平均精度(AP)は、関連ビデオのランキングを上位リストで評価し、予測スコアがユーザにとって信頼できる基準となる。
しかし、最近のビデオ検索手法では、全てのサンプル対を等しく扱うペアワイズ損失を利用しており、トレーニング目標と評価基準との間に明らかなギャップが生じる。
このギャップを効果的に埋めるために、我々は2つの主要な課題に対処することを目指している。
a) 現在の類似度とAPに基づく損失は,ビデオ検索に最適である。
b) フレーム間マッチングによる顕著なノイズは,AP損失の推定における曖昧さをもたらす。
これらの課題に対応するために、平均精度指向ビデオ検索(HAP-VR)のための階層的学習フレームワークを提案する。
従来の課題では、APの観点でビデオレベルの類似度を測定し最適化するために、TopK-Chamfer similarityとQuadLinear-AP損失を開発した。
後者の課題は、正確なAP損失推定を実現するためにフレームレベルの類似性を制約することである。
実験結果から,HAP-VRは複数のベンチマークデータセット上で既存の手法よりも優れており,ビデオ検索タスクに実現可能なソリューションを提供し,マルチメディアアプリケーションに潜在的なメリットをもたらすことが示唆された。
The rapid growth of online video resources has significantly promoted the development of video retrieval methods. As a standard evaluation metric for video retrieval, Average Precision (AP) assesses the overall rankings of relevant videos at the top list, making the predicted scores a reliable reference for users. However, recent video retrieval methods utilize pair-wise losses that treat all sample pairs equally, leading to an evident gap between the training objective and evaluation metric. To effectively bridge this gap, in this work, we aim to address two primary challenges: a) The current similarity measure and AP-based loss are suboptimal for video retrieval; b) The noticeable noise from frame-to-frame matching introduces ambiguity in estimating the AP loss. In response to these challenges, we propose the Hierarchical learning framework for Average-Precision-oriented Video Retrieval (HAP-VR). For the former challenge, we develop the TopK-Chamfer Similarity and QuadLinear-AP loss to measure and optimize video-level similarities in terms of AP. For the latter challenge, we suggest constraining the frame-level similarities to achieve an accurate AP loss estimation. Experimental results present that HAP-VR outperforms existing methods on several benchmark datasets, providing a feasible solution for video retrieval tasks and thus offering potential benefits for the multi-media application. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# フェデレート最適化におけるデータ不均一性に関する新しい理論的展望
A New Theoretical Perspective on Data Heterogeneity in Federated Optimization ( http://arxiv.org/abs/2407.15567v1 ) ライセンス: Link先を確認 | Jiayi Wang, Shiqiang Wang, Rong-Rong Chen, Mingyue Ji, | (参考訳) 連邦学習(FL)において、データ不均一性は、既存の理論解析が収束率について悲観的である主な理由である。
特に多くのFLアルゴリズムでは、局所的な更新数が大きくなると収束率が劇的に増加し、特に勾配の発散と局所リプシッツ定数の積が大きくなる。
しかし、実験的な研究により、これらの2つのパラメータが大きい場合でも、より局所的な更新が収束率を向上させることが示され、これは理論的な結果とは矛盾する。
本稿では,データ不均一性の新しい視点から理論的解析を行うことにより,理論的理解と実践的パフォーマンスのギャップを埋めることを目的とする。
特に、局所リプシッツ勾配仮定と比較して新しい弱い仮定を提案し、不均一性駆動擬似リプシッツ仮定と名付けた。
これと勾配の発散仮定は、データの不均一性の影響を共同で特徴づけることができることを示す。
FedAvg とその拡張の収束上界を導出することにより、既存の研究と比較すると、局所リプシッツ定数はより小さい不均一性駆動擬リプシッツ定数に置き換えられ、対応する収束上界は、同じ局所更新数に対して著しく減少するが、その順序は同じであることを示す。
さらに、局所目的関数が二次関数である場合には、不均一性駆動擬リプシッツ定数を用いて、データの不均一性の影響に関するより多くの洞察を得ることができる。
例えば、勾配の偏差が任意に大きい場合でも、FedAvgがミニバッチSGDより優れている領域を特定できる。
実験により得られた知見を検証した。
In federated learning (FL), data heterogeneity is the main reason that existing theoretical analyses are pessimistic about the convergence rate. In particular, for many FL algorithms, the convergence rate grows dramatically when the number of local updates becomes large, especially when the product of the gradient divergence and local Lipschitz constant is large. However, empirical studies can show that more local updates can improve the convergence rate even when these two parameters are large, which is inconsistent with the theoretical findings. This paper aims to bridge this gap between theoretical understanding and practical performance by providing a theoretical analysis from a new perspective on data heterogeneity. In particular, we propose a new and weaker assumption compared to the local Lipschitz gradient assumption, named the heterogeneity-driven pseudo-Lipschitz assumption. We show that this and the gradient divergence assumptions can jointly characterize the effect of data heterogeneity. By deriving a convergence upper bound for FedAvg and its extensions, we show that, compared to the existing works, local Lipschitz constant is replaced by the much smaller heterogeneity-driven pseudo-Lipschitz constant and the corresponding convergence upper bound can be significantly reduced for the same number of local updates, although its order stays the same. In addition, when the local objective function is quadratic, more insights on the impact of data heterogeneity can be obtained using the heterogeneity-driven pseudo-Lipschitz constant. For example, we can identify a region where FedAvg can outperform mini-batch SGD even when the gradient divergence can be arbitrarily large. Our findings are validated using experiments. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# ヒューマンAIチームワークによるアジャイルベースの生成ソフトウェア開発の強化
Empowering Agile-Based Generative Software Development through Human-AI Teamwork ( http://arxiv.org/abs/2407.15568v1 ) ライセンス: Link先を確認 | Sai Zhang, Zhenchang Xing, Ronghui Guo, Fangzhou Xu, Lei Chen, Zhaoyuan Zhang, Xiaowang Zhang, Zhiyong Feng, Zhiqiang Zhuang, | (参考訳) ソフトウェア開発では、ユーザが提案する生の要件はしばしば不完全であり、アプリケーション機能の完全な実装を妨げる。
大規模言語モデルの出現に伴い、トップダウンのウォーターフォールモデルを用いた最近の手法では、要求完了のために疑問を呈するアプローチを採用し、さらなるユーザ要求を探究する。
しかし、ドメイン知識に制約されたユーザは、効果的な受け入れ基準を欠いているため、ユーザの暗黙的なニーズを捉えることができない。
さらに、ウォーターフォールモデルの累積誤差は、生成されたコードとユーザ要求の相違につながる可能性がある。
アジャイルの方法論は、軽量なイテレーションとユーザとのコラボレーションを通じて累積的なエラーを低減しますが、課題は、ユーザ要求と生成されたコード間のセマンティックな一貫性を確保することです。
我々は、人間-AIチームワークによるアジャイルベースの生成ソフトウェア開発であるAgileGenを提案する。
AgileGenは、要件とコード間のセマンティックな一貫性のために、Gherkin氏によるテスト可能な要件を初めて使用しようと試みている。
さらに、私たちは人間とAIのチームワークを革新し、ユーザがうまく行っている意思決定プロセスに参加できるようにし、アプリケーション機能の完全性を高めます。
最後に、ユーザシナリオの信頼性を改善するために、メモリプール機構を使用して、ユーザの意思決定シナリオを収集し、それらを新しいユーザに推奨する。
ユーザフレンドリなインタラクティブシステムであるAgileGenは、既存のベストメソッドを16.4%上回り、ユーザ満足度を高めました。
In software development, the raw requirements proposed by users are frequently incomplete, which impedes the complete implementation of application functionalities. With the emergence of large language models, recent methods with the top-down waterfall model employ a questioning approach for requirement completion, attempting to explore further user requirements. However, users, constrained by their domain knowledge, lack effective acceptance criteria, which fail to capture the implicit needs of the user. Moreover, the cumulative errors of the waterfall model can lead to discrepancies between the generated code and user requirements. The Agile methodologies reduce cumulative errors through lightweight iteration and collaboration with users, but the challenge lies in ensuring semantic consistency between user requirements and the code generated. We propose AgileGen, an agile-based generative software development through human-AI teamwork. AgileGen attempts for the first time to use testable requirements by Gherkin for semantic consistency between requirements and code. Additionally, we innovate in human-AI teamwork, allowing users to participate in decision-making processes they do well and enhancing the completeness of application functionality. Finally, to improve the reliability of user scenarios, a memory pool mechanism is used to collect user decision-making scenarios and recommend them to new users. AgileGen, as a user-friendly interactive system, significantly outperformed existing best methods by 16.4% and garnered higher user satisfaction. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# チェイン・オブ・サートを用いた検索増強生成の実証的研究
An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought ( http://arxiv.org/abs/2407.15569v1 ) ライセンス: Link先を確認 | Yuetong Zhao, Hongyu Cao, Xianyu Zhao, Zhijian Ou, | (参考訳) 2022年末にChatGPTがローンチされて以来、ChatGPTで表される生成対話モデルは、急速に日常生活において必須のツールになりつつある。
ユーザの期待が高まるにつれ、複雑な問題を解決するための生成対話モデルの能力の向上が、現在研究の焦点となっている。
本稿では,RAFT(Retrieval Augmented Fine-Tuning)法の有効性について述べる。
RAFTは、チェーン・オブ・ソートとモデル教師付き微調整(SFT)と検索拡張生成(RAG)を組み合わせることで、モデルの情報抽出と論理的推論能力を大幅に向上させる。
RAFT法を複数のデータセットで評価し、長文QAタスクや短文QAタスク、中国語と英語のタスク、支援的および比較的推論タスクなど、様々な推論タスクのパフォーマンスを分析した。
特に、長期QAタスクと中国のデータセットに関するこれまでの研究のギャップに対処している。
さらに,RAFT法におけるチェーン・オブ・シント(CoT)の利点も評価した。
この研究は、生成的対話モデルの性能向上に焦点をあてた研究に貴重な洞察を与える。
Since the launch of ChatGPT at the end of 2022, generative dialogue models represented by ChatGPT have quickly become essential tools in daily life. As user expectations increase, enhancing the capability of generative dialogue models to solve complex problems has become a focal point of current research. This paper delves into the effectiveness of the RAFT (Retrieval Augmented Fine-Tuning) method in improving the performance of Generative dialogue models. RAFT combines chain-of-thought with model supervised fine-tuning (SFT) and retrieval augmented generation (RAG), which significantly enhanced the model's information extraction and logical reasoning abilities. We evaluated the RAFT method across multiple datasets and analysed its performance in various reasoning tasks, including long-form QA and short-form QA tasks, tasks in both Chinese and English, and supportive and comparison reasoning tasks. Notably, it addresses the gaps in previous research regarding long-form QA tasks and Chinese datasets. Moreover, we also evaluate the benefit of the chain-of-thought (CoT) in the RAFT method. This work offers valuable insights for studies focused on enhancing the performance of generative dialogue models. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# 対称二重井戸に閉じ込められた単一原子に対するスピン軌道結合による光子様共鳴
Spin-orbit coupling mediated photon-like resonance for a single atom trapped in a symmetric double well ( http://arxiv.org/abs/2407.15574v1 ) ライセンス: Link先を確認 | Changwei Fan, Xiaoxiao Hu, Xin Yan, Hongzheng Wu, Zhiqiang Li, Jinpeng Xiao, Yajiang Chen, Xiaobing Luo, | (参考訳) 我々は、ラマンレーザー強度のコヒーレント周期変調を含む手法を用いて、対称二重井戸トラップにおけるスピン軌道結合原子のエネルギー準位間の共鳴遷移を誘導する。
フォトン支援トンネル法(PAT)とスピン軌道結合法(SOC)を組み合わせることにより、原子の予め定義されたエネルギーレベル間の共鳴遷移を達成し、原子のダイナミクスをより正確に制御することができる。
このような光子共鳴は、局所状態から2つの井戸の間の原子ラビ振動への遷移を誘導し、量子的ビーティング現象によって現れるトンネル効果を効果的に低減することができる。
さらに、そのような共鳴遷移はスピン軌道結合原子においてスピン反転を引き起こす可能性がある。
さらに、SOCによる多光子共鳴から基本共鳴への転移や、SOCによる共振抑制も発見されている。
これらのケースでは、4レベルモデルから導出される共振遷移の効果的なカップリング係数の解析結果が全体の力学を考慮し、現実的な連続モデルに基づく数値的正確な結果と驚くほど良い一致を示す。
We employ a method involving coherent periodic modulation of Raman laser intensity to induce resonance transitions between energy levels of a spin-orbit coupled atom in a symmetric double-well trap. By integrating photon-assisted tunneling (PAT) technique with spin-orbit coupling (SOC), we achieve resonance transitions between the predefined energy levels of the atom, thereby enabling further precise control of the atom's dynamics. We observe that such photon-like resonance can induce a transition from a localized state to atomic Rabi oscillation between two wells, or effectively reduce tunneling as manifested by a quantum beating phenomenon. Moreover, such resonance transitions have the potential to induce spin flipping in a spin-orbit coupled atom. Additionally, the SOC-mediated transition from multiphoton resonance to fundamental resonance and the SOC-induced resonance suppression are also discovered. In these cases, the analytical results of the effective coupling coefficients of the resonance transition derived from a four-level model can account for the entire dynamics, demonstrating surprisingly good agreement with the numerically exact results based on the realistic continuous model. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# Annealed Multiple Choice Learning: Annealing による Winner-take-all の限界を克服する
Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing ( http://arxiv.org/abs/2407.15580v1 ) ライセンス: Link先を確認 | David Perera, Victor Letzelter, Théo Mariotte, Adrien Cortés, Mickael Chen, Slim Essid, Gaël Richard, | (参考訳) シミュレーションアニーリングとMCLを組み合わせたAnnealed Multiple Choice Learning(aMCL)を提案する。
MCLは、不明瞭なタスクを扱う学習フレームワークであり、仮説の小さなセットを予測している。
これらの仮説は、予測の多様性を促進するWinner-takes-all (WTA) スキームを用いて訓練される。
しかし、このスキームは WTA の欲張りの性質のため、任意に最適な局所最小値に収束する可能性がある。
我々は、アニールによるこの制限を克服し、トレーニング中の仮説空間の探索を強化する。
我々は、統計物理学や情報理論からの洞察を活用し、モデル学習軌跡の詳細な記述を提供する。
さらに、合成データセット、標準UCIベンチマーク、音声分離に関する広範な実験により、我々のアルゴリズムを検証した。
We introduce Annealed Multiple Choice Learning (aMCL) which combines simulated annealing with MCL. MCL is a learning framework handling ambiguous tasks by predicting a small set of plausible hypotheses. These hypotheses are trained using the Winner-takes-all (WTA) scheme, which promotes the diversity of the predictions. However, this scheme may converge toward an arbitrarily suboptimal local minimum, due to the greedy nature of WTA. We overcome this limitation using annealing, which enhances the exploration of the hypothesis space during training. We leverage insights from statistical physics and information theory to provide a detailed description of the model training trajectory. Additionally, we validate our algorithm by extensive experiments on synthetic datasets, on the standard UCI benchmark, and on speech separation. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# ランダムベンチマークにおける回路再利用の最適化とその応用
Optimizing Circuit Reusing and its Application in Randomized Benchmarking ( http://arxiv.org/abs/2407.15582v1 ) ライセンス: Link先を確認 | Zhuo Chen, Guoding Liu, Xiongfeng Ma, | (参考訳) 量子学習タスクは、ランダムにサンプリングされた量子回路を利用して未知のシステムを特徴づける。
回路再利用 (circuit reusing) と呼ばれる効率的な手法では、各回路を複数回実行することで、新しい回路を実装するよりもコストを削減できる。
本研究では,所定の実験コストに対する測定結果の分散を最小化する最適再利用パラメータについて検討する。
実験的な推定器の分散と再利用パラメータRを結合する理論的枠組みを確立し,実装回路とそのノイズ特性が分かっている場合に最適Rを導出する。
さらに,回路や雑音の事前知識がなくても適用可能な準最適再利用戦略を導入し,理論上の最小値に近い分散を実現する。
本フレームワークの有効性を検証するため,ランダム化ベンチマークに適用し,様々な典型的なノイズチャネルに対して最適なRを解析する。
さらに超伝導プラットフォーム上で実験を行い、Rとコストの非線形関係を明らかにする。
理論的枠組みは、この非線形性をうまく組み込んで、実験的に観測された最適Rを正確に予測し、量子学習プロトコルの実験的実現へのアプローチの幅広い適用性を裏付けるものである。
Quantum learning tasks often leverage randomly sampled quantum circuits to characterize unknown systems. An efficient approach known as "circuit reusing," where each circuit is executed multiple times, reduces the cost compared to implementing new circuits. This work investigates the optimal reusing parameter that minimizes the variance of measurement outcomes for a given experimental cost. We establish a theoretical framework connecting the variance of experimental estimators with the reusing parameter R. An optimal R is derived when the implemented circuits and their noise characteristics are known. Additionally, we introduce a near-optimal reusing strategy that is applicable even without prior knowledge of circuits or noise, achieving variances close to the theoretical minimum. To validate our framework, we apply it to randomized benchmarking and analyze the optimal R for various typical noise channels. We further conduct experiments on a superconducting platform, revealing a non-linear relationship between R and the cost, contradicting previous assumptions in the literature. Our theoretical framework successfully incorporates this non-linearity and accurately predicts the experimentally observed optimal R. These findings underscore the broad applicability of our approach to experimental realizations of quantum learning protocols. | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# データ駆動型気象予報は直接観測から訓練・初期化される
Data driven weather forecasts trained and initialised directly from observations ( http://arxiv.org/abs/2407.15586v1 ) ライセンス: Link先を確認 | Anthony McNally, Christian Lessig, Peter Lean, Eulalie Boucher, Mihai Alexe, Ewan Pinnington, Matthew Chantry, Simon Lang, Chris Burrows, Marcin Chrust, Florian Pinault, Ethel Villeneuve, Niels Bormann, Sean Healy, | (参考訳) Skilful Machine Learned weather forecasts has challenged our approach to numerical weather prediction, demonstrate competitive performance than traditional physics-based approach。
データ駆動システムは、ECMWF ERA5のような過去の気象の長い歴史記録から学ぶことによって、将来の天気を予測するために訓練されている。
これらのデータセットは、ML予測システムの急速な増加と彼らが達成した精度のレベルの主要な要因である商業部門を含む、より広い研究コミュニティで自由に利用できるようになった。
しかし,初期条件のトレーニングやリアルタイム解析に使用される歴史的再解析は,物理に基づく予測モデルと観測の最適なブレンディングであるデータ同化によって行われる。
このように、多くのML予測システムは、彼らが挑戦しようとしている物理モデルに暗黙的かつ不定量的に依存している。
本稿では、ニューラルネットワークを用いて、過去の観測結果から、再解析に依存せずに、将来の天気を純粋に予測する新しいアプローチを提案する。
我々は、生の観測を用いて、観測そのものから直接学んだ大気のモデル(観測空間)を初期化する。
気象パラメータ(例えばSynOP表面データ)を将来および任意の位置で予測することにより、重要な気象パラメータ(表面温度や風など)の予測が得られる。
今後12時間にわたる予報観測の予備的な結果を示す。
これらは、実際の観測で捉えた物理過程の時間進化の学習を、すでに成功裏に証明している。
この新しいアプローチは、観測空間に純粋に留まり、従来のデータ同化の課題の多くを回避し、より広い範囲の観測を利用でき、地球全体のシステム(大気、陸、海洋、組成)の同時予測に容易に拡張できると主張している。
Skilful Machine Learned weather forecasts have challenged our approach to numerical weather prediction, demonstrating competitive performance compared to traditional physics-based approaches. Data-driven systems have been trained to forecast future weather by learning from long historical records of past weather such as the ECMWF ERA5. These datasets have been made freely available to the wider research community, including the commercial sector, which has been a major factor in the rapid rise of ML forecast systems and the levels of accuracy they have achieved. However, historical reanalyses used for training and real-time analyses used for initial conditions are produced by data assimilation, an optimal blending of observations with a physics-based forecast model. As such, many ML forecast systems have an implicit and unquantified dependence on the physics-based models they seek to challenge. Here we propose a new approach, training a neural network to predict future weather purely from historical observations with no dependence on reanalyses. We use raw observations to initialise a model of the atmosphere (in observation space) learned directly from the observations themselves. Forecasts of crucial weather parameters (such as surface temperature and wind) are obtained by predicting weather parameter observations (e.g. SYNOP surface data) at future times and arbitrary locations. We present preliminary results on forecasting observations 12-hours into the future. These already demonstrate successful learning of time evolutions of the physical processes captured in real observations. We argue that this new approach, by staying purely in observation space, avoids many of the challenges of traditional data assimilation, can exploit a wider range of observations and is readily expanded to simultaneous forecasting of the full Earth system (atmosphere, land, ocean and composition). | 翻訳日:2024-07-23 15:11:26 公開日:2024-07-22 |
# エンティティとリレーショナルテキストの結合モデリングによる教師なしロバスト言語間エンティティアライメント
Unsupervised Robust Cross-Lingual Entity Alignment via Joint Modeling of Entity and Relation Texts ( http://arxiv.org/abs/2407.15588v1 ) ライセンス: Link先を確認 | Soojin Yoon, Sungho Ko, Tongyoung Kim, SeongKu Kang, Jinyoung Yeo, Dongha Lee, | (参考訳) 言語間エンティティアライメント(EA)は、異なる言語間での複数の知識グラフ(KG)の統合を可能にし、多様な包括的知識へのシームレスなアクセスを提供する。
これを解決するために、最近の研究は、自己監督的かつ教師なしのフレームワークへと移行した。
それらの効果にもかかわらず、これらのアプローチは、主に実体的特徴に注目し、関係のセマンティックな情報を無視し、(2)ソースグラフとターゲットグラフの同型性を仮定し、ノイズとアライメントの精度を低下させ、(3)テキスト的特徴のノイズ、特に一貫性のない翻訳やOf-Vocabulary(OOV)問題に遭遇する際には、その影響を受けやすい、という制限がある。
本稿では,ERAlignを提案する。ERAlignは,エンティティレベルとリレーショナルレベルのアライメントを,関係やエンティティのセマンティックテキストの特徴を用いて共同で実行する,教師なしかつ堅牢な言語間EAフレームワークである。
その洗練プロセスは、隣り合う三重マッチングに基づいてエンティティレベルとリレーレベルアライメントを融合することにより、結果を反復的に強化する。
追加の検証プロセスでは、エンティティの隣の三重項を線形化テキストとして検証する。
この \textit{Align-and-Verify} パイプラインは、エンティティのノイズの多いテキスト機能がある場合でも、アライメント結果を厳格に評価し、ほぼ完璧なアライメントを達成する。
我々の広範囲な実験により, EAタスクの精度と有効性は向上し, 知識指向のアプリケーションに大きく寄与した。
Cross-lingual entity alignment (EA) enables the integration of multiple knowledge graphs (KGs) across different languages, providing users with seamless access to diverse and comprehensive knowledge.Existing methods, mostly supervised, face challenges in obtaining labeled entity pairs. To address this, recent studies have shifted towards a self-supervised and unsupervised frameworks. Despite their effectiveness, these approaches have limitations: (1) they mainly focus on entity features, neglecting the semantic information of relations, (2) they assume isomorphism between source and target graphs, leading to noise and reduced alignment accuracy, and (3) they are susceptible to noise in the textual features, especially when encountering inconsistent translations or Out-Of-Vocabulary (OOV) problems. In this paper, we propose ERAlign, an unsupervised and robust cross-lingual EA framework that jointly performs Entity-level and Relation-level Alignment using semantic textual features of relations and entities. Its refinement process iteratively enhances results by fusing entity-level and relation-level alignments based on neighbor triple matching. The additional verification process examines the entities' neighbor triples as the linearized text. This \textit{Align-and-Verify} pipeline that rigorously assesses alignment results, achieving near-perfect alignment even in the presence of noisy textual features of entities. Our extensive experiments demonstrate that robustness and general applicability of \proposed improved the accuracy and effectiveness of EA tasks, contributing significantly to knowledge-oriented applications. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 視覚質問応答におけるオブジェクト中心表現の有効性の探索:基礎モデルとの比較
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models ( http://arxiv.org/abs/2407.15589v1 ) ライセンス: Link先を確認 | Amir Mohammad Karimi Mamaghan, Samuele Papa, Karl Henrik Johansson, Stefan Bauer, Andrea Dittadi, | (参考訳) オブジェクト中心(OC)表現は、オブジェクトの合成としてモデル化することで、視覚シーンの状態を表すものであり、様々な下流タスクにおいて、体系的な構成の一般化と推論の促進に利用することができる。
しかし、これらの主張はまだ完全には分析されていない。
近年、基礎モデルは言語からコンピュータビジョンまで様々な領域にまたがる非並列的な能力を実証し、様々な計算タスクの将来の研究の基盤としてマークしている。
本稿では,下流視覚質問応答(VQA)における表現学習に関する広範な実証的研究を行い,シーンの正確な構成的理解を必要とする。
我々は、OCモデルの利点とトレードオフを徹底的に検討し、合成データと実世界のデータの両方において、大規模な事前学習基礎モデルを含む代替アプローチについて検討し、両世界の長所を達成するための実行可能な方法を実証する。
800以上のダウンストリームVQAモデルと15種類のアップストリーム表現を含むこの研究の広範囲性は、コミュニティ全体にとって大きな関心を持つであろう、いくつかの洞察を与えてくれます。
Object-centric (OC) representations, which represent the state of a visual scene by modeling it as a composition of objects, have the potential to be used in various downstream tasks to achieve systematic compositional generalization and facilitate reasoning. However, these claims have not been thoroughly analyzed yet. Recently, foundation models have demonstrated unparalleled capabilities across diverse domains from language to computer vision, marking them as a potential cornerstone of future research for a multitude of computational tasks. In this paper, we conduct an extensive empirical study on representation learning for downstream Visual Question Answering (VQA), which requires an accurate compositional understanding of the scene. We thoroughly investigate the benefits and trade-offs of OC models and alternative approaches including large pre-trained foundation models on both synthetic and real-world data, and demonstrate a viable way to achieve the best of both worlds. The extensiveness of our study, encompassing over 800 downstream VQA models and 15 different types of upstream representations, also provides several additional insights that we believe will be of interest to the community at large. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# すべての川が海に注ぐ:統一されたモダリティ脳のような感情中心メカニズム
All rivers run into the sea: Unified Modality Brain-like Emotional Central Mechanism ( http://arxiv.org/abs/2407.15590v1 ) ライセンス: Link先を確認 | Xinji Mai, Junxiong Lin, Haoran Wang, Zeng Tao, Yan Wang, Shaoqi Yan, Xuan Tong, Jiawen Yu, Boyang Wang, Ziheng Zhou, Qing Zhao, Shuyong Gao, Wenqiang Zhang, | (参考訳) 感情コンピューティングの分野では、様々な感覚モーダルからの情報を完全に活用することが、人間の感情の包括的理解と処理に不可欠である。
人間の脳が感情を処理するプロセスと、横断的可塑性の理論に触発されて、脳のような統合されたモーダル感情処理ネットワークであるUMBEnetを提案する。
UMBEnetの基本設計は、プロンプトプールとスパースフィーチャーフュージョン(SFF)モジュールで固有のプロンプトを融合するデュアルストリーム(DS)構造である。
Prompt Poolの設計は、様々なモダリティからの情報を統合することを目的としており、本質的なプロンプトは、システムの予測誘導能力を高め、感情分類に関する知識を効果的に管理することを目的としている。
SSFモジュールは、様々なモダリティにまたがる効果的な情報の空間性を考慮して、モダリティ融合プロンプトと本質的なプロンプトの疎結合により、利用可能なすべての感覚データをフル活用し、高い適応性と複雑な感情状態への感受性を維持することを目的としている。
DFEW、FERV39k、MAFWを含む、DFER(Dynamic Facial Expression Recognition)分野における最大のベンチマークデータセットに関する大規模な実験は、UMBEnetが現在の最先端手法よりも一貫して優れていることを証明している。
特に、Modality Missingness や Multimodal contexts のシナリオでは、UMBEnet は主要な手法をはるかに上回り、豊富なマルチモーダル情報を伴う複雑な感情的理解を含むタスクにおいて、優れたパフォーマンスと適応性を示す。
In the field of affective computing, fully leveraging information from a variety of sensory modalities is essential for the comprehensive understanding and processing of human emotions. Inspired by the process through which the human brain handles emotions and the theory of cross-modal plasticity, we propose UMBEnet, a brain-like unified modal affective processing network. The primary design of UMBEnet includes a Dual-Stream (DS) structure that fuses inherent prompts with a Prompt Pool and a Sparse Feature Fusion (SFF) module. The design of the Prompt Pool is aimed at integrating information from different modalities, while inherent prompts are intended to enhance the system's predictive guidance capabilities and effectively manage knowledge related to emotion classification. Moreover, considering the sparsity of effective information across different modalities, the SSF module aims to make full use of all available sensory data through the sparse integration of modality fusion prompts and inherent prompts, maintaining high adaptability and sensitivity to complex emotional states. Extensive experiments on the largest benchmark datasets in the Dynamic Facial Expression Recognition (DFER) field, including DFEW, FERV39k, and MAFW, have proven that UMBEnet consistently outperforms the current state-of-the-art methods. Notably, in scenarios of Modality Missingness and multimodal contexts, UMBEnet significantly surpasses the leading current methods, demonstrating outstanding performance and adaptability in tasks that involve complex emotional understanding with rich multimodal information. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 10種類の化学データセットのFAIR評価--学習と推奨
FAIR evaluation of ten widely used chemical datasets: Lessons learned and recommendations ( http://arxiv.org/abs/2407.15591v1 ) ライセンス: Link先を確認 | Marcos Da Silveira, Oona Freudenthal, Louis Deladiennee, | (参考訳) この文書は、北米とヨーロッパ(EU)市場で見つかった(有害な)物質に関するデータを拡散するデータベースに焦点を当てている。
目標は、これらの物質に関する公開データの FAIRness (Findability, Accessibility, Interoperability and Reusability) を分析し、選択したデータベースの拡張を定性的に評価することである。
手動と自動の2つの補完的アプローチを実装した。
手動によるアプローチは、オンラインアンケートに基づいている。
これらのアンケートは、FAIRの原則に関する一連の質問を通じてユーザを導くことによって、FAIRネスを評価するための構造化されたアプローチを提供する。
特に研究チーム内でのFAIR実装に関する議論の開始や、さらなる注意を要する領域の特定に役立ちます。
F-UJIやFAIR CheckerといったFAIRnessアセスメントの自動化ツールが注目され、継続的な開発が進められている。
手動ツールとは異なり、自動化ツールは、参照可能なURLから評価対象のデータリソースまで、自動で一連のテストを実行する。
ヨーロッパと北米で広く採用されている10のデータセットを分析した。
自動分析の最高スコアは54/100であった。
手作業による分析では、いくつかのFAIRメトリクスが満足しているが、メタデータがない、あるいは情報のフォーマットが標準ではないため、自動ツールでは検出できないことが示されている。
そのため、ツールによって解釈されることはなかった。
本稿では、これらの課題に対処するための結果、課題、提案を要約した分析と表の詳細について述べる。
This document focuses on databases disseminating data on (hazardous) substances found on the North American and the European (EU) market. The goal is to analyse the FAIRness (Findability, Accessibility, Interoperability and Reusability) of published open data on these substances and to qualitatively evaluate to what extend the selected databases already fulfil the criteria set out in the commission draft regulation on a common data chemicals platform. We implemented two complementary approaches: Manual, and Automatic. The manual approach is based on online questionnaires. These questionnaires provide a structured approach to evaluating FAIRness by guiding users through a series of questions related to the FAIR principles. They are particularly useful for initiating discussions on FAIR implementation within research teams and for identifying areas that require further attention. Automated tools for FAIRness assessment, such as F-UJI and FAIR Checker, are gaining prominence and are continuously under development. Unlike manual tools, automated tools perform a series of tests automatically starting from a dereferenceable URL to the data resource to be evaluated. We analysed ten widely adopted datasets managed in Europe and North America. The highest score from automatic analysis was 54/100. The manual analysis shows that several FAIR metrics were satisfied, but not detectable by automatic tools because there is no metadata, or the format of the information was not a standard one. Thus, it was not interpretable by the tool. We present the details of the analysis and tables summarizing the outcomes, the issues, and the suggestions to address these issues. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 見るべき場所を学習する:幾何学的情報を用いたアクティブな位置決めのための自己教師付き視点選択
Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information ( http://arxiv.org/abs/2407.15593v1 ) ライセンス: Link先を確認 | Luca Di Giammarino, Boyang Sun, Giorgio Grisetti, Marc Pollefeys, Hermann Blum, Daniel Barath, | (参考訳) 多様な環境における正確なローカライゼーションは、コンピュータビジョンとロボット工学における根本的な課題である。
このタスクは、センサーの正確な位置と方向(通常はカメラ)を所定の空間内で決定する。
伝統的なローカライゼーション手法は、しばしば受動的センシングに依存しており、限られた特徴や動的環境のシナリオで苦労することがある。
そこで本研究では,地域化の精度を高めるために,視点選択の重要性を強調し,活発な地域化の領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
以上の結果から,本手法は既存の手法よりも優れた性能を示し,類似の問題を対象とし,合成および実データに基づく一般化を行った。
コミュニティに利益をもたらすためのオープンソース実装もリリースしています。
Accurate localization in diverse environments is a fundamental challenge in computer vision and robotics. The task involves determining a sensor's precise position and orientation, typically a camera, within a given space. Traditional localization methods often rely on passive sensing, which may struggle in scenarios with limited features or dynamic environments. In response, this paper explores the domain of active localization, emphasizing the importance of viewpoint selection to enhance localization accuracy. Our contributions involve using a data-driven approach with a simple architecture designed for real-time operation, a self-supervised data training method, and the capability to consistently integrate our map into a planning framework tailored for real-world robotics applications. Our results demonstrate that our method performs better than the existing one, targeting similar problems and generalizing on synthetic and real data. We also release an open-source implementation to benefit the community. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 離散フローマッチング
Discrete Flow Matching ( http://arxiv.org/abs/2407.15595v1 ) ライセンス: Link先を確認 | Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky T. Q. Chen, Gabriel Synnaeve, Yossi Adi, Yaron Lipman, | (参考訳) フローマッチングや拡散モデルは、画像やビデオのような連続変数の強力な生成パラダイムとして登場したが、言語のような高次元の離散データへの応用は依然として限られている。
本稿では,離散データ生成に特化して設計された離散フローパラダイムである離散フローマッチングについて述べる。
離散フローマッチングは、いくつかの重要なコントリビューションを提供する。
(i)ソースとターゲットの分布を補間する確率経路の一般ファミリーで動作する。
(ii)確率分解器(x$-prediction)やノイズ予測(\epsilon$-prediction)などの学習後続法を用いて、これらの確率経路からサンプリングするための一般的な式を作成できる。
三 概して、異なるスケジューラで定義された特定の確率経路に焦点をあてることにより、従来の離散拡散流モデルと比較して、生成パープレキシティが著しく向上する。
(iv) 離散フローマッチングモデルを1.7Bパラメータにスケールすることで、HumanEvalでは6.7% Pass@1、13.4% Pass@10、1ショットMBPPコーディングベンチマークでは6.7% Pass@1、20.6% Pass@10に達する。
非自己回帰的な方法で高品質な離散データを生成することができ、自己回帰モデルと離散フローモデルとのギャップを著しく縮めることができる。
Despite Flow Matching and diffusion models having emerged as powerful generative paradigms for continuous variables such as images and videos, their application to high-dimensional discrete data, such as language, is still limited. In this work, we present Discrete Flow Matching, a novel discrete flow paradigm designed specifically for generating discrete data. Discrete Flow Matching offers several key contributions: (i) it works with a general family of probability paths interpolating between source and target distributions; (ii) it allows for a generic formula for sampling from these probability paths using learned posteriors such as the probability denoiser ($x$-prediction) and noise-prediction ($\epsilon$-prediction); (iii) practically, focusing on specific probability paths defined with different schedulers considerably improves generative perplexity compared to previous discrete diffusion and flow models; and (iv) by scaling Discrete Flow Matching models up to 1.7B parameters, we reach 6.7% Pass@1 and 13.4% Pass@10 on HumanEval and 6.7% Pass@1 and 20.6% Pass@10 on 1-shot MBPP coding benchmarks. Our approach is capable of generating high-quality discrete data in a non-autoregressive fashion, significantly closing the gap between autoregressive models and discrete flow models. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 多人数メカニズムを用いた多目的進化型ニューラルネットワーク探索法の比較検討
A Pairwise Comparison Relation-assisted Multi-objective Evolutionary Neural Architecture Search Method with Multi-population Mechanism ( http://arxiv.org/abs/2407.15600v1 ) ライセンス: Link先を確認 | Yu Xue, Chenchen Zhu, MengChu Zhou, Mohamed Wahib, Moncef Gabbouj, | (参考訳) ニューラルアーキテクチャサーチ(NAS)により、リサーチ者は広大なサーチスペースを自動的に探索し、効率的なニューラルネットワークを見つけることができる。
しかし、NASは重要なボトルネック、すなわち、多くのコンピューティングリソースと時間を必要とする検索プロセス中に多くのアーキテクチャを評価する必要があることに悩まされている。
NASの効率を改善するために、ニューラルネットワークの評価時間を短縮する一連の手法が提案されている。
しかし、それらは十分に効率的ではなく、それでもアーキテクチャの正確性にのみ焦点を当てている。
分類精度に加えて、現実世界のアプリケーションではより効率的でより小さなネットワークアーキテクチャが必要である。
上記の問題に対処するため,多集団機構に基づく相互比較型多目的進化アルゴリズムSMEM-NASを提案する。
SMEM-NASでは、絶対精度ではなく、相互比較ソン関係に基づいて代理モデルを構築し、アーキテクチャの精度ランキングを予測する。
さらに、2つの個体群が探索過程において互いに協力し合い、すなわち、主な個体群が進化を導く一方、副個体群は多様性を拡大する。
提案手法は,複数の最適化目標を考慮した高性能モデルの提供を目的としている。
我々は,CIFAR-10,CIFAR-100およびImageNetデータセット上で,その有効性を検証する一連の実験を行った。
たった1つのGPUで0.17日間検索するだけで、競合アーキテクチャはSMEM-NASによって発見され、ImageNet上の570MのMaddsで78.91%の精度が達成される。
この研究はNASの重要な分野において大きな進歩を遂げている。
Neural architecture search (NAS) enables re-searchers to automatically explore vast search spaces and find efficient neural networks. But NAS suffers from a key bottleneck, i.e., numerous architectures need to be evaluated during the search process, which requires a lot of computing resources and time. In order to improve the efficiency of NAS, a series of methods have been proposed to reduce the evaluation time of neural architectures. However, they are not efficient enough and still only focus on the accuracy of architectures. In addition to the classification accuracy, more efficient and smaller network architectures are required in real-world applications. To address the above problems, we propose the SMEM-NAS, a pairwise com-parison relation-assisted multi-objective evolutionary algorithm based on a multi-population mechanism. In the SMEM-NAS, a surrogate model is constructed based on pairwise compari-son relations to predict the accuracy ranking of architectures, rather than the absolute accuracy. Moreover, two populations cooperate with each other in the search process, i.e., a main population guides the evolution, while a vice population expands the diversity. Our method aims to provide high-performance models that take into account multiple optimization objectives. We conduct a series of experiments on the CIFAR-10, CIFAR-100 and ImageNet datasets to verify its effectiveness. With only a single GPU searching for 0.17 days, competitive architectures can be found by SMEM-NAS which achieves 78.91% accuracy with the MAdds of 570M on the ImageNet. This work makes a significant advance in the important field of NAS. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# ブロックチェーン型サプライチェーンにおける異常検出のための半教師付き学習
Semi-Supervised Learning for Anomaly Detection in Blockchain-based Supply Chains ( http://arxiv.org/abs/2407.15603v1 ) ライセンス: Link先を確認 | Do Hai Son, Bui Duc Manh, Tran Viet Khoa, Nguyen Linh Trung, Dinh Thai Hoang, Hoang Trong Minh, Yibeltal Alem, Le Quang Minh, | (参考訳) ブロックチェーンベースのサプライチェーン(BSC)システムは近年非常に発展しており、将来私たちの社会において重要な役割を果たす可能性がある。
本研究では,BSCシステムの異常検出モデルを開発する。
提案モデルでは,ネットワーク層におけるトラフィックデータのみを解析することにより,ネットワーク層やコンセンサス層など,さまざまなレベルのサイバー攻撃を検出することができる。
そこで我々はまず,実験を行い,データセットを収集するBSCシステムを構築した。
次に, 教師付き学習と教師なし学習の利点を組み合わせた半教師付きDAE-MLP(Deep AutoEncoder-Multilayer Perceptron)を提案する。
実験の結果,BSC内の異常検出に対する本モデルの有効性が示され,96.5%の精度が得られた。
さらに、DAE-MLPはMLPコンポーネントの更新後にF1スコアを最大33.1%改善することで、新たな攻撃を効果的に検出できる。
Blockchain-based supply chain (BSC) systems have tremendously been developed recently and can play an important role in our society in the future. In this study, we develop an anomaly detection model for BSC systems. Our proposed model can detect cyber-attacks at various levels, including the network layer, consensus layer, and beyond, by analyzing only the traffic data at the network layer. To do this, we first build a BSC system at our laboratory to perform experiments and collect datasets. We then propose a novel semi-supervised DAE-MLP (Deep AutoEncoder-Multilayer Perceptron) that combines the advantages of supervised and unsupervised learning to detect anomalies in BSC systems. The experimental results demonstrate the effectiveness of our model for anomaly detection within BSCs, achieving a detection accuracy of 96.5%. Moreover, DAE-MLP can effectively detect new attacks by improving the F1-score up to 33.1% after updating the MLP component. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# ファイングラインド行動理解と基礎モデルのクロスビュー一般化の提案
Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models ( http://arxiv.org/abs/2407.15605v1 ) ライセンス: Link先を確認 | Thinesh Thiyakesan Ponbagavathi, Kunyu Peng, Alina Roitberg, | (参考訳) ファンデーションモデル(FM)は、幅広いデータセットでトレーニングされた大規模なニューラルネットワークであり、最小限の微調整で下流タスクに優れる。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
しかし、標準ベンチマークにおける高い精度は、しばしばカメラの視点を変えるような現実世界の要因を見落としているため、人為的に腐った絵を描くことができる。
人気のあるベンチマークは、主にYouTubeや映画からのものだが、さまざまなビューを提供するが、粗いアクションのみを提供する。
ドメイン固有のデータセット(例:産業用アセンブリ)は、通常、限られた静的視点からのデータを使用する。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
画像ベースモデルやビデオベースモデルを含む複数のバックボーンアーキテクチャと設計選択と、一般的に使用されるスコア平均化や、より新しい注意に基づく時間的アグリゲーション機構を含む、時間的情報融合のための様々な戦略を比較した。
これは、バックボーンと時間融合スキームの選択のためのガイダンスを提供することを目的として、未知の視点から、異なる基礎モデルと人間の活動認識のための特定の設計選択に関する最初の体系的な研究である。
コードとモデルはコミュニティに公開される予定だ。
Foundation models (FMs) are large neural networks trained on broad datasets, excelling in downstream tasks with minimal fine-tuning. Human activity recognition in video has advanced with FMs, driven by competition among different architectures. However, high accuracies on standard benchmarks can draw an artificially rosy picture, as they often overlook real-world factors like changing camera perspectives. Popular benchmarks, mostly from YouTube or movies, offer diverse views but only coarse actions, which are insufficient for use-cases needing fine-grained, domain-specific actions. Domain-specific datasets (e.g., for industrial assembly) typically use data from limited static perspectives. This paper empirically evaluates how perspective changes affect different FMs in fine-grained human activity recognition. We compare multiple backbone architectures and design choices, including image- and video- based models, and various strategies for temporal information fusion, including commonly used score averaging and more novel attention-based temporal aggregation mechanisms. This is the first systematic study of different foundation models and specific design choices for human activity recognition from unknown views, conducted with the goal to provide guidance for backbone- and temporal- fusion scheme selection. Code and models will be made publicly available to the community. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# StylusAI:ロバストなドイツ語手書きテキスト生成のための静的適応
StylusAI: Stylistic Adaptation for Robust German Handwritten Text Generation ( http://arxiv.org/abs/2407.15608v1 ) ライセンス: Link先を確認 | Nauman Riaz, Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed, | (参考訳) 本研究では,手書きスタイル生成の領域における拡散モデルを利用した新しいアーキテクチャであるStylusAIを紹介する。
StylusAIは特に、ある言語の筆跡の文体的なニュアンスを他の言語に統合し、特にドイツ語の筆跡体系の文脈に英語の筆跡スタイルをブレンドすることに焦点を当てるように設計されている。
このアプローチは、英語の筆跡書体とドイツ語の筆跡書体でドイツ語のテキストを英語に生成し、機械による筆跡の多様性を高めつつ、生成されたテキストが両方の言語で合法であることを保証する。
StylusAIの開発と評価を支援するために,ドイツ語の37種類の筆跡を包含する包括的データセットである \lq{Deutscher Handschriften-Datensatz}\rq~(DHSD)を提案する。
このデータセットは手書きテキスト生成の領域でトレーニングとベンチマークを行うための基本的なリソースを提供する。
以上の結果から,手書きテキスト生成におけるスタイル適応法は,テキスト品質とスタイルの忠実さを両立させる手書きサンプル生成において,既存のモデルに勝るものであることが示唆された。
このように、StylusAIは手書きスタイル生成の分野で大きな進歩を見せており、同様のスクリプトを持つ言語に対する言語間スタイル適応における将来の研究や応用に有望な道のりを提供している。
In this study, we introduce StylusAI, a novel architecture leveraging diffusion models in the domain of handwriting style generation. StylusAI is specifically designed to adapt and integrate the stylistic nuances of one language's handwriting into another, particularly focusing on blending English handwriting styles into the context of the German writing system. This approach enables the generation of German text in English handwriting styles and German handwriting styles into English, enriching machine-generated handwriting diversity while ensuring that the generated text remains legible across both languages. To support the development and evaluation of StylusAI, we present the \lq{Deutscher Handschriften-Datensatz}\rq~(DHSD), a comprehensive dataset encompassing 37 distinct handwriting styles within the German language. This dataset provides a fundamental resource for training and benchmarking in the realm of handwritten text generation. Our results demonstrate that StylusAI not only introduces a new method for style adaptation in handwritten text generation but also surpasses existing models in generating handwriting samples that improve both text quality and stylistic fidelity, evidenced by its performance on the IAM database and our newly proposed DHSD. Thus, StylusAI represents a significant advancement in the field of handwriting style generation, offering promising avenues for future research and applications in cross-linguistic style adaptation for languages with similar scripts. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 高次元医用データセットのための遺伝的アルゴリズムを用いた距離ベース相互混雑特徴の選択
Distance-based mutual congestion feature selection with genetic algorithm for high-dimensional medical datasets ( http://arxiv.org/abs/2407.15611v1 ) ライセンス: Link先を確認 | Hossein Nematzadeh, Joseph Mani, Zahra Nematzadeh, Ebrahim Akbari, Radziah Mohamad, | (参考訳) 小型の高次元データセットでは、マイクロアレイ、遺伝子発現、医療データセットに見られるような、特徴の数が観察数を超える。
あらゆるデータ分布に適用可能な、普遍的に最適な特徴選択方法はありません。
最近の特徴選択の1つのアプローチは周波数ベースの特徴選択である。
しかし、この領域の既存のメソッドは、応答変数の分布にのみ焦点をあてて、特徴値を見落としてしまう傾向がある。
そこで本稿では,DMC (Distance-based Mutual Congestion) を特徴値と応答変数の観測分布の両方を考慮したフィルタ手法として紹介する。
DMCはデータセットの特徴をソートし、上位5%はKMeansによって保持され、クラスタ化され、マルチコリニアリティが軽減される。
これは各クラスタから1つの機能をランダムに選択することで実現される。
選択された特徴は特徴空間を形成し、適応レート付き遺伝的アルゴリズム(GAwAR)の探索空間はこの特徴空間を用いて近似する。
GAwARは、ラッパースキーム内の予測精度を最大化するトップ10の機能の組み合わせを近似する。
早期収束を防ぐため、GAwARはクロスオーバーと突然変異率を適応的に更新する。
ハイブリッドDMC-GAwARはバイナリ分類データセットに適用でき、最近の研究よりもその優位性を示す実験結果が得られた。
実装と対応するデータはhttps://github.com/hnematzadeh/DMC-GAwARで公開されている。
Feature selection poses a challenge in small-sample high-dimensional datasets, where the number of features exceeds the number of observations, as seen in microarray, gene expression, and medical datasets. There isn't a universally optimal feature selection method applicable to any data distribution, and as a result, the literature consistently endeavors to address this issue. One recent approach in feature selection is termed frequency-based feature selection. However, existing methods in this domain tend to overlook feature values, focusing solely on the distribution in the response variable. In response, this paper introduces the Distance-based Mutual Congestion (DMC) as a filter method that considers both the feature values and the distribution of observations in the response variable. DMC sorts the features of datasets, and the top 5% are retained and clustered by KMeans to mitigate multicollinearity. This is achieved by randomly selecting one feature from each cluster. The selected features form the feature space, and the search space for the Genetic Algorithm with Adaptive Rates (GAwAR) will be approximated using this feature space. GAwAR approximates the combination of the top 10 features that maximizes prediction accuracy within a wrapper scheme. To prevent premature convergence, GAwAR adaptively updates the crossover and mutation rates. The hybrid DMC-GAwAR is applicable to binary classification datasets, and experimental results demonstrate its superiority over some recent works. The implementation and corresponding data are available at https://github.com/hnematzadeh/DMC-GAwAR | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# GPT-4は研究論文の要約における動きを学習できるか?
Can GPT-4 learn to analyze moves in research article abstracts? ( http://arxiv.org/abs/2407.15612v1 ) ライセンス: Link先を確認 | Danni Yu, Marina Bondi, Ken Hylannd, | (参考訳) 記述された談話分析において最も強力で永続的な考えの1つは、ジャンルが作家の目的を構成する動きの観点で説明できることである。
重要な研究は、これらの異なるコミュニケーション行為を特定することを目的としているが、分析は主観性、信頼性、そして複数のコーダが分析を確認するのに時間がかかるという問題によって始められた。
本稿では,自然言語のプロンプトを用いてアノテーション処理を自動化するため,GPT-4の余裕を生かした。
応用言語学雑誌4誌の記事の要約に焦点をあてて,モデルが効果的に動きを識別できるプロンプトを考案した。
これらのプロンプトの注釈付き出力は、2つの評価者によって評価され、3番目の不一致に対処した。
その結果、8発のプロンプトは2回より有効であることが示され、可変性の領域を具体化することで、単一の文中の複数の動きを認識でき、テキスト位置に関するバイアスを低減できることが確認された。
我々は,GPT-4がこのアノテーションプロセスの自動化に有意な可能性を示唆する。
One of the most powerful and enduring ideas in written discourse analysis is that genres can be described in terms of the moves which structure a writer's purpose. Considerable research has sought to identify these distinct communicative acts, but analyses have been beset by problems of subjectivity, reliability and the time-consuming need for multiple coders to confirm analyses. In this paper we employ the affordances of GPT-4 to automate the annotation process by using natural language prompts. Focusing on abstracts from articles in four applied linguistics journals, we devise prompts which enable the model to identify moves effectively. The annotated outputs of these prompts were evaluated by two assessors with a third addressing disagreements. The results show that an 8-shot prompt was more effective than one using two, confirming that the inclusion of examples illustrating areas of variability can enhance GPT-4's ability to recognize multiple moves in a single sentence and reduce bias related to textual position. We suggest that GPT-4 offers considerable potential in automating this annotation process, when human actors with domain specific linguistic expertise inform the prompting process. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 文書に基づくゼロショット学習のための視覚的意味分解と部分的アライメント
Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot Learning ( http://arxiv.org/abs/2407.15613v1 ) ライセンス: Link先を確認 | Xiangyan Qu, Jing Yu, Keke Gai, Jiamin Zhuang, Yuanmin Tang, Gang Xiong, Gaopeng Gou, Qi Wu, | (参考訳) 近年の研究では、百科事典の文書がゼロショット学習の補助情報として役立っていることが示されている。
既存の手法は、文書のセマンティクス全体と対応する画像とを一致させて、知識を伝達する。
しかし、セマンティック情報はそれらの間に等価ではないことを無視し、結果として準最適アライメントをもたらす。
本研究では,文書や画像から多視点意味概念を抽出し,概念全体ではなくマッチングを整合させる新しいネットワークを提案する。
具体的には、視覚的側面とテキスト的側面から多視点のセマンティック埋め込みを生成する意味分解モジュールを提案し、部分的アライメントの基本概念を提供する。
埋め込みにおける情報冗長性の問題を軽減するため,ローカル・セマンティックな分散損失と,埋め込み間の直交性を強制する複数の意味的多様性損失を提案する。
その後、ビューとワード・ツー・パッチのレベルにおける意味的関連性に応じて、視覚的セマンティックな埋め込みペアを部分的に整合させる2つの損失が導入された。
その結果、文書ベースのゼロショット学習のための3つの標準ベンチマークにおいて、2つの文書ソースにおける最先端の手法を一貫して上回ります。
定性的に、我々のモデルは解釈可能な部分的関連を学習することを示す。
Recent work shows that documents from encyclopedias serve as helpful auxiliary information for zero-shot learning. Existing methods align the entire semantics of a document with corresponding images to transfer knowledge. However, they disregard that semantic information is not equivalent between them, resulting in a suboptimal alignment. In this work, we propose a novel network to extract multi-view semantic concepts from documents and images and align the matching rather than entire concepts. Specifically, we propose a semantic decomposition module to generate multi-view semantic embeddings from visual and textual sides, providing the basic concepts for partial alignment. To alleviate the issue of information redundancy among embeddings, we propose the local-to-semantic variance loss to capture distinct local details and multiple semantic diversity loss to enforce orthogonality among embeddings. Subsequently, two losses are introduced to partially align visual-semantic embedding pairs according to their semantic relevance at the view and word-to-patch levels. Consequently, we consistently outperform state-of-the-art methods under two document sources in three standard benchmarks for document-based zero-shot learning. Qualitatively, we show that our model learns the interpretable partial association. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 強化学習によるブロックチェーンネットワークにおける持続的ブロードキャスト
Sustainable broadcasting in Blockchain Network with Reinforcement Learning ( http://arxiv.org/abs/2407.15616v1 ) ライセンス: Link先を確認 | Danila Valko, Daniel Kudenko, | (参考訳) 最近の推計では、BitcoinとEthereumのカーボンフットプリントは、それぞれ年間平均64万トンと2600万トンである。
新たなブロックチェーンコンセンサス機構の作成、冗長性低減技術の適用、再生可能エネルギー源の利用、エネルギー効率の高いデバイスの利用などである。
本稿では,ブロックチェーンネットワークにおけるブロックブロードキャスト方式を改善する強化学習に基づく効率的な手法を提案する。
解析および実験結果から,ブロック伝搬方式の改良がネットワーク力学を巧みに処理し,既定の手法よりも優れた結果が得られることを確認した。
さらに、シミュレータとRL環境の技術的統合は、RLや他のML技術を用いた新しいスキームやプロトコルのさらなる研究のための完全なソリューションとして利用することができる。
Recent estimates put the carbon footprint of Bitcoin and Ethereum at an average of 64 and 26 million tonnes of CO2 per year, respectively. To address this growing problem, several possible approaches have been proposed in the literature: creating alternative blockchain consensus mechanisms, applying redundancy reduction techniques, utilizing renewable energy sources, and employing energy-efficient devices, etc. In this paper, we follow the second avenue and propose an efficient approach based on reinforcement learning that improves the block broadcasting scheme in blockchain networks. The analysis and experimental results confirmed that the proposed improvement of the block propagation scheme could cleverly handle network dynamics and achieve better results than the default approach. Additionally, our technical integration of the simulator and developed RL environment can be used as a complete solution for further study of new schemes and protocols that use RL or other ML techniques. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# 表題:身元正規化による顔表情分析の改善
Norface: Improving Facial Expression Analysis by Identity Normalization ( http://arxiv.org/abs/2407.15617v1 ) ライセンス: Link先を確認 | Hanwei Liu, Rudong An, Zhimeng Zhang, Bowen Ma, Wei Zhang, Yan Song, Yujing Hu, Wei Chen, Yu Ding, | (参考訳) 顔の表情分析は、アイデンティティ、ヘッドポーズ、バックグラウンドなどの予期せぬタスク関連ノイズのため、依然として困難な課題である。
そこで本研究では,行動単位分析(AU)と表情認識(FER)の両方に統一された,Norfaceと呼ばれる新しいフレームワークを提案する。
Norfaceは正規化ネットワークと分類ネットワークで構成されている。
第一に、念入りに設計された正規化ネットワークは、表情の一貫性を維持しながら、すべてのオリジナル画像を一貫したポーズと背景を持つ共通のアイデンティティに正規化することで、上記のタスク非関連ノイズを直接除去するのに苦労する。
そして、これら追加の正規化画像を分類ネットワークに入力する。
一貫したアイデンティティと他の要因(例えば、頭部ポーズ、背景など)により、正規化された画像により、分類ネットワークは有用な表現情報をより効果的に抽出することができる。
さらに、分類ネットワークは、顔表現の入力と複数の(AUまたは感情)ラベルの出力を扱うことを含む、潜伏表現を洗練させるために、Mixture of Expertsを組み込んでいる。
広範囲にわたる実験は、アイデンティティの正規化の洞察を得て、慎重に設計されたフレームワークを検証する。
提案手法は,AU検出,AU強度推定,FERタスクを含む複数の表情解析タスクにおいて,既存のSOTA手法よりも優れている。
正規化されたデータセットとコードは、{https://norface-fea.github.io/} を参照してください。
Facial Expression Analysis remains a challenging task due to unexpected task-irrelevant noise, such as identity, head pose, and background. To address this issue, this paper proposes a novel framework, called Norface, that is unified for both Action Unit (AU) analysis and Facial Emotion Recognition (FER) tasks. Norface consists of a normalization network and a classification network. First, the carefully designed normalization network struggles to directly remove the above task-irrelevant noise, by maintaining facial expression consistency but normalizing all original images to a common identity with consistent pose, and background. Then, these additional normalized images are fed into the classification network. Due to consistent identity and other factors (e.g. head pose, background, etc.), the normalized images enable the classification network to extract useful expression information more effectively. Additionally, the classification network incorporates a Mixture of Experts to refine the latent representation, including handling the input of facial representations and the output of multiple (AU or emotion) labels. Extensive experiments validate the carefully designed framework with the insight of identity normalization. The proposed method outperforms existing SOTA methods in multiple facial expression analysis tasks, including AU detection, AU intensity estimation, and FER tasks, as well as their cross-dataset tasks. For the normalized datasets and code please visit {https://norface-fea.github.io/}. | 翻訳日:2024-07-23 15:01:15 公開日:2024-07-22 |
# アウト・オブ・ディストリビューション・レコメンダシステムのためのデュアルテストタイムトレーニング
Dual Test-time Training for Out-of-distribution Recommender System ( http://arxiv.org/abs/2407.15620v1 ) ライセンス: Link先を確認 | Xihong Yang, Yiqi Wang, Jin Chen, Wenqi Fan, Xiangyu Zhao, En Zhu, Xinwang Liu, Defu Lian, | (参考訳) ディープラーニングは、最近革命的な進歩を遂げたレコメンデーションシステムに広く応用されている。
しかし、既存の学習ベースの手法の多くは、ユーザとアイテムの分布がトレーニングフェーズとテストフェーズの間に変化しないと仮定している。
しかし、ユーザとアイテム機能の分布は、現実のシナリオに自然に変化し、リコメンデーションパフォーマンスが大幅に低下する可能性がある。
この現象は、Out-Of-Distribution(OOD)レコメンデーション問題として定式化することができる。
この課題に対処するため,OODレコメンデーションのための新しいDual Test-Time-TrainingフレームワークDT3ORを提案する。
DT3ORでは、テスト期間中にモデル適応機構を組み込んでレコメンデーションモデルを慎重に更新し、シフトするユーザやアイテムの機能に特別に適応できるようにします。
そこで本研究では,テスト時間段階におけるユーザの不変性嗜好とユーザ/イテム特性の両方を学習するモデル学習を支援するために,自己蒸留タスクとコントラストタスクを提案する。
さらに,2つのテストタイムトレーニングフレームワークの理論的根拠を支持するため,理論的解析を行う。
我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
様々なバックボーンを持つ3つのデータセットで実験を行う。
総合的な実験結果から, DT3ORが他の最先端ベースラインと比較して有効であることが示された。
Deep learning has been widely applied in recommender systems, which has achieved revolutionary progress recently. However, most existing learning-based methods assume that the user and item distributions remain unchanged between the training phase and the test phase. However, the distribution of user and item features can naturally shift in real-world scenarios, potentially resulting in a substantial decrease in recommendation performance. This phenomenon can be formulated as an Out-Of-Distribution (OOD) recommendation problem. To address this challenge, we propose a novel Dual Test-Time-Training framework for OOD Recommendation, termed DT3OR. In DT3OR, we incorporate a model adaptation mechanism during the test-time phase to carefully update the recommendation model, allowing the model to specially adapt to the shifting user and item features. To be specific, we propose a self-distillation task and a contrastive task to assist the model learning both the user's invariant interest preferences and the variant user/item characteristics during the test-time phase, thus facilitating a smooth adaptation to the shifting features. Furthermore, we provide theoretical analysis to support the rationale behind our dual test-time training framework. To the best of our knowledge, this paper is the first work to address OOD recommendation via a test-time-training strategy. We conduct experiments on three datasets with various backbones. Comprehensive experimental results have demonstrated the effectiveness of DT3OR compared to other state-of-the-art baselines. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# RadioRAG:動的検索拡張生成を用いた放射線診断のためのFactual Large Language Models
RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation ( http://arxiv.org/abs/2407.15621v1 ) ライセンス: Link先を確認 | Soroosh Tayebi Arasteh, Mahshad Lotfinia, Keno Bressem, Robert Siepmann, Dyke Ferber, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn, | (参考訳) 大規模言語モデル(LLM)は、医学における人工知能(AI)の分野を進歩させた。
しかし、LSMは静的なトレーニングデータセットに基づいて、古い情報や不正確な情報を生成することが多い。
検索拡張生成(RAG)は、外部データソースを統合することでこれを緩和する。
従来のRAGシステムでは,事前組立固定データベースを限られた柔軟性で使用していたが,無線RAG(RadioRAG)をエンドツーエンドのフレームワークとして開発した。
RadioRAGはRadioQA(RadioQA)を用いて評価される。
我々は,RAGを介して追加のオンライン情報にアクセスすることなく,放射線学固有の質問に答える際に,様々なLSMの診断精度を評価する。
LLMs (GPT-3.5-turbo, GPT-4, Mistral-7B, Mixtral-8x7B, Llama3 [8B, 70B]) はRadioRAGと無関係に誘導された。
RadioRAGはwww.radiopaedia.orgからコンテキスト固有の情報をリアルタイムで取得し、その応答に組み込んだ。
RadioRAGは全てのLSMの診断精度を一貫して改善し、相対的な改善は2%から54%であった。
胸部画像検査や緊急放射線検査ではRAGを使わずに質問応答が一致または上回った。
GPT-3.5-turboとMixtral-8x7B-instruct-v0.1は顕著な上昇を示し、Mistral-7B-instruct-v0.2は改善を示さなかった。
LLMは、トレーニングデータ以外のドメイン固有のデータへのアクセスを提供する場合のメリットである。
放射線学において、RadioRAGは、放射線学的質問応答における診断精度と事実性を大幅に改善する堅牢な枠組みを確立する。
Large language models (LLMs) have advanced the field of artificial intelligence (AI) in medicine. However LLMs often generate outdated or inaccurate information based on static training datasets. Retrieval augmented generation (RAG) mitigates this by integrating outside data sources. While previous RAG systems used pre-assembled, fixed databases with limited flexibility, we have developed Radiology RAG (RadioRAG) as an end-to-end framework that retrieves data from authoritative radiologic online sources in real-time. RadioRAG is evaluated using a dedicated radiologic question-and-answer dataset (RadioQA). We evaluate the diagnostic accuracy of various LLMs when answering radiology-specific questions with and without access to additional online information via RAG. Using 80 questions from RSNA Case Collection across radiologic subspecialties and 24 additional expert-curated questions, for which the correct gold-standard answers were available, LLMs (GPT-3.5-turbo, GPT-4, Mistral-7B, Mixtral-8x7B, and Llama3 [8B and 70B]) were prompted with and without RadioRAG. RadioRAG retrieved context-specific information from www.radiopaedia.org in real-time and incorporated them into its reply. RadioRAG consistently improved diagnostic accuracy across all LLMs, with relative improvements ranging from 2% to 54%. It matched or exceeded question answering without RAG across radiologic subspecialties, particularly in breast imaging and emergency radiology. However, degree of improvement varied among models; GPT-3.5-turbo and Mixtral-8x7B-instruct-v0.1 saw notable gains, while Mistral-7B-instruct-v0.2 showed no improvement, highlighting variability in its effectiveness. LLMs benefit when provided access to domain-specific data beyond their training data. For radiology, RadioRAG establishes a robust framework that substantially improves diagnostic accuracy and factuality in radiological question answering. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# 2WQCの非閉鎖定理とポストセレクション
No-cloning theorem for 2WQC and postselection ( http://arxiv.org/abs/2407.15623v1 ) ライセンス: Link先を確認 | Mah Noor, Jarek Duda, | (参考訳) 2方向量子コンピュータ (2WQC) は標準的な1WQCの拡張として提案されている: 共役状態準備操作$\langle 0|$をポストセレクション$|0\ra \langle 0|$に類似させる。
この拡張がBB84のような量子暗号プロトコルに対する攻撃のような非閉定理に反するのではないかという懸念があったので、ここでは、この定理が2WQCとポストセレクションに対してまだ成り立つことを示す元の証明を拡張する。
Two-way quantum computers (2WQC) are proposed extension of standard 1WQC: adding conjugated state preparation operation $\langle 0|$ similar to postselection $|0\ra \langle 0|$, by performing a process which from perspective of CPT symmetry is the original state preparation process, for example by reversing EM impulses used for state preparation. As there were concerns that this extension might violate no-cloning theorem for example for attacks on quantum cryptographic protocols like BB84, here we extend the original proof to show this theorem still holds for 2WQC and postselection. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# Dressed to Gamble: ポーカーはいかにしてウェアラブルのダイナミクスを駆動し、Decentralandのソーシャルバーチャルワールドを訪れるか
Dressed to Gamble: How Poker Drives the Dynamics of Wearables and Visits on Decentraland's Social Virtual World ( http://arxiv.org/abs/2407.15625v1 ) ライセンス: Link先を確認 | Amaury Trujillo, Clara Bacciu, Matteo Abrate, | (参考訳) Decentralandはブロックチェーンベースのソーシャルバーチャルワールドで、以前のバーチャルワールドとは異なり、コミュニティが所有するクリエイティブなスペースだと言われている。
ユーザーは、アバターをカスタマイズするためのウェアラブル、仮想衣料品を作成して公開することができる。
Decentral Games(DG)は、世界で有名なカジノを2つ所有する単一のプロジェクトだが、これまでで最もウェアラブルなデバイスを作ってきた。
そこで本研究では,DGとICEポーカーが分散ウェアラブルの全体的ダイナミクスや世界訪問にどのように影響するかを総合的に調査する。
この目的のために、Polygonブロックチェーン(および関連する販売)上での590万のウェアラブル転送を2年間にわたって分析し、オーバーラップした10ヶ月間に677万のユーザ位置のログイベントを分析した。
DGとIce Pokerの影響は、ウェアラブルの移動と販売の金銭的価値にとって重要なだけでなく、仮想世界での日々のユニークビジターや時間にとって非常に大きい。
Decentralandではいくつかの代替的な経済・芸術活動があり、その中には一般大衆から注目を集めているものもあるが、オンラインポーカーは分析されたダイナミックスの主役であるようだ。
我々の研究は、ソーシャル仮想世界でのユーザ行動の現在の理解に寄与し、仮想空間におけるブロックチェーンベースのオンラインギャンブルの出現する現象を初めて研究する。
Decentraland is a blockchain-based social virtual world touted to be a creative space owned by its community, unlike previous virtual worlds. Its users can create and publish wearables, virtual garments to customize avatars, which can be then sold or given away via the blockchain. Decentral Games (DG), a single project owning two prominent in-world casinos, has by far created the most wearables, with these being necessary to earn cryptocurrency in their flagship game ICE Poker. We thus present a comprehensive study that investigates how DG and ICE Poker influence the overall dynamics of Decentraland wearables and in-world visits. To this end, we analyzed 5.9 million wearable transfers made on the Polygon blockchain (and related sales) over a two-year period, and 677 million log events of in-world user positions in an overlapping 10-month period. We found that the influence of DG and Ice Poker is not only significant, but also substantial for transfers and sales monetary value of wearables, and very large for daily unique visitors and time spent in the virtual world. Despite several alternative in-world economic and artistic initiatives in Decentraland, some of which have attracted much attention from the general public, online poker appears to be the main driver of the analyzed dynamics. Our work thus contributes to the current understanding of user behavior in social virtual worlds and it is among the first to study the emerging phenomenon of blockchain-based online gambling in virtual spaces. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# 強化学習とビジュアルオドメトリー
Reinforcement Learning Meets Visual Odometry ( http://arxiv.org/abs/2407.15626v1 ) ライセンス: Link先を確認 | Nico Messikommer, Giovanni Cioffi, Mathias Gehrig, Davide Scaramuzza, | (参考訳) ビジュアルオドメトリー(VO)は、下流の移動ロボットや拡張現実/バーチャルリアリティータスクに不可欠である。
近年の進歩にもかかわらず、既存のVO手法は、人間の専門家による数週間のハイパーパラメータチューニングを必要とするヒューリスティックな設計選択に依存しており、汎用性と堅牢性を妨げている。
VOを逐次意思決定タスクとみなし、VOプロセスの動的適応に強化学習(RL)を適用することで、これらの課題に対処する。
このアプローチでは,VOパイプライン内のエージェントとして動作するニューラルネットワークを導入して,リアルタイム条件に基づいてキーフレームやグリッドサイズ選択などの決定を行う。
提案手法は,ポーズエラー,実行時,その他の指標に基づく報酬関数を用いたヒューリスティックな選択への依存を最小限に抑える。
我々のRLフレームワークはVOシステムと画像シーケンスを環境として扱い、エージェントはキーポイント、マップ統計、事前のポーズから観察を受けます。
従来のVO法と公開ベンチマークを用いた実験結果から精度とロバスト性の向上が示され,RL強化VO法の様々なシナリオに対する一般化性が検証された。
このパラダイムシフトは、ヒューリスティックスの時間集中型パラメータチューニングの必要性を排除し、VOテクノロジーを進化させると信じている。
Visual Odometry (VO) is essential to downstream mobile robotics and augmented/virtual reality tasks. Despite recent advances, existing VO methods still rely on heuristic design choices that require several weeks of hyperparameter tuning by human experts, hindering generalizability and robustness. We address these challenges by reframing VO as a sequential decision-making task and applying Reinforcement Learning (RL) to adapt the VO process dynamically. Our approach introduces a neural network, operating as an agent within the VO pipeline, to make decisions such as keyframe and grid-size selection based on real-time conditions. Our method minimizes reliance on heuristic choices using a reward function based on pose error, runtime, and other metrics to guide the system. Our RL framework treats the VO system and the image sequence as an environment, with the agent receiving observations from keypoints, map statistics, and prior poses. Experimental results using classical VO methods and public benchmarks demonstrate improvements in accuracy and robustness, validating the generalizability of our RL-enhanced VO approach to different scenarios. We believe this paradigm shift advances VO technology by eliminating the need for time-intensive parameter tuning of heuristics. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# シュウィンガーモデルの励振状態シミュレーションのための同時VQE
Concurrent VQE for Simulating Excited States of the Schwinger Model ( http://arxiv.org/abs/2407.15629v1 ) ライセンス: Link先を確認 | Yibin Guo, Takis Angelides, Karl Jansen, Stefan Kühn, | (参考訳) 本研究では, 同時変動量子固有解法(cVQE)のシュウィンガーモデルの励起状態の計算への応用について検討する。
一般のSO(4)またはSO(8)量子ビットゲートを用いた適切なアンサッツ回路を設計することにより,1,2,3個のアシラリー量子ビットを用いた最小2,4,8個の固有状態の効率よく取得する方法を実証する。
得られた量子回路をテンソルネットワーク技術で古典的にシミュレーションし、最大$\mathcal{O}(100)$ qubitsの2つの最小固有状態を計算する方法の能力を実証する。
本手法は,低層スペクトルを高精度に測定できるので,エネルギーギャップに基づいて格子の付加質量再正規化を推定する新しい手法も提案する。
基本計算として、量子ハードウェア上に1つの補助量子ビットと4つの物理量子ビットを持つ基底状態と第一励起状態を用意し、cVQEを用いて励起状態をシミュレートする実用性を実証する。
This work explores the application of the concurrent variational quantum eigensolver (cVQE) for computing excited states of the Schwinger model. By designing suitable ansatz circuits utilizing universal SO(4) or SO(8) qubit gates, we demonstrate how to efficiently obtain the lowest two, four, and eight eigenstates with one, two, and three ancillary qubits for both vanishing and non-vanishing background electric field cases. Simulating the resulting quantum circuits classically with tensor network techniques, we demonstrate the capability of our approach to compute the two lowest eigenstates of systems with up to $\mathcal{O}(100)$ qubits. Given that our method allows for measuring the low-lying spectrum precisely, we also present a novel technique for estimating the additive mass renormalization of the lattice based on the energy gap. As a proof-of-principle calculation, we prepare the ground and first-excited states with one ancillary and four physical qubits on quantum hardware, demonstrating the practicality of using the cVQE to simulate excited states. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# モルフォ骨格制御による冠状動脈解剖シミュレーションのための拡散モデル
A Diffusion Model for Simulation Ready Coronary Anatomy with Morpho-skeletal Control ( http://arxiv.org/abs/2407.15631v1 ) ライセンス: Link先を確認 | Karim Kadry, Shreya Gupta, Jonas Sogbadji, Michiel Schaap, Kersten Petersen, Takuya Mizukami, Carlos Collet, Farhad R. Nezami, Elazer R. Edelman, | (参考訳) 仮想的介入は、物理学に基づく冠動脈内のデバイス配置のシミュレーションを可能にする。
このフレームワークは、異なる動脈解剖に同じデバイスを配置することで、反ファクトな推論を可能にする。
しかし、このような反事実的動脈を作るための現在の手法は、コントロール可能性とリアリズムのトレードオフに直面している。
本研究では, 局所形態, 大域的な骨格構造といった中程度の解剖学的制約に基づいて, 冠動脈解剖学をカスタムに合成する方法について検討した。
また,拡散モデル誘導戦略を形態・骨格条件の文脈にまで拡張し,サンプリング全体を通じて負の誘導条件を適応的に更新する連続属性のための新しいガイダンス手法を提案する。
本フレームワークは, 冠動脈の解剖学を制御可能な方法で生成・編集し, 装置設計者が解剖学的変化やシミュレーション装置の展開に関する機械的知見を導き出すことを可能にする。
Virtual interventions enable the physics-based simulation of device deployment within coronary arteries. This framework allows for counterfactual reasoning by deploying the same device in different arterial anatomies. However, current methods to create such counterfactual arteries face a trade-off between controllability and realism. In this study, we investigate how Latent Diffusion Models (LDMs) can custom synthesize coronary anatomy for virtual intervention studies based on mid-level anatomic constraints such as topological validity, local morphological shape, and global skeletal structure. We also extend diffusion model guidance strategies to the context of morpho-skeletal conditioning and propose a novel guidance method for continuous attributes that adaptively updates the negative guiding condition throughout sampling. Our framework enables the generation and editing of coronary anatomy in a controllable manner, allowing device designers to derive mechanistic insights regarding anatomic variation and simulated device deployment. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# D++H2衝突の摩擦としての非断熱結合項を含む2状態ポテンシャルエネルギー表面上の準古典軌道計算
Quasi-classical Trajectory Calculations on a Two-state Potential Energy Surface Including Nonadiabatic Coupling Terms as Friction for D+ + H2 Collisions ( http://arxiv.org/abs/2407.15635v1 ) ライセンス: Link先を確認 | Soumya Mukherjee, Swagato Saha, Sandip Ghosh, Satrajit Adhikari, Narayanasami Sathyamurthy, Michael Baer, | (参考訳) 基礎化学反応における単一断熱ポテンシャル表面上の力学を研究するための従来の準古典的軌道法と同様に、D++H2衝突の摩擦項として非断熱カップリング項を含む2状態断熱ポテンシャル表面上での力学を実行する。
結果として生じるダイナミクスは、非反応性電荷移動、反応性非電荷移動、および反応性電荷移動過程を正しく説明できることが示されている。
さらに、三原子DH2+の種も形成される。
Akin to the traditional quasi-classical trajectory method for investigating the dynamics on a single adiabatic potential energy surface for an elementary chemical reaction, we carry out the dynamics on a 2-state ab initio potential energy surface including nonadiabatic coupling terms as friction terms for D+ + H2 collisions. It is shown that the resulting dynamics correctly accounts for nonreactive charge transfer, reactive non charge transfer and reactive charge transfer processes. In addition, it leads to the formation of triatomic DH2+ species as well. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# ニューラルオーディオコーデック言語モデルを用いたサンプルベース楽器の生成
Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models ( http://arxiv.org/abs/2407.15641v1 ) ライセンス: Link先を確認 | Shahan Nercessian, Johannes Imort, Ninon Devis, Frederik Blang, | (参考訳) 本稿では,テキストやレファレンスに基づくサンプルベース楽器の自動生成のためのニューラルオーディオコーデック言語モデルを提案する。
提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
生成した楽器の音節の整合性を維持することが大きな課題である。
この問題に対処するために,3つの異なる条件付きスキームを導入する。
我々は客観的な測定値と人間の聴取テストを通して手法を解析し、我々のアプローチが魅力的な楽器を生産できることを実証した。
具体的には、生成した機器の音節整合性を評価し、テキスト・ツー・ストラクチャメント・ケースに対して平均的コントラスト言語・オーディオ事前学習(CLAP)スコアを適用するための新たな客観的指標を導入する。
以上の結果から, 音節の整合性, 生成サンプルの品質, 入力プロンプトへの対応の複雑な相互作用が明らかとなった。
In this paper, we propose and investigate the use of neural audio codec language models for the automatic generation of sample-based musical instruments based on text or reference audio prompts. Our approach extends a generative audio framework to condition on pitch across an 88-key spectrum, velocity, and a combined text/audio embedding. We identify maintaining timbral consistency within the generated instruments as a major challenge. To tackle this issue, we introduce three distinct conditioning schemes. We analyze our methods through objective metrics and human listening tests, demonstrating that our approach can produce compelling musical instruments. Specifically, we introduce a new objective metric to evaluate the timbral consistency of the generated instruments and adapt the average Contrastive Language-Audio Pretraining (CLAP) score for the text-to-instrument case, noting that its naive application is unsuitable for assessing this task. Our findings reveal a complex interplay between timbral consistency, the quality of generated samples, and their correspondence to the input prompt. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# Cinemo: 動き拡散モデルによる一貫性と制御可能な画像アニメーション
Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models ( http://arxiv.org/abs/2407.15642v1 ) ライセンス: Link先を確認 | Xin Ma, Yaohui Wang, Gengyu Jia, Xinyuan Chen, Yuan-Fang Li, Cunjian Chen, Yu Qiao, | (参考訳) 拡散モデルは、強力な生成能力により画像アニメーションにおいて大きな進歩を遂げている。
しかし、入力された静的画像からの詳細な情報(例えば、スタイル、背景、および入力された静的画像のオブジェクト)との時空間的整合性を維持し、テキストプロンプトで案内されたアニメーション映像の滑らかさを確保することは依然として困難である。
本稿では、より優れた動き制御性を実現するための新しい画像アニメーションであるCinemoを紹介し、時間的一貫性と滑らかさを向上する。
一般に,Cinemoの学習・推論段階における3つの効果的な戦略を提案する。
トレーニング段階では、Cinemoは、運動拡散モデルを介して後続を直接予測するのではなく、運動残差の分布の学習に重点を置いている。
さらに、Cinemoの運動強度の制御性を改善するために、構造的類似度指数に基づく戦略が提案されている。
推定段階では、離散コサイン変換に基づくノイズ改善手法を導入し、突発的な動きの変化を緩和する。
このような3つの戦略により、シネモは高度に一貫性があり、滑らかで、運動制御可能な結果が得られる。
従来の方法と比較して、Cinemoはよりシンプルで正確なユーザコントロール機能を提供する。
提案手法の有効性と優位性を実証するために, 市販のツールや研究手法を含むいくつかの最先端手法に対する大規模な実験を行った。
Diffusion models have achieved great progress in image animation due to powerful generative capabilities. However, maintaining spatio-temporal consistency with detailed information from the input static image over time (e.g., style, background, and object of the input static image) and ensuring smoothness in animated video narratives guided by textual prompts still remains challenging. In this paper, we introduce Cinemo, a novel image animation approach towards achieving better motion controllability, as well as stronger temporal consistency and smoothness. In general, we propose three effective strategies at the training and inference stages of Cinemo to accomplish our goal. At the training stage, Cinemo focuses on learning the distribution of motion residuals, rather than directly predicting subsequent via a motion diffusion model. Additionally, a structural similarity index-based strategy is proposed to enable Cinemo to have better controllability of motion intensity. At the inference stage, a noise refinement technique based on discrete cosine transformation is introduced to mitigate sudden motion changes. Such three strategies enable Cinemo to produce highly consistent, smooth, and motion-controllable results. Compared to previous methods, Cinemo offers simpler and more precise user controllability. Extensive experiments against several state-of-the-art methods, including both commercial tools and research approaches, across multiple metrics, demonstrate the effectiveness and superiority of our proposed approach. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# マルチスケール社会バランスによるスパースラベルとノイズラベルからのリンクポーラリティ予測
Link Polarity Prediction from Sparse and Noisy Labels via Multiscale Social Balance ( http://arxiv.org/abs/2407.15643v1 ) ライセンス: Link先を確認 | Marco Minici, Federico Cinus, Francesco Bonchi, Giuseppe Manco, | (参考訳) 署名されたグラフニューラルネットワーク(SGNN)は、最近、署名されたネットワーク上のいくつかの学習タスク、すなわちエッジが関連する極性を持つグラフの効果的なツールとして注目を集めている。
これらのタスクの1つは、ネットワーク構造やその他の利用可能な極性から、この情報が欠落しているリンクの極性を予測することである。
しかし、利用可能な極性が少なく、潜在的にノイズの多い場合、そのような作業は困難になる。
本研究では,データ量と品質に制限のある設定におけるリンク極性の予測を改善するために,新しい概念である「emph{multiscale social balance}」を基盤とした半教師付き学習フレームワークを考案する。
我々のモデルに依存しないアプローチは任意のSGNNアーキテクチャとシームレスに統合することができ、ラベルのないエッジからの構造化情報をソーシャルバランス理論と組み合わせて戦略的に利用しながら、各データサンプルの重要性を動的に再重み付けすることができる。
経験的検証により,本手法は確立されたベースラインモデルよりも優れており,ノイズやスパースデータによる制約に効果的に対処できることが示された。
この結果は、SGNNにマルチスケールの社会的バランスを組み込むことの利点を浮き彫りにし、署名されたネットワーク分析における堅牢で正確な予測のための新たな道を開く。
Signed Graph Neural Networks (SGNNs) have recently gained attention as an effective tool for several learning tasks on signed networks, i.e., graphs where edges have an associated polarity. One of these tasks is to predict the polarity of the links for which this information is missing, starting from the network structure and the other available polarities. However, when the available polarities are few and potentially noisy, such a task becomes challenging. In this work, we devise a semi-supervised learning framework that builds around the novel concept of \emph{multiscale social balance} to improve the prediction of link polarities in settings characterized by limited data quantity and quality. Our model-agnostic approach can seamlessly integrate with any SGNN architecture, dynamically reweighting the importance of each data sample while making strategic use of the structural information from unlabeled edges combined with social balance theory. Empirical validation demonstrates that our approach outperforms established baseline models, effectively addressing the limitations imposed by noisy and sparse data. This result underlines the benefits of incorporating multiscale social balance into SGNNs, opening new avenues for robust and accurate predictions in signed network analysis. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# 心理的アライメント:言語モデルによる人間の知識分布の把握
Psychometric Alignment: Capturing Human Knowledge Distributions via Language Models ( http://arxiv.org/abs/2407.15645v1 ) ライセンス: Link先を確認 | Joy He-Yueya, Wanjing Anya Ma, Kanishk Gandhi, Benjamin W. Domingue, Emma Brunskill, Noah D. Goodman, | (参考訳) 言語モデル(LM)は、人口の振る舞いを正確に模倣することで、教育材料の開発や公共政策の設計といった意思決定を導くシナリオにおいて、人間のような反応をシミュレートするために、ますます使われるようになっている。
これらのシミュレーションの目的は、単に期待された正しい答えを提供するのではなく、人間の反応の変動を捉えることである。
以前の研究では、LMが非現実的な正確な応答を生成することがしばしばあったが、LMの知識分布が人間のそれとどのように一致しているかを定量化するための確立されたメトリクスは存在しない。
これを解決するために,人間の知識分布を計測する指標である「心理学的アライメント」を導入する。
このアライメントを評価するには、LMと人間の両方からの反応を同じテスト項目集合に収集し、アイテム反応理論を用いてグループ間のアイテム機能の違いを分析する。
従来の測定値(精度の違いなど)がキャプチャーに失敗した場合、我々の測定値が重要なばらつきを捉えることができることを示す。
実世界の3つの領域にまたがる人間の知識分布との整合性を評価するために,この指標を適用した。
人格に基づくプロンプトを用いることでアライメントが向上するが, LMとヒトの集団の間には重大な不一致が生じる。
興味深いことに、小さいLMはより大きなLMよりも大きな心理測定アライメントを達成する傾向にある。
さらに、目標分布からの人間の反応データに対するトレーニングLMは、見えないテスト項目に対する心理的アライメントを高めるが、そのようなトレーニングの有効性はドメインによって異なる。
Language models (LMs) are increasingly used to simulate human-like responses in scenarios where accurately mimicking a population's behavior can guide decision-making, such as in developing educational materials and designing public policies. The objective of these simulations is for LMs to capture the variations in human responses, rather than merely providing the expected correct answers. Prior work has shown that LMs often generate unrealistically accurate responses, but there are no established metrics to quantify how closely the knowledge distribution of LMs aligns with that of humans. To address this, we introduce "psychometric alignment," a metric that measures the extent to which LMs reflect human knowledge distribution. Assessing this alignment involves collecting responses from both LMs and humans to the same set of test items and using Item Response Theory to analyze the differences in item functioning between the groups. We demonstrate that our metric can capture important variations in populations that traditional metrics, like differences in accuracy, fail to capture. We apply this metric to assess existing LMs for their alignment with human knowledge distributions across three real-world domains. We find significant misalignment between LMs and human populations, though using persona-based prompts can improve alignment. Interestingly, smaller LMs tend to achieve greater psychometric alignment than larger LMs. Further, training LMs on human response data from the target distribution enhances their psychometric alignment on unseen test items, but the effectiveness of such training varies across domains. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# SS-SFR:仮想KITTIにおける空間周波数応答と物体検出のための劣化自動車シミュレーション
SS-SFR: Synthetic Scenes Spatial Frequency Response on Virtual KITTI and Degraded Automotive Simulations for Object Detection ( http://arxiv.org/abs/2407.15646v1 ) ライセンス: Link先を確認 | Daniel Jakab, Alexander Braun, Cathaoir Agnew, Reenu Mohandas, Brian Michael Deegan, Dara Molloy, Enda Ward, Tony Scanlan, Ciarán Eising, | (参考訳) 自動車シミュレーションは、コンピュータビジョンアプリケーションにおけるトレーニングデータの欠如を補う可能性がある。
しかし、自動車シミュレーションの画質評価はほとんど行われておらず、光学劣化がシミュレーションに与える影響はほとんど調査されていない。
本研究では,仮想KITTIとガウスのぼかしのバリエーションが画像のシャープネスに与える影響について検討する。
さらに、オブジェクト検出は3つの異なる最先端モデルに対する一般的なコンピュータビジョンアプリケーションであり、オブジェクト検出とシャープネスの関係を特徴付けることができる。
画像のシャープネス(MTF50)は平均0.245cy/pxから0.119cy/pxに低下するが, 物体検出性能は0.58\%(Faster RCNN), 1.45\%(YOLOF), 1.93\%(DETR)の範囲でほぼ安定であることがわかった。
Automotive simulation can potentially compensate for a lack of training data in computer vision applications. However, there has been little to no image quality evaluation of automotive simulation and the impact of optical degradations on simulation is little explored. In this work, we investigate Virtual KITTI and the impact of applying variations of Gaussian blur on image sharpness. Furthermore, we consider object detection, a common computer vision application on three different state-of-the-art models, thus allowing us to characterize the relationship between object detection and sharpness. It was found that while image sharpness (MTF50) degrades from an average of 0.245cy/px to approximately 0.119cy/px; object detection performance stays largely robust within 0.58\%(Faster RCNN), 1.45\%(YOLOF) and 1.93\%(DETR) across all respective held-out test sets. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# TreeSBA: 自己監督型逐次れんが組み立て用木変換器
TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly ( http://arxiv.org/abs/2407.15648v1 ) ライセンス: Link先を確認 | Mengqi Guo, Chen Li, Yuyang Zhao, Gim Hee Lee, | (参考訳) 画像からプリミティブなブロックで3Dオブジェクトを組み立てるためのステップワイズなアクションを推測することは、複雑な制約と膨大な数の組み合わせのために難しい作業である。
近年の研究では、レゴグラフモデリングを用いてシーケンシャルな動作を予測することで、シーケンシャルなレゴブロックの組み立てに有望な成果が示されている。
しかし、既存のアプローチはクラス固有であり、重要な計算資源と3Dアノテーションリソースを必要とする。
本研究ではまず,連続層間の接続を考慮した逐次組立動作のモデル化を目的とした,計算効率の良い広帯域探索(BFS)LEGO-Tree構造を提案する。
LEGO-Tree構造に基づいて、入力された多視点画像から逐次的な組立動作を予測するために、クラスに依存しないツリー・トランスフォーマー・フレームワークを設計する。
逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。
我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
具体的には、本モデルは、利用可能なアクションラベルから完全に監督された合成データに基づいて、まず事前訓練される。
次に、実データにおけるアクションラベルの要求を回避し、アクションラベルを自己監督用の入力画像シルエットに置き換えるアクション・ツー・シルエット・プロジェクションを提案する。
MNIST と ModelNet Construction のデータセットでそれぞれ mIoU の7.8% と 11.3% の 3D 監督率で既存の手法より優れている。
Inferring step-wise actions to assemble 3D objects with primitive bricks from images is a challenging task due to complex constraints and the vast number of possible combinations. Recent studies have demonstrated promising results on sequential LEGO brick assembly through the utilization of LEGO-Graph modeling to predict sequential actions. However, existing approaches are class-specific and require significant computational and 3D annotation resources. In this work, we first propose a computationally efficient breadth-first search (BFS) LEGO-Tree structure to model the sequential assembly actions by considering connections between consecutive layers. Based on the LEGO-Tree structure, we then design a class-agnostic tree-transformer framework to predict the sequential assembly actions from the input multi-view images. A major challenge of the sequential brick assembly task is that the step-wise action labels are costly and tedious to obtain in practice. We mitigate this problem by leveraging synthetic-to-real transfer learning. Specifically, our model is first pre-trained on synthetic data with full supervision from the available action labels. We then circumvent the requirement for action labels in the real data by proposing an action-to-silhouette projection that replaces action labels with input image silhouettes for self-supervision. Without any annotation on the real data, our model outperforms existing methods with 3D supervision by 7.8% and 11.3% in mIoU on the MNIST and ModelNet Construction datasets, respectively. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# モジュール量子コンピュータ用キャビティ媒介量子インターコネクト技術のベンチマーク
Benchmarking Emerging Cavity-Mediated Quantum Interconnect Technologies for Modular Quantum Computers ( http://arxiv.org/abs/2407.15651v1 ) ライセンス: Link先を確認 | Sahar Ben Rached, Sergio Navarro Reyes, Junaid Khan, Carmen G. Almudever, Eduard Alarcon, Sergi Abadal, | (参考訳) モジュラリティは量子コンピュータをスケールアップし、従ってより高い量子ビット数を統合するための有望なアプローチである。
このようなアーキテクチャの本質は、チップ間の絡み合いを発生させることによって実現される高忠実で高速な量子状態移動に依存することである。
量子コヒーレント通信チャネルを相互接続する量子プロセッサの実装という課題に対処するために、量子ビット技術仕様と実装された通信プロトコルを考慮に入れた様々な手法が提案されている。
設計空間探索法 (DSE) を用いて, キャビティを介する相互接続技術の比較分析を行い, キャビティと原子崩壊率, および効率しきい値を満たすクビット-キャビティ結合強度について検討した。
そこで我々は,同時代の空洞を介する量子相互接続のベンチマークに寄与し,モジュール型量子コンピュータのための信頼性とスケーラブルなチップ・ツー・チップ・リンクの開発を導く。
Modularity is a promising approach for scaling up quantum computers and therefore integrating higher qubit counts. The essence of such architectures lies in their reliance on high-fidelity and fast quantum state transfers enabled by generating entanglement between chips. In addressing the challenge of implementing quantum coherent communication channels to interconnect quantum processors, various techniques have been proposed to account for qubit technology specifications and the implemented communication protocol. By employing Design Space Exploration (DSE) methodologies, this work presents a comparative analysis of the cavity-mediated interconnect technologies according to a defined figure of merit, and we identify the configurations related to the cavity and atomic decay rates as well as the qubit-cavity coupling strength that meet the efficiency thresholds. We therefore contribute to benchmarking contemporary cavity-mediated quantum interconnects and guide the development of reliable and scalable chip-to-chip links for modular quantum computers. | 翻訳日:2024-07-23 14:51:29 公開日:2024-07-22 |
# 量子ネットワークにおけるセンサ間の確率的絡み合いの利用
Utilizing probabilistic entanglement between sensors in quantum networks ( http://arxiv.org/abs/2407.15652v1 ) ライセンス: Link先を確認 | Emily A. Van Milligen, Christos N. Gagatsos, Eneet Kaur, Don Towsley, Saikat Guha, | (参考訳) 量子ネットワークの最も有望な応用の1つは、絡み合い支援センシングである。
量子距離論の分野は、量子相関を利用して、精密時間保存、フィールドセンシング、生体イメージングなどの応用の精度を向上させる。
複数の空間分布パラメータを測定する場合、現在の文献は離散変数の場合の量子絡み合い、連続変数の場合の量子スキューズに焦点を合わせ、与えられたネットワーク内のすべてのセンサーに分散する。
しかし,すべてのセンサが十分に高い忠実度で絡み合うことを保証することは困難である。
この研究は、局所的なパラメータの平均を推定しようとする確率的絡み合い生成を持つ恒星ネットワークをモデル化することにより、完全に絡み合うネットワークと完全に古典的なセンシングネットワークの間の空間を探索する。
量子フィッシャー情報は、どのプロトコルが絡み合いを異なるネットワーク条件のリソースとして最もよく利用するかを決定するために使用される。
エンタングルメント蒸留がなければ、古典的なセンシングが好ましい閾値の忠実度が下にあることが示されている。
一定の初期忠実度と成功の確率を特徴とする所定の数のセンサとリンクを持つネットワークの場合、この研究は、いつ、どのように絡み合うか、いつ保存するか、いつ蒸留する必要があるかを概説する。
One of the most promising applications of quantum networks is entanglement assisted sensing. The field of quantum metrology exploits quantum correlations to improve the precision bound for applications such as precision timekeeping, field sensing, and biological imaging. When measuring multiple spatially distributed parameters, current literature focuses on quantum entanglement in the discrete variable case, and quantum squeezing in the continuous variable case, distributed amongst all of the sensors in a given network. However, it can be difficult to ensure all sensors pre-share entanglement of sufficiently high fidelity. This work probes the space between fully entangled and fully classical sensing networks by modeling a star network with probabilistic entanglement generation that is attempting to estimate the average of local parameters. The quantum Fisher information is used to determine which protocols best utilize entanglement as a resource for different network conditions. It is shown that without entanglement distillation there is a threshold fidelity below which classical sensing is preferable. For a network with a given number of sensors and links characterized by a certain initial fidelity and probability of success, this work outlines when and how to use entanglement, when to store it, and when it needs to be distilled. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# A3C, Q-learning, DQNを用いた自律貫入試験における強化学習の評価
Evaluation of Reinforcement Learning for Autonomous Penetration Testing using A3C, Q-learning and DQN ( http://arxiv.org/abs/2407.15656v1 ) ライセンス: Link先を確認 | Norman Becker, Daniel Reti, Evridiki V. Ntagiou, Marcus Wallum, Hans D. Schotten, | (参考訳) 侵入テストは、攻撃をシミュレートしてセキュリティの弱点を探すプロセスである。
通常、熟練した専門家によって行われ、スキャンとアタックツールが適用される。
このようなツールの実行を自動化することで、ヒューマンインタラクションや意思決定の必要性が軽減される可能性がある。
本研究では、ネットワーク攻撃シミュレータ(NASim)を用いて、強化学習エージェントを訓練し、3つの事前定義されたセキュリティシナリオを解決する環境とした。
これらのシナリオは、エクスプロイト、ポストエクスプロイテーション、ワイヤタッピングのテクニックをカバーしている。
最適なハイパーパラメータの組み合わせを見つけるために、大規模なハイパーパラメータグリッドサーチが実施された。
Q-learning、DQN、A3Cといったアルゴリズムが使われ、A3Cはすべてのシナリオを解き、一般化を実現した。
さらに、A3Cはこれらのシナリオを、ベースラインの自動浸透テストよりも少ないアクションで解決することができる。
トレーニングは比較的小さなシナリオで実施され, エージェントの状態と動作空間は小さいが, RLエージェントによる浸透試験を成功させることができた。
Penetration testing is the process of searching for security weaknesses by simulating an attack. It is usually performed by experienced professionals, where scanning and attack tools are applied. By automating the execution of such tools, the need for human interaction and decision-making could be reduced. In this work, a Network Attack Simulator (NASim) was used as an environment to train reinforcement learning agents to solve three predefined security scenarios. These scenarios cover techniques of exploitation, post-exploitation and wiretapping. A large hyperparameter grid search was performed to find the best hyperparameter combinations. The algorithms Q-learning, DQN and A3C were used, whereby A3C was able to solve all scenarios and achieve generalization. In addition, A3C could solve these scenarios with fewer actions than the baseline automated penetration testing. Although the training was performed on rather small scenarios and with small state and action spaces for the agents, the results show that a penetration test can successfully be performed by the RL agent. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# MuTT:ロボットスキルのための多モード軌道変換器
MuTT: A Multimodal Trajectory Transformer for Robot Skills ( http://arxiv.org/abs/2407.15660v1 ) ライセンス: Link先を確認 | Claudius Kienle, Benjamin Alt, Onur Celik, Philipp Becker, Darko Katic, Rainer Jäkel, Gerhard Neumann, | (参考訳) 高レベルのロボットスキルは、ロボットプログラミングにおける人気のパラダイムである。
しかしながら、特定のタスクに対してスキルのパラメータを設定することは、手作業と時間を要する作業のままである。
これらのパラメータを学習したり、最適化するための既存のアプローチは、多くの実世界の実行を必要としたり、動的環境では機能しない場合が多い。
これらの課題に対処するために,視覚,軌道,ロボットスキルパラメータを統合することで,ロボットスキルの環境認識実行を予測するために設計された,新しいエンコーダ・デコーダ変換アーキテクチャである MuTT を提案する。
特に、視覚と軌跡の融合を開拓し、新しい軌跡投影を導入した。
さらに,モデルをベースとしたロボットスキルオプティマイザと組み合わせることで,MuTTの有効性を予測できることを示す。
このアプローチは,ロボットの現実的な実行を必要とせずに,現在の環境に対するロボットスキルパラメータの最適化を容易にする。
MuTTは、ロボットスキルのあらゆる表現との互換性のために設計され、3つの総合的な実験にまたがってその汎用性を実証し、2つの異なるスキル表現に対して優れたパフォーマンスを示す。
High-level robot skills represent an increasingly popular paradigm in robot programming. However, configuring the skills' parameters for a specific task remains a manual and time-consuming endeavor. Existing approaches for learning or optimizing these parameters often require numerous real-world executions or do not work in dynamic environments. To address these challenges, we propose MuTT, a novel encoder-decoder transformer architecture designed to predict environment-aware executions of robot skills by integrating vision, trajectory, and robot skill parameters. Notably, we pioneer the fusion of vision and trajectory, introducing a novel trajectory projection. Furthermore, we illustrate MuTT's efficacy as a predictor when combined with a model-based robot skill optimizer. This approach facilitates the optimization of robot skill parameters for the current environment, without the need for real-world executions during optimization. Designed for compatibility with any representation of robot skills, MuTT demonstrates its versatility across three comprehensive experiments, showcasing superior performance across two different skill representations. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# DriveDiTFit: 自動運転のための微調整拡散変換器
DriveDiTFit: Fine-tuning Diffusion Transformers for Autonomous Driving ( http://arxiv.org/abs/2407.15661v1 ) ライセンス: Link先を確認 | Jiahang Tu, Wei Ji, Hanbin Zhao, Chao Zhang, Roger Zimmermann, Hui Qian, | (参考訳) 自律運転では、様々な視覚的知覚タスクにおいて、高品質で膨大な多様性のトレーニングデータセットが要求されるなど、深いモデルが顕著なパフォーマンスを示している。
このようなデータセットは、悪天候、照明条件、さまざまな移動物体を含む様々な運転シナリオをカバーすることが期待されている。
しかし、これらのデータを手動で収集すると、大きな課題とコストが発生する。
本研究では,大規模な生成モデルの迅速な開発とともに,直交型拡散変換器(DiT)による自律運転データを効率的に生成する新しい手法であるDriveDiTFitを提案する。
具体的には、DriveDiTFitはギャップ駆動変調技術を用いて、事前訓練されたソースデータと目標駆動データとの相違に応じて、DiT内のいくつかのパラメータを慎重に選択し、効率的に微調整する。
さらに、DriveDiTFitは、生成したデータの多様性を保証する効果的な気象条件と照明条件の埋め込みモジュールを開発し、最も近いセマンティック・相似初期化アプローチによって初期化される。
DriveDiTFitは、初期拡散過程における詳細生成のプロセスの高度化と、トレーニング損失における小さなオブジェクトに対応する重みの増大を通じて、生成されたデータ中の小さな移動オブジェクトの高品質な生成を保証する。
運転データセットに対する大規模な実験により,本手法が多種多様な実走行データを効率的に生成できることが確認された。
ソースコードはhttps://github.com/TtuHamg/DriveDiTFit.comで入手できる。
In autonomous driving, deep models have shown remarkable performance across various visual perception tasks with the demand of high-quality and huge-diversity training datasets. Such datasets are expected to cover various driving scenarios with adverse weather, lighting conditions and diverse moving objects. However, manually collecting these data presents huge challenges and expensive cost. With the rapid development of large generative models, we propose DriveDiTFit, a novel method for efficiently generating autonomous Driving data by Fine-tuning pre-trained Diffusion Transformers (DiTs). Specifically, DriveDiTFit utilizes a gap-driven modulation technique to carefully select and efficiently fine-tune a few parameters in DiTs according to the discrepancy between the pre-trained source data and the target driving data. Additionally, DriveDiTFit develops an effective weather and lighting condition embedding module to ensure diversity in the generated data, which is initialized by a nearest-semantic-similarity initialization approach. Through progressive tuning scheme to refined the process of detail generation in early diffusion process and enlarging the weights corresponding to small objects in training loss, DriveDiTFit ensures high-quality generation of small moving objects in the generated data. Extensive experiments conducted on driving datasets confirm that our method could efficiently produce diverse real driving data. The source codes will be available at https://github.com/TtuHamg/DriveDiTFit. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# 多くの等価離散分布に対する信頼セットの縮小法
How to Shrink Confidence Sets for Many Equivalent Discrete Distributions? ( http://arxiv.org/abs/2407.15662v1 ) ライセンス: Link先を確認 | Odalric-Ambrym Maillard, Mohammad Sadegh Talebi, | (参考訳) 学習者が未知の離散分布の集合である$(p_k)_{k\in \mathcal K}$を共通アルファベット$\mathcal X$で定義し、各分布に対して$p_k$を構築できる状況を考える。
集合 $(p_k)_{k\in \mathcal K}$ は構成される: 各分布 $p_k$ は同じ共通であるが未知の分布 q から、未知の置換を $\mathcal X$ に適用することで得られる。
これをemph{permutation-equivalence}と呼ぶ。
目標は、この構造的特性を改良された信頼セット \emph{exploiting} を構築することである。
他の一般的な構造概念(Lipschitz smoothness、Linearityなど)と同様に、置換等価性は機械学習問題に自然に現れ、特定のアプローチに対する潜在的なゲインコールの恩恵を受ける。
本稿では,置換等価性を効果的に活用する戦略を提案し,その戦略によって出力される改良された信頼セットのサイズに依存する有限時間高確率を与える。
改良は一般にあまり観測できないため、穏やかな技術的仮定の下では、観測数$(n_k)_{k\in \mathcal K}$が十分大きいときに有限時間解析が成立し、出力信頼セットが初期個々の集合よりも改善される。
我々はこの出来事とそれに対応する改善を慎重に特徴づける。
さらに、各信頼集合のサイズがそれぞれ$O(1/\sqrt{n_k})$と$O(1/\max_{k\in \mathcal K} n_k})$と$O(1/\max_{k\in K} n_k})$の漸近速度で縮小することを示す。
本稿では,強化学習課題における置換等価性を利用した実践的メリットについて述べる。
We consider the situation when a learner faces a set of unknown discrete distributions $(p_k)_{k\in \mathcal K}$ defined over a common alphabet $\mathcal X$, and can build for each distribution $p_k$ an individual high-probability confidence set thanks to $n_k$ observations sampled from $p_k$. The set $(p_k)_{k\in \mathcal K}$ is structured: each distribution $p_k$ is obtained from the same common, but unknown, distribution q via applying an unknown permutation to $\mathcal X$. We call this \emph{permutation-equivalence}. The goal is to build refined confidence sets \emph{exploiting} this structural property. Like other popular notions of structure (Lipschitz smoothness, Linearity, etc.) permutation-equivalence naturally appears in machine learning problems, and to benefit from its potential gain calls for a specific approach. We present a strategy to effectively exploit permutation-equivalence, and provide a finite-time high-probability bound on the size of the refined confidence sets output by the strategy. Since a refinement is not possible for too few observations in general, under mild technical assumptions, our finite-time analysis establish when the number of observations $(n_k)_{k\in \mathcal K}$ are large enough so that the output confidence sets improve over initial individual sets. We carefully characterize this event and the corresponding improvement. Further, our result implies that the size of confidence sets shrink at asymptotic rates of $O(1/\sqrt{\sum_{k\in \mathcal K} n_k})$ and $O(1/\max_{k\in K} n_{k})$, respectively for elements inside and outside the support of q, when the size of each individual confidence set shrinks at respective rates of $O(1/\sqrt{n_k})$ and $O(1/n_k)$. We illustrate the practical benefit of exploiting permutation equivalence on a reinforcement learning task. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# MSSPlace:視覚とテキストのセマンティックスを用いたマルチセンサ位置認識
MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics ( http://arxiv.org/abs/2407.15663v1 ) ライセンス: Link先を確認 | Alexander Melekhin, Dmitry Yudin, Ilia Petryashin, Vitaly Bezuglyj, | (参考訳) 場所認識はコンピュータビジョンにおいて難しい課題であり、自動運転車やロボットがこれまで訪れた環境をナビゲートするために不可欠だ。
カメラ上の画像とLiDAR点雲を組み合わせた学習可能なマルチモーダル手法では大きな進歩があったが、これらの手法の潜在能力はローカライズアプリケーションでは明らかにされていない。
本稿では,マルチカメラのセットアップを活用し,マルチモーダルな位置認識のための多様なデータソースを統合することで,視覚的セマンティクスとテキスト記述を具体化する影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
我々はこれらのモダリティを統合するために後期融合アプローチを採用し、統一表現を提供する。
オックスフォード・ロボットカーとNCLTデータセットの広範な実験を通じて、各データソースがプレースディスクリプタの全体的な品質に与える影響を体系的に分析する。
実験により,複数のセンサからのデータを組み合わせることで,単一モードアプローチと比較して位置認識モデルの性能が大幅に向上し,最先端の品質が向上することが示された。
また、視覚的・テキスト的意味論(知覚データのよりコンパクトな表現)を別々に使用することで、位置認識において有望な結果が得られることを示す。
私たちのメソッドのコードは、 https://github.com/alexmelekhin/MSSPlace.comで公開されている。
Place recognition is a challenging task in computer vision, crucial for enabling autonomous vehicles and robots to navigate previously visited environments. While significant progress has been made in learnable multimodal methods that combine onboard camera images and LiDAR point clouds, the full potential of these methods remains largely unexplored in localization applications. In this paper, we study the impact of leveraging a multi-camera setup and integrating diverse data sources for multimodal place recognition, incorporating explicit visual semantics and text descriptions. Our proposed method named MSSPlace utilizes images from multiple cameras, LiDAR point clouds, semantic segmentation masks, and text annotations to generate comprehensive place descriptors. We employ a late fusion approach to integrate these modalities, providing a unified representation. Through extensive experiments on the Oxford RobotCar and NCLT datasets, we systematically analyze the impact of each data source on the overall quality of place descriptors. Our experiments demonstrate that combining data from multiple sensors significantly improves place recognition model performance compared to single modality approaches and leads to state-of-the-art quality. We also show that separate usage of visual or textual semantics (which are more compact representations of sensory data) can achieve promising results in place recognition. The code for our method is publicly available: https://github.com/alexmelekhin/MSSPlace | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# 不均質固体におけるひび割れの動的予測のための時空間深層学習フレームワーク:コンクリートの組織と破壊特性の効率的なマッピング
A spatiotemporal deep learning framework for prediction of crack dynamics in heterogeneous solids: efficient mapping of concrete microstructures to its fracture properties ( http://arxiv.org/abs/2407.15665v1 ) ライセンス: Link先を確認 | Rasoul Najafi Koopas, Shahed Rezaei, Natalie Rauter, Richard Ostwald, Rolf Lammering, | (参考訳) コンクリート構造物の破壊の2次元フルフィールド予測が可能な時空間深層学習フレームワークを提案する。
この枠組みは骨折を予測できるだけでなく、界面遷移帯の亀裂発生からモルタルマトリックスの亀裂の伝播まで、骨折過程の全履歴を捉えている。
さらに,メソ構造の平均応力-ひずみ曲線を予測できる畳み込みニューラルネットワークを開発した。
UNetモデリングフレームワークは、スキップ接続を持つエンコーダ-デコーダセクションで構成され、ディープラーニングサロゲートモデルとして使用される。
ランダムに生成されたコンクリートメソ構造体の高忠実破壊シミュレーションから, トレーニングデータと試験データを生成する。
これらのメソ構造は、異なる凝集粒子の幾何学的特徴、空間分布、集合の総体積分数などの幾何学的変動を含む。
Abaqusでは, フラクチャーモデリング手法として, 凝集相場破壊モデリング技術を用いて, フラクチャーシミュレーションを行った。
本研究では,3相コンクリートの中相組織における3つの材料特性の空間分布と空間的位相場損傷指数をUNetに供給し,次のステップで対応する応力および空間損傷指数を予測する。
この手法を用いたトレーニングプロセスの後に、UNetモデルは、470のデータセットを使用して、目に見えないテストデータセットの損傷を正確に予測できることが示されている。
さらに、この研究の別の新しい側面は、不規則有限要素データの正規格子への変換である。
このアプローチは、より複雑なUNetアーキテクチャの実装を可能にし、相場破壊方程式を将来の発展のための代理モデルに統合することを容易にする。
A spatiotemporal deep learning framework is proposed that is capable of 2D full-field prediction of fracture in concrete mesostructures. This framework not only predicts fractures but also captures the entire history of the fracture process, from the crack initiation in the interfacial transition zone to the subsequent propagation of the cracks in the mortar matrix. In addition, a convolutional neural network is developed which can predict the averaged stress-strain curve of the mesostructures. The UNet modeling framework, which comprises an encoder-decoder section with skip connections, is used as the deep learning surrogate model. Training and test data are generated from high-fidelity fracture simulations of randomly generated concrete mesostructures. These mesostructures include geometric variabilities such as different aggregate particle geometrical features, spatial distribution, and the total volume fraction of aggregates. The fracture simulations are carried out in Abaqus, utilizing the cohesive phase-field fracture modeling technique as the fracture modeling approach. In this work, to reduce the number of training datasets, the spatial distribution of three sets of material properties for three-phase concrete mesostructures, along with the spatial phase-field damage index, are fed to the UNet to predict the corresponding stress and spatial damage index at the subsequent step. It is shown that after the training process using this methodology, the UNet model is capable of accurately predicting damage on the unseen test dataset by using 470 datasets. Moreover, another novel aspect of this work is the conversion of irregular finite element data into regular grids using a developed pipeline. This approach allows for the implementation of less complex UNet architecture and facilitates the integration of phase-field fracture equations into surrogate models for future developments. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# SLVideo: 手話ビデオ検索フレームワーク
SLVideo: A Sign Language Video Moment Retrieval Framework ( http://arxiv.org/abs/2407.15668v1 ) ライセンス: Link先を確認 | Gonçalo Vinagre Martins, Afonso Quinaz, Carla Viegas, Sofia Cavaco, João Magalhães, | (参考訳) 手話認識は、日々の生活の中で聴覚障害者や難聴者を助けるために、長年にわたって研究され開発されてきた。
これらの技術は手動手話認識アルゴリズムを利用するが、そのほとんどは顔の認識に欠けており、これは手話の重要な部分であり、話者が対話に表現性を加えることや、特定の手話の意味を変えることさえできる。
SLVideoは手と顔の両方に焦点を絞った手話ビデオのためのビデオモーメント検索ソフトウェアである。
このシステムは、ビデオフレームから手と顔のサインの埋め込み表現を抽出し、言語記号をフルにキャプチャする。
これにより、ユーザーはテキストクエリで特定の手話ビデオセグメントを検索したり、類似の手話ビデオで検索することができる。
このシステムをテストするために,5時間の注釈付き手話ビデオのコレクションをデータセットとして使用し,0ショット設定で最初の結果が期待できる。SLVideoは手話ビデオの検索の問題に対処するだけでなく,類似性による検索による手話シソーラスもサポートする。
プロジェクトWebページ: https://novasearch.github.io/SLVideo/
Sign Language Recognition has been studied and developed throughout the years to help the deaf and hard-of-hearing people in their day-to-day lives. These technologies leverage manual sign recognition algorithms, however, most of them lack the recognition of facial expressions, which are also an essential part of Sign Language as they allow the speaker to add expressiveness to their dialogue or even change the meaning of certain manual signs. SLVideo is a video moment retrieval software for Sign Language videos with a focus on both hands and facial signs. The system extracts embedding representations for the hand and face signs from video frames to capture the language signs in full. This will then allow the user to search for a specific sign language video segment with text queries, or to search by similar sign language videos. To test this system, a collection of five hours of annotated Sign Language videos is used as the dataset, and the initial results are promising in a zero-shot setting.SLVideo is shown to not only address the problem of searching sign language videos but also supports a Sign Language thesaurus with a search by similarity technique. Project web page: https://novasearch.github.io/SLVideo/ | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# AIデータセンターのエネルギー挙動をチェックするCoca4ai
Coca4ai: checking energy behaviors on AI data centers ( http://arxiv.org/abs/2407.15670v1 ) ライセンス: Link先を確認 | Paul Gay, Éric Bilinski, Anne-Laure Ligozat, | (参考訳) AIデータセンターにおけるエネルギーの挙動のモニタリングは、エネルギー消費の削減と、AI分野で重要な役割を担っているユーザ間の認識を高めるために重要である。
本稿では,データセンター全体,ユーザ,あるいはジョブの規模でのエネルギー挙動の簡易かつ軽量なモニタリングという概念の実証について述べる。
本システムでは,ソフトウェアワットメータを用いて,ノードごとの正確な外部ワットメータのセットアップを検証する。
結果から,エネルギモニタリングによるユーザエンゲージメントの獲得を議論する上で,効率の観点から興味深い可能性が示唆された。
Monitoring energy behaviors in AI data centers is crucial, both to reduce their energy consumption and to raise awareness among their users which are key actors in the AI field. This paper shows a proof of concept of easy and lightweight monitoring of energy behaviors at the scale of a whole data center, a user or a job submission. Our system uses software wattmeters and we validate our setup with per node accurate external wattmeters. Results show that there is an interesting potential from the efficiency point of view, providing arguments to create user engagement thanks to energy monitoring. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# AIの諸問題、その哲学のルーツ、科学と社会への意味
Problems in AI, their roots in philosophy, and implications for science and society ( http://arxiv.org/abs/2407.15671v1 ) ライセンス: Link先を確認 | Max Velthoven, Eric Marcus, | (参考訳) 人工知能(AI)は、今日の最も関連性の高い新興技術の1つである。
本稿では,AI技術の哲学的側面とその利用により多くの注意を払うことを提案する。
この欠陥は一般的に、知識の成長に関する哲学的誤解と結びついていると論じられている。
これらの誤解を特定するために、科学哲学者カール・ポッパーと物理学者デイヴィッド・ドイッチュの考えに言及する。
両思想家の著作は、帰納主義、経験主義、器楽主義など、知識の誤った理論に向けられている。
本稿は、これらの理論が現在のAI技術の動作と類似していることを示す。
また、これらの理論は、しばしばベイズ主義と呼ばれる、AIに関する(公的な)言説の中で、非常に生きていることも示している。
Popper と Deutsch に従えば、これらの理論はすべて誤った知識哲学に基づいていることが示唆される。
これには、科学や社会におけるAIの使用に関して、これらの誤った哲学がもたらす意味の分析が含まれる。
本稿では、人工知能(AGI)の現実的な展望と、A(G)Iと哲学(つまり認識論)の3つの命題を提供する。
Artificial Intelligence (AI) is one of today's most relevant emergent technologies. In view thereof, this paper proposes that more attention should be paid to the philosophical aspects of AI technology and its use. It is argued that this deficit is generally combined with philosophical misconceptions about the growth of knowledge. To identify these misconceptions, reference is made to the ideas of the philosopher of science Karl Popper and the physicist David Deutsch. The works of both thinkers aim against mistaken theories of knowledge, such as inductivism, empiricism, and instrumentalism. This paper shows that these theories bear similarities to how current AI technology operates. It also shows that these theories are very much alive in the (public) discourse on AI, often called Bayesianism. In line with Popper and Deutsch, it is proposed that all these theories are based on mistaken philosophies of knowledge. This includes an analysis of the implications of these mistaken philosophies for the use of AI in science and society, including some of the likely problem situations that will arise. This paper finally provides a realistic outlook on Artificial General Intelligence (AGI) and three propositions on A(G)I and philosophy (i.e., epistemology). | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# セマンティックスと動的機能グリッドマップを用いた流れ誘導運動予測
Flow-guided Motion Prediction with Semantics and Dynamic Occupancy Grid Maps ( http://arxiv.org/abs/2407.15675v1 ) ライセンス: Link先を確認 | Rabbia Asghar, Wenqian Liu, Lukas Rummelhard, Anne Spalanzani, Christian Laugier, | (参考訳) 運転シーンの正確な予測は、道路安全と自動運転に不可欠である。
OGM(Occupancy Grid Maps)は、空間表現の構造、センサの柔軟性、不確実性の統合などにより、シーン予測に一般的に使用される。
近年の研究では、シーンの進化を予測し、複雑な振る舞いを学ぶために、OGMとディープラーニングの手法を組み合わせることに成功した。
しかし、これらの手法はシーン内の流れや速度ベクトルの予測を考慮していない。
本研究では,動的なOGMとセマンティック情報を活用し,将来の車両セマンティックグリッドとシーンの将来の流れを予測する新しいマルチタスクフレームワークを提案する。
このセマンティックフローの組み込みは、中間シーンの特徴を提供するだけでなく、ワープされたセマンティックグリッドの生成を可能にする。
実世界のNuScenesデータセットの評価では、予測能力の向上と、ダイナミックな車両をシーン内に保持するモデルの強化が示されている。
Accurate prediction of driving scenes is essential for road safety and autonomous driving. Occupancy Grid Maps (OGMs) are commonly employed for scene prediction due to their structured spatial representation, flexibility across sensor modalities and integration of uncertainty. Recent studies have successfully combined OGMs with deep learning methods to predict the evolution of scene and learn complex behaviours. These methods, however, do not consider prediction of flow or velocity vectors in the scene. In this work, we propose a novel multi-task framework that leverages dynamic OGMs and semantic information to predict both future vehicle semantic grids and the future flow of the scene. This incorporation of semantic flow not only offers intermediate scene features but also enables the generation of warped semantic grids. Evaluation on the real-world NuScenes dataset demonstrates improved prediction capabilities and enhanced ability of the model to retain dynamic vehicles within the scene. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# HaloQuest: マルチモーダル推論を改善するための視覚的幻覚データセット
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning ( http://arxiv.org/abs/2407.15680v1 ) ライセンス: Link先を確認 | Zhecan Wang, Garrett Bingham, Adams Yu, Quoc Le, Thang Luong, Golnaz Ghiasi, | (参考訳) 幻覚は大きな言語モデルにとって大きな問題であり、視覚言語モデル(VLM)がテキストだけでなく視覚入力も扱わなければならないマルチモーダル性において、依然として重要な課題である。
VLMの急速な進歩にもかかわらず、マルチモーダル幻覚の評価と対処のためのリソースは限られており、主に評価に焦点を当てている。
HaloQuestは、虚偽の前提、不十分なコンテキスト、視覚的課題といったマルチモーダル幻覚のさまざまな側面をキャプチャする、新しい視覚的質問応答データセットである。
HaloQuestの新たなアイデアは、実際の画像とは別に合成画像を活用して、大規模なデータセット生成を可能にすることだ。
HaloQuestはVLMの挑戦的なベンチマークと、マルチモーダル推論を進めるための微調整データセットの両方を設計した。
我々の実験によると、現在のモデルはHaloQuestと競合し、すべてのオープンソースVLMが36%未満の精度で達成されている。
一方、HaloQuestの微調整は、標準的な推論タスクのパフォーマンスを維持しながら幻覚率を大幅に低下させる。
その結果、生成した画像とのベンチマークは実画像と高い相関関係(r=0.97)があることが判明した。
最後に, VLMの評価において, レーナー (r=0.99) と高い相関性を有する新しいAuto-Eval機構を提案する。
まとめると、この研究はVLMにおける幻覚の理解、評価、緩和に向けて具体的な努力をし、将来的にはより信頼性の高いマルチモーダルAIシステムに向けた重要なステップとなる。
Hallucination has been a major problem for large language models and remains a critical challenge when it comes to multimodality in which vision-language models (VLMs) have to deal with not just textual but also visual inputs. Despite rapid progress in VLMs, resources for evaluating and addressing multimodal hallucination are limited and mostly focused on evaluation. This work introduces HaloQuest, a novel visual question answering dataset that captures various aspects of multimodal hallucination such as false premises, insufficient contexts, and visual challenges. A novel idea from HaloQuest is to leverage synthetic images, apart from real ones, to enable dataset creation at scale. With over 7.7K examples spanning across a wide variety of categories, HaloQuest was designed to be both a challenging benchmark for VLMs and a fine-tuning dataset for advancing multimodal reasoning. Our experiments reveal that current models struggle with HaloQuest, with all open-source VLMs achieving below 36% accuracy. On the other hand, fine-tuning on HaloQuest significantly reduces hallucination rates while preserving performance on standard reasoning tasks. Our results discover that benchmarking with generated images is highly correlated (r=0.97) with real images. Last but not least, we propose a novel Auto-Eval mechanism that is highly correlated with human raters (r=0.99) for evaluating VLMs. In sum, this work makes concrete strides towards understanding, evaluating, and mitigating hallucination in VLMs, serving as an important step towards more reliable multimodal AI systems in the future. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# 対象とする対人的事例の伝達性向上:自己大学的視点
Enhancing Transferability of Targeted Adversarial Examples: A Self-Universal Perspective ( http://arxiv.org/abs/2407.15683v1 ) ライセンス: Link先を確認 | Bowen Peng, Li Liu, Tianpeng Liu, Zhen Liu, Yongxiang Liu, | (参考訳) ブラックボックスディープニューラルネットワーク(DNN)に対するトランスファーベースの敵攻撃は、未ターゲットの攻撃よりもはるかに難しいことが証明されている。
生成方法である現在のSOTAの印象的な転送性は、大量の追加データを必要とするコストと、ターゲットラベルごとに時間のかかるトレーニングが伴う。
その結果、効率性と柔軟性が制限され、実用アプリケーションへのデプロイが著しく妨げられます。
本稿では,この目標を追求する上で,入力変換の大きな可能性を明らかにする,自己普遍的な視点を提供する。
具体的には、トランスフォーメーションは、固有のが見過ごされた個々のイメージ固有のセマンティクスによる勾配ベースの攻撃を普遍化し、様々なクラスの大量の追加データに対する時間的学習に類似したスケーラビリティと同等の結果を示す。
私たちはまた、最も基本的な変換の1つ、単純なイメージスケーリングが、ターゲットの転送可能性を高めるのに非常に効果的で、スケーラブルで、十分で、必要である、という驚くべき経験的な洞察にも貢献します。
さらに直交変換とブロックワイド適用性による単純なスケーリングを強化し, 自己ユニバーサルTTAの単純, ファSt, 自己ユニバーサル, 強スケール変換(S$^4$ST)を実現した。
ImageNet-Compatibleベンチマークデータセットでは,攻撃に要する時間は36%に過ぎず,既存のSOTAトランスフォーメーション方式に比べて,標的転送成功率の平均19.8%の改善を実現している。
また、さまざまな困難な設定において、リソース集約的な攻撃を大きなマージンで上回ります。
Transfer-based targeted adversarial attacks against black-box deep neural networks (DNNs) have been proven to be significantly more challenging than untargeted ones. The impressive transferability of current SOTA, the generative methods, comes at the cost of requiring massive amounts of additional data and time-consuming training for each targeted label. This results in limited efficiency and flexibility, significantly hindering their deployment in practical applications. In this paper, we offer a self-universal perspective that unveils the great yet underexplored potential of input transformations in pursuing this goal. Specifically, transformations universalize gradient-based attacks with intrinsic but overlooked semantics inherent within individual images, exhibiting similar scalability and comparable results to time-consuming learning over massive additional data from diverse classes. We also contribute a surprising empirical insight that one of the most fundamental transformations, simple image scaling, is highly effective, scalable, sufficient, and necessary in enhancing targeted transferability. We further augment simple scaling with orthogonal transformations and block-wise applicability, resulting in the Simple, faSt, Self-universal yet Strong Scale Transformation (S$^4$ST) for self-universal TTA. On the ImageNet-Compatible benchmark dataset, our method achieves a 19.8% improvement in the average targeted transfer success rate against various challenging victim models over existing SOTA transformation methods while only consuming 36% time for attacking. It also outperforms resource-intensive attacks by a large margin in various challenging settings. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# 多視点画像からの微分凸多面体最適化
Differentiable Convex Polyhedra Optimization from Multi-view Images ( http://arxiv.org/abs/2407.15686v1 ) ライセンス: Link先を確認 | Daxuan Ren, Haiyi Mei, Hezi Shi, Jianmin Zheng, Jianfei Cai, Lei Yang, | (参考訳) 本稿では, 暗黙のフィールド監視に依存する最近の手法の限界に対処する, 凸多面体の微分可能レンダリングのための新しい手法を提案する。
本手法では,双対変換による超平面交叉の非微分可能計算と頂点位置と3次元平面交叉の微分可能最適化を組み合わせ,3次元暗黙場を必要とせずに勾配に基づく最適化を実現する。
これにより、形状解析からコンパクトメッシュ再構成まで、さまざまなアプリケーションにわたる効率的な形状表現が可能になる。
この作業は、従来のアプローチの課題を克服するだけでなく、凸多面体で形状を表現するための新しい標準も設定する。
This paper presents a novel approach for the differentiable rendering of convex polyhedra, addressing the limitations of recent methods that rely on implicit field supervision. Our technique introduces a strategy that combines non-differentiable computation of hyperplane intersection through duality transform with differentiable optimization for vertex positioning with three-plane intersection, enabling gradient-based optimization without the need for 3D implicit fields. This allows for efficient shape representation across a range of applications, from shape parsing to compact mesh reconstruction. This work not only overcomes the challenges of previous approaches but also sets a new standard for representing shapes with convex polyhedra. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# ソフトCVI : 自己生成型ソフトラベルを用いた対照的な変分推論
SoftCVI: contrastive variational inference with self-generated soft labels ( http://arxiv.org/abs/2407.15687v1 ) ライセンス: Link先を確認 | Daniel Ward, Mark Beaumont, Matteo Fasiolo, | (参考訳) 正規化されていない密度に与えられた分布を推定することはベイズ推論において重要であり、後者は一般に未知の正規化定数までしか知られていない。
変分推論とマルコフ連鎖モンテカルロ法がこのタスクの主要なツールであるが、後部が複雑な幾何学を持つ場合、どちらの手法も確実に適用することはしばしば困難である。
本稿では,ソフトコントラスト変分推論(SoftCVI)を紹介した。
これらの目的は、偏差近似が正確であるときに、特殊勾配推定器を必要とせずに、偏差勾配をゼロにする。
このアプローチは、差分分布の観点から分類器をパラメータ化することで、推論タスクを対照的な推定問題として再編成することができ、サンプルの集合の中で単一の真の後続サンプルを特定することを目的としている。
このようなフレーミングにもかかわらず、正あるいは負のサンプルは必要とせず、変分分布をサンプリングし、非正規化後部自身から基底真実のソフト分類ラベルを抽出することで学習する。
単純(例:正規)と表現的(正規化フロー)の変動分布を用いて,様々なベイズ推論タスクの性能を実験的に検討した。
We found that SoftCVI objectives many number of other common used variational objectives。
Estimating a distribution given access to its unnormalized density is pivotal in Bayesian inference, where the posterior is generally known only up to an unknown normalizing constant. Variational inference and Markov chain Monte Carlo methods are the predominant tools for this task; however, both methods are often challenging to apply reliably, particularly when the posterior has complex geometry. Here, we introduce Soft Contrastive Variational Inference (SoftCVI), which allows a family of variational objectives to be derived through a contrastive estimation framework. These objectives have zero variance gradient when the variational approximation is exact, without the need for specialized gradient estimators. The approach involves parameterizing a classifier in terms of the variational distribution, which allows the inference task to be reframed as a contrastive estimation problem, aiming to identify a single true posterior sample among a set of samples. Despite this framing, we do not require positive or negative samples, but rather learn by sampling the variational distribution and computing ground truth soft classification labels from the unnormalized posterior itself. We empirically investigate the performance on a variety of Bayesian inference tasks, using both using both simple (e.g. normal) and expressive (normalizing flow) variational distributions. We find that SoftCVI objectives often outperform other commonly used variational objectives. | 翻訳日:2024-07-23 14:40:28 公開日:2024-07-22 |
# AIによるIoTボットネットの脅威の迅速かつ早期検出:網羅的ネットワークトラフィック分析アプローチ
AI-Driven Fast and Early Detection of IoT Botnet Threats: A Comprehensive Network Traffic Analysis Approach ( http://arxiv.org/abs/2407.15688v1 ) ライセンス: Link先を確認 | Abdelaziz Amara korba, Aleddine Diaf, Yacine Ghamri-Doudane, | (参考訳) モノのインターネット(IoT)エコシステムをターゲットとするサイバー脅威の急速な発展と、ボットネット駆動のDistributed Denial of Service(DDoS)とブルートフォース攻撃の急増を踏まえて、この研究はIoTボットの早期検出に焦点を当てている。
これは特に、攻撃に先立って組織化されるステルスボット通信の検出に対処する。
本研究は,一方向と双方向の両方のフローとパケットフォーマットを考慮した,IoTネットワークトラフィック分析のための包括的な方法論を提案する。
ネットワークトラフィックを表現し、良質なIoTトラフィックパターンを効果的に特徴付ける上で重要な、幅広いネットワーク機能について検討している。
さらに,様々な半教師あり学習手法を用いて交通のモデル化を行う。
さまざまなボットネットタイプとトラフィックシナリオを特徴とする包括的なコレクションであるIoT-23データセットによる広範な実験を通じて、私たちは、特にステルスコマンドとコントロール(C2)通信に焦点を当てた、さまざまなオペレーションとボットタイプに対応するボットネットトラフィックを検出する可能性を実証しました。
その結果、パケットベースの手法で100%の成功率、フローベースの手法で94%、偽陽性率1.53%でC2通信を識別できる可能性が示された。
In the rapidly evolving landscape of cyber threats targeting the Internet of Things (IoT) ecosystem, and in light of the surge in botnet-driven Distributed Denial of Service (DDoS) and brute force attacks, this study focuses on the early detection of IoT bots. It specifically addresses the detection of stealth bot communication that precedes and orchestrates attacks. This study proposes a comprehensive methodology for analyzing IoT network traffic, including considerations for both unidirectional and bidirectional flow, as well as packet formats. It explores a wide spectrum of network features critical for representing network traffic and characterizing benign IoT traffic patterns effectively. Moreover, it delves into the modeling of traffic using various semi-supervised learning techniques. Through extensive experimentation with the IoT-23 dataset - a comprehensive collection featuring diverse botnet types and traffic scenarios - we have demonstrated the feasibility of detecting botnet traffic corresponding to different operations and types of bots, specifically focusing on stealth command and control (C2) communications. The results obtained have demonstrated the feasibility of identifying C2 communication with a 100% success rate through packet-based methods and 94% via flow based approaches, with a false positive rate of 1.53%. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# 小児腰部外傷X線における自動破壊検出用YOLOv10
YOLOv10 for Automated Fracture Detection in Pediatric Wrist Trauma X-rays ( http://arxiv.org/abs/2407.15689v1 ) ライセンス: Link先を確認 | Ammar Ahmed, Abdul Manaf, | (参考訳) 関節骨折は小児に多く見られ、学校への通学、スポーツへの参加、基本的なセルフケアなどの日常生活に大きな影響を及ぼす。
適切に治療しなければ、これらの骨折は慢性的な痛み、手首の機能低下、その他の長期合併症を引き起こす可能性がある。
近年、物体検出の進歩は、人間の放射線学者に匹敵する、あるいは超える精度のシステムを含む、骨折検出の強化を約束している。
特にYOLOシリーズは、この領域で顕著な成功を収めた。
本研究は, GRAZPEDWRI-DXデータセットを用いて, 小児手首骨折の診断成績を評価するために, 様々なYOLOv10変異体を徹底的に評価した最初のものである。
モデル複雑性の変化、アーキテクチャのスケーリング、デュアルラベル割り当て戦略の実装によって検出性能が向上する方法について検討する。
実験結果から,このデータセットの平均精度(mAP@50-95)は,現在のYOLOv9ベンチマークの43.3\%を上回った。
これは8.6\%の改善である。
実装コードはhttps://github.com/ammarlodhi255/YOLOv10-Fracture-Detectionで公開されている。
Wrist fractures are highly prevalent among children and can significantly impact their daily activities, such as attending school, participating in sports, and performing basic self-care tasks. If not treated properly, these fractures can result in chronic pain, reduced wrist functionality, and other long-term complications. Recently, advancements in object detection have shown promise in enhancing fracture detection, with systems achieving accuracy comparable to, or even surpassing, that of human radiologists. The YOLO series, in particular, has demonstrated notable success in this domain. This study is the first to provide a thorough evaluation of various YOLOv10 variants to assess their performance in detecting pediatric wrist fractures using the GRAZPEDWRI-DX dataset. It investigates how changes in model complexity, scaling the architecture, and implementing a dual-label assignment strategy can enhance detection performance. Experimental results indicate that our trained model achieved mean average precision (mAP@50-95) of 51.9\% surpassing the current YOLOv9 benchmark of 43.3\% on this dataset. This represents an improvement of 8.6\%. The implementation code is publicly available at https://github.com/ammarlodhi255/YOLOv10-Fracture-Detection | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# 相対論的コミュニケーションシナリオにおけるランダウアー原理と第二法則
Landauer principle and the second law in a relativistic communication scenario ( http://arxiv.org/abs/2407.15690v1 ) ライセンス: Link先を確認 | Yuri J. Alvim, Lucas C. Céleri, | (参考訳) 相対論的シナリオにおける熱力学の定式化の問題はまだ解決されていないが、文献には多くの提案がある。
この挑戦は、一般相対性理論によって確立された時空の固有の動的構造によって生じる。
ランドーアーの原理を裏付ける情報の物理的性質の発見により、情報理論はこの問題を理解する上で重要な役割を果たしるべきであると信じている。
本研究では,一般ローレンツ時空におけるAliceとBobの相対論的コミュニケーションタスクを考えることで,この取り組みに寄与する。
次に、受信機であるBobが情報を利用したローカル熱エンジンを可逆的に操作し、この装置から抽出できる最大作業量を決定することを仮定する。
ボブは自由に仕事を抽出できないので、ランダウアーの原理と熱力学の第二法則の両方を適用することで、ボブがそもそも情報を得るために費やさなければならないエネルギーの束縛を確立する。
この境界は時空計量と通信チャネルの性質の関数である。
The problem of formulating thermodynamics in a relativistic scenario remains unresolved, although many proposals exist in the literature. The challenge arises due to the intrinsic dynamic structure of spacetime as established by the general theory of relativity. With the discovery of the physical nature of information, which underpins Landauer's principle, we believe that information theory should play a role in understanding this problem. In this work, we contribute to this endeavor by considering a relativistic communication task between two partners, Alice and Bob, in a general Lorentzian spacetime. We then assume that the receiver, Bob, reversibly operates a local heat engine powered by information, and seek to determine the maximum amount of work he can extract from this device. Since Bob cannot extract work for free, by applying both Landauer's principle and the second law of thermodynamics, we establish a bound on the energy Bob must spend to acquire the information in the first place. This bound is a function of the spacetime metric and the properties of the communication channel. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# Counter Turing Test (CT^2$): HindiのAI生成テキスト検出を調査する - Hindi AI Detectability Index (ADI_{hi}$)に基づくLLMのランク付け
Counter Turing Test ($CT^2$): Investigating AI-Generated Text Detection for Hindi -- Ranking LLMs based on Hindi AI Detectability Index ($ADI_{hi}$) ( http://arxiv.org/abs/2407.15694v1 ) ライセンス: Link先を確認 | Ishan Kavathekar, Anku Rani, Ashmit Chamoli, Ponnurangam Kumaraguru, Amit Sheth, Amitava Das, | (参考訳) 大規模言語モデル(LLM)の普及と多言語 LLM に関する認識は、AI生成テキストの誤用に関連する潜在的なリスクと反感を懸念し、警戒を高める必要がある。
これらのモデルは、主に英語のために訓練されているが、Web全体をカバーする広大なデータセットに対する広範なトレーニングは、他の多くの言語でうまく機能する能力を備えている。
AI生成テキスト検出(AGTD)は、すでに研究で注目を集めているトピックとして現れており、いくつかの初期手法が提案されている。
本稿では,Hindi言語におけるAGTDの検討について報告する。
私たちの主な貢献は4つあります。
一 ヒンディー語テキスト作成の習熟度を評価するために、26 LLMを検査すること。
二 ヒンディー語(AG_{hi}$)データセットにAI生成ニュース記事を導入すること。
iii)最近提案された5つのAGTD(ConDA, J-Guard, RADAR, RAIDAR, Intrinsic Dimension Estimation)の有効性を評価した。
iv) Hindi AI Detectability Index(ADI_{hi}$)を提案した。
さらなる研究を促進するために、コードとデータセットを利用可能にします。
The widespread adoption of large language models (LLMs) and awareness around multilingual LLMs have raised concerns regarding the potential risks and repercussions linked to the misapplication of AI-generated text, necessitating increased vigilance. While these models are primarily trained for English, their extensive training on vast datasets covering almost the entire web, equips them with capabilities to perform well in numerous other languages. AI-Generated Text Detection (AGTD) has emerged as a topic that has already received immediate attention in research, with some initial methods having been proposed, soon followed by the emergence of techniques to bypass detection. In this paper, we report our investigation on AGTD for an indic language Hindi. Our major contributions are in four folds: i) examined 26 LLMs to evaluate their proficiency in generating Hindi text, ii) introducing the AI-generated news article in Hindi ($AG_{hi}$) dataset, iii) evaluated the effectiveness of five recently proposed AGTD techniques: ConDA, J-Guard, RADAR, RAIDAR and Intrinsic Dimension Estimation for detecting AI-generated Hindi text, iv) proposed Hindi AI Detectability Index ($ADI_{hi}$) which shows a spectrum to understand the evolving landscape of eloquence of AI-generated text in Hindi. We will make the codes and datasets available to encourage further research. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# LLM支援による高齢者のデジタル自律支援
Supporting the Digital Autonomy of Elders Through LLM Assistance ( http://arxiv.org/abs/2407.15695v1 ) ライセンス: Link先を確認 | Jesse Roberts, Lindsey Roberts, Alice Reed, | (参考訳) インターネットは、サービス、ソーシャル接続、および必要な製品に膨大なアクセスを提供する。
しかし、十分な経験のない人にとっては、ネット上の企業や友人との交流は、詐欺や盗賊の危険性が常にあるため、コンピュータウイルスの無数の危険性を何とも言わざるを得ない。
食用植物と有毒植物の両方が豊富にある森林のように、この基準に精通した人々は安全に生息し、新参者はガイドを必要としている。
しかし、人間のデジタルガイドへの依存は課税であり、しばしば非現実的である。
LLMは、デジタルディビジョンによって分離された高齢者がデジタル自律性を安全に達成できるよう、必要な支援を提供することができるだろうか?
The internet offers tremendous access to services, social connections, and needed products. However, to those without sufficient experience, engaging with businesses and friends across the internet can be daunting due to the ever present danger of scammers and thieves, to say nothing of the myriad of potential computer viruses. Like a forest rich with both edible and poisonous plants, those familiar with the norms inhabit it safely with ease while newcomers need a guide. However, reliance on a human digital guide can be taxing and often impractical. We propose and pilot a simple but unexplored idea: could an LLM provide the necessary support to help the elderly who are separated by the digital divide safely achieve digital autonomy? | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# 連続量子光学におけるブリルアン散乱によるスロー光
Slow Light through Brillouin Scattering in Continuum Quantum Optomechanics ( http://arxiv.org/abs/2407.15698v1 ) ライセンス: Link先を確認 | Hashem Zoubi, Klemens Hammerer, | (参考訳) 我々は、強いポンプ場と導波路の振動モードを含む刺激されたブリルアン散乱を利用して、ナノファイバー内部の単一光子のレベルにおいて遅い信号場を実現する可能性を検討する。
遅い信号は、信号よりも高い周波数のポンプ磁場に対して顕著に増幅され、低いポンプ周波数に対して減衰される。
利得や損失を伴わず、比較的広い帯域幅で伝播速度の遅い信号を得るための構成を導入する。
このプロセスでは、信号の増幅と減衰の影響が互いに補う2つの強いポンプ場が信号の周波数よりも高く低くなっている。
熱フォノンの散乱による熱ゆらぎを考慮し,信号場への熱的寄与が無視できる条件を特定する。
ブリルアン光力学による光の減速は、光量子情報処理とナノフォトニック構造内の量子通信にとって重要なツールとなる。
We investigate the possibility of achieving a slow signal field at the level of single photons inside nanofibers by exploiting stimulated Brillouin scattering, which involves a strong pump field and the vibrational modes of the waveguide. The slow signal is significantly amplified for a pump field with a frequency higher than that of the signal, and attenuated for a lower pump frequency. We introduce a configuration for obtaining a propagating slow signal without gain or loss and with a relatively wide bandwidth. This process involves two strong pump fields with frequencies both higher and lower than that of the signal, where the effects of signal amplification and attenuation compensate each other. We account for thermal fluctuations due to the scattering off thermal phonons and identify conditions under which thermal contributions to the signal field are negligible. The slowing of light through Brillouin optomechanics may serve as a vital tool for optical quantum information processing and quantum communications within nanophotonic structures. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# 6G-Enabled IoVのための生涯学習侵入検知システム
A Life-long Learning Intrusion Detection System for 6G-Enabled IoV ( http://arxiv.org/abs/2407.15700v1 ) ライセンス: Link先を確認 | Abdelaziz Amara korba, Souad Sebaa, Malik Mabrouki, Yacine Ghamri-Doudane, Karima Benatchba, | (参考訳) IoV(Internet of Vehicles)への6G技術の導入は、超高データレートとシームレスなネットワークカバレッジによる接続性に革命をもたらすことを約束している。
しかし、この技術的な飛躍は、特に6Gネットワークの厳格な信頼性とセキュリティ要件を満たす、動的で多様なIoVランドスケープにおいて、大きな課題をもたらす。
さらに、6Gを統合することで、IoVの新たなサイバー脅威に対する感受性が高まる可能性が高い。
したがって、セキュリティメカニズムは、新しい攻撃パターンを動的に適応し、学習し、これらの脅威の急速な進化と多様化のペースを維持することが不可欠である。
本稿では,生涯学習のパラダイムを活用した新しい侵入検知システムを提案する。
本手法は,IoVの分散特性に理想的に適した,クラス増分学習とフェデレーション学習を組み合わせた手法である。
この戦略は、コネクテッド・アンド・オートマチック・ビークル(CAV)の集合知性とエッジコンピューティング能力を利用して検出システムを訓練する。
我々の知る限りでは、サイバー攻撃検出に特化したフェデレーション学習とクラスインクリメンタル学習を相乗化するのは、この研究が初めてである。
近年のネットワークトラフィックデータセットに関する総合的な実験を通じて、我々のシステムは、以前に遭遇したデータに関する知識を効果的に保持しつつ、新しいサイバー攻撃パターンの学習に頑健な適応性を示した。
さらに、高い精度と低い偽陽性率を維持することが証明されている。
The introduction of 6G technology into the Internet of Vehicles (IoV) promises to revolutionize connectivity with ultra-high data rates and seamless network coverage. However, this technological leap also brings significant challenges, particularly for the dynamic and diverse IoV landscape, which must meet the rigorous reliability and security requirements of 6G networks. Furthermore, integrating 6G will likely increase the IoV's susceptibility to a spectrum of emerging cyber threats. Therefore, it is crucial for security mechanisms to dynamically adapt and learn new attack patterns, keeping pace with the rapid evolution and diversification of these threats - a capability currently lacking in existing systems. This paper presents a novel intrusion detection system leveraging the paradigm of life-long (or continual) learning. Our methodology combines class-incremental learning with federated learning, an approach ideally suited to the distributed nature of the IoV. This strategy effectively harnesses the collective intelligence of Connected and Automated Vehicles (CAVs) and edge computing capabilities to train the detection system. To the best of our knowledge, this study is the first to synergize class-incremental learning with federated learning specifically for cyber attack detection. Through comprehensive experiments on a recent network traffic dataset, our system has exhibited a robust adaptability in learning new cyber attack patterns, while effectively retaining knowledge of previously encountered ones. Additionally, it has proven to maintain high accuracy and a low false positive rate. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# Probability" $> 1$ の測定
Measuring a "Probability" $> 1$ ( http://arxiv.org/abs/2407.15702v1 ) ライセンス: Link先を確認 | Sanchari Chakraborti, Rafael D. Sorkin, Urbasi Sinha, | (参考訳) 量子測度理論(Quantum Measure Theory, QMT)は、量子干渉を組み込むために確率測度の概念を一般化したものである。
干渉は成分強度の単純な和よりも強い強度をもたらすため、 \textit{quantum measure} はユニティを超えることができ、特に顕著な方法でその非古典的な性質を示す。
本稿では,QMTの文脈における2地点ホッパーについて検討し,光学実験において,アンシラに基づくイベントフィルタリング方式を用いて,特定のホッパー事象の測定を行う。
この測度に対して、1.172$という値は、古典的な確率(すなわち1ドル)に対して許容できる最大値を超える13.3$の標準偏差を報告します。
古典的でない理論概念が量子論の基礎的課題を満たす役割を果たすならば、できるだけ実験と接触させることが重要であると考えられる。
我々の実験は量子測度のためにこれを行う。
The history based formalism known as Quantum Measure Theory (QMT) generalizes the concept of probability-measure so as to incorporate quantum interference. Because interference can result in a greater intensity than the simple sum of the component intensities, the \textit{quantum measure} can exceed unity, exhibiting its non-classical nature in a particularly striking manner. Here we study the two-site hopper within the context of QMT; and in an optical experiment, we determine the measure of a specific hopper event, using an ancilla based event filtering scheme. For this measure we report a value of $1.172$, which exceeds the maximum value permissible for a classical probability (namely $1$) by $13.3$ standard deviations. If an unconventional theoretical concept is to play a role in meeting the foundational challenges of quantum theory, then it seems important to bring it into contact with experiment as much as possible. Our experiment does this for the quantum measure. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# 変圧器とデノイング拡散による確率密度の推定
Estimating Probability Densities with Transformer and Denoising Diffusion ( http://arxiv.org/abs/2407.15703v1 ) ライセンス: Link先を確認 | Henry W. Leung, Jo Bovy, Joshua S. Speagle, | (参考訳) トランスフォーマーは、大量のトレーニングデータを取り込み、基礎モデルを構築するためのアーキテクチャであることが多い。
しかし、これらのモデルは回帰問題で訓練された場合の確率密度分布を推定しないが、完全な確率的出力を得ることは多くの科学分野において重要であり、解の確率分布は非ガウス的かつマルチモーダルである。
本研究では,トランスフォーマーの上の拡散ヘッドを用いて確率モデルをトレーニングすることにより,高次元入力においても合理的な確率密度推定が可能であることを示す。
組み合わせたTransformer+Denoising Diffusionモデルにより、任意の入力の組み合わせに出力確率密度を条件付けることができ、可能なすべての入力/出力の組み合わせに対して高い柔軟性を持つ密度関数エミュレータとなる。
我々は、我々の銀河内の天文学的な観測と星のラベル測定の大規模なデータセットに基づいて、トランスフォーマー+デノナイジング拡散モデルをトレーニングし、それを様々な推論タスクに適用し、モデルが適切な分布でラベルを正確に推測できることを示す。
Transformers are often the go-to architecture to build foundation models that ingest a large amount of training data. But these models do not estimate the probability density distribution when trained on regression problems, yet obtaining full probabilistic outputs is crucial to many fields of science, where the probability distribution of the answer can be non-Gaussian and multimodal. In this work, we demonstrate that training a probabilistic model using a denoising diffusion head on top of the Transformer provides reasonable probability density estimation even for high-dimensional inputs. The combined Transformer+Denoising Diffusion model allows conditioning the output probability density on arbitrary combinations of inputs and it is thus a highly flexible density function emulator of all possible input/output combinations. We illustrate our Transformer+Denoising Diffusion model by training it on a large dataset of astronomical observations and measured labels of stars within our Galaxy and we apply it to a variety of inference tasks to show that the model can infer labels accurately with reasonable distributions. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# 効率的な骨格に基づく行動認識のための多モード共学習
Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.15706v1 ) ライセンス: Link先を確認 | Jinfu Liu, Chen Chen, Mengyuan Liu, | (参考訳) スケルトンをベースとした行動認識は、簡潔で弾力性のある骨格の利用により、大きな注目を集めている。
それでも、骨格に詳細なボディ情報がないことは性能を制限しているが、他のマルチモーダル手法ではかなりの推論資源が必要であり、トレーニングと推論の段階でマルチモーダルデータを使用する場合、非効率である。
そこで本研究では,マルチモーダル・コラーニング(MMCL)フレームワークを,マルチモーダル・大規模言語モデル(LLM)を,学習段階における多モーダル・コラーニング(マルチモーダル・コラーニング)に係わる効率的な骨格に基づく行動認識のための補助ネットワークとして活用し,推論における簡潔なスケルトンのみを用いることで,効率を保ちながら,補完的なマルチモーダル・コラーニング(MMCL)フレームワークを提案する。
私たちのMMCLフレームワークは主に2つのモジュールで構成されています。
まず、FAM(Feature Alignment Module)は、ビデオフレームからリッチなRGB機能を抽出し、コントラスト学習を通じてグローバルなスケルトン機能と整合させる。
第二に、FRM(Feature Refinement Module)は、時間的情報とテキスト命令を備えたRGBイメージを使用して、マルチモーダルLLMの強力な一般化に基づくインストラクティブな特徴を生成する。
これらのインストラクティブテキストの特徴は、さらに分類スコアを洗練させ、洗練されたスコアは、ソフトラベルに似た方法でモデルの堅牢性と一般化を強化する。
NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAベンチマークに対する大規模な実験は, 既存の骨格に基づく行動認識法よりも優れたMMCLの有効性を一貫して検証している。
一方、UTD-MHADとSYSU-Actionデータセットの実験は、ゼロショットおよびドメイン適応的行動認識におけるMMCLの可換な一般化を実証している。
私たちのコードは、https://github.com/liujf69/MMCL-Action.comで公開されています。
Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model's robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# Nビジュアルトラッカーのベストを予言する
Predicting the Best of N Visual Trackers ( http://arxiv.org/abs/2407.15707v1 ) ライセンス: Link先を確認 | Basit Alawode, Sajid Javed, Arif Mahmood, Jiri Matas, | (参考訳) 我々は,SOTA視覚トラッカーの性能が動画属性やデータセットによって驚くほど異なることを観察した。
すべてのトラッキング属性とデータセットの中で最高のパフォーマーは、シングルトラッカーが依然として存在しない。
このギャップを埋めるために、与えられたビデオシーケンスに対して、BofNメタトラッカーと呼ばれる"Nトラッカーのベスト"を予測する。
その中心となる追跡性能予測ネットワーク(TP2N)は、いくつかの初期フレームのみを使用して、所定のビデオシーケンスに対して予測された最高の視覚的トラッカーを選択する。
また、フレームレベルのBofNメタトラッカーを導入し、定期的に時間間隔で最高のパフォーマーを予測する。
TP2Nは、MocoV2、SwAv、BT、DINOの自己教師型学習アーキテクチャに基づいている。
ビデオレベルのBofNメタトラッカーは、LaSOT, TrackingNet, GOT-10K, VOT2019, VOT2021, VOT2022, UAV123, OTB100, WebUAV-3Mの9つの標準ベンチマークにおいて、既存のSOTAトラッカーよりも優れていた。
さらに、フレームレベルのBofNメタトラッカーにより、長いシーケンス内のトラッキングシナリオの変動を効果的に処理することで、さらなる改善が達成される。
例えば、GOT-10kでは、BofNのメタトラッカーの平均オーバーラップは88.7%と91.1%である。
最高のパフォーマンストラッカーであるRTSは85.20%のAOを達成した。
VOT2022では、BofNの平均オーバーラップは67.88%、ビデオとフレームのレベル設定では70.98%であり、ARTrackの最高パフォーマンスは64.12%であった。
この研究は、プロトコルに従って、一般的に使用されるすべてのベンチマーク上での競合追跡手法の広範な評価も提示する。
コード、トレーニングされたモデル、結果は、間もなくhttps://github.com/BasitAlawode/Best_of_N_Trackersで公開される。
We observe that the performance of SOTA visual trackers surprisingly strongly varies across different video attributes and datasets. No single tracker remains the best performer across all tracking attributes and datasets. To bridge this gap, for a given video sequence, we predict the "Best of the N Trackers", called the BofN meta-tracker. At its core, a Tracking Performance Prediction Network (TP2N) selects a predicted best performing visual tracker for the given video sequence using only a few initial frames. We also introduce a frame-level BofN meta-tracker which keeps predicting best performer after regular temporal intervals. The TP2N is based on self-supervised learning architectures MocoV2, SwAv, BT, and DINO; experiments show that the DINO with ViT-S as a backbone performs the best. The video-level BofN meta-tracker outperforms, by a large margin, existing SOTA trackers on nine standard benchmarks - LaSOT, TrackingNet, GOT-10K, VOT2019, VOT2021, VOT2022, UAV123, OTB100, and WebUAV-3M. Further improvement is achieved by the frame-level BofN meta-tracker effectively handling variations in the tracking scenarios within long sequences. For instance, on GOT-10k, BofN meta-tracker average overlap is 88.7% and 91.1% with video and frame-level settings respectively. The best performing tracker, RTS, achieves 85.20% AO. On VOT2022, BofN expected average overlap is 67.88% and 70.98% with video and frame level settings, compared to the best performing ARTrack, 64.12%. This work also presents an extensive evaluation of competitive tracking methods on all commonly used benchmarks, following their protocols. The code, the trained models, and the results will soon be made publicly available on https://github.com/BasitAlawode/Best_of_N_Trackers. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# SwinSF:時空間スパイクストリームからの画像再構成
SwinSF: Image Reconstruction from Spatial-Temporal Spike Streams ( http://arxiv.org/abs/2407.15708v1 ) ライセンス: Link先を確認 | Liangyan Jiang, Chuang Zhu, Yanxu Chen, | (参考訳) スパイクカメラは、時間分解能が高く、レイテンシも低く、ダイナミックレンジも高い。
個々のピクセルの光子を個別にキャプチャし、時間情報に富んだバイナリスパイクストリームを生成するが、画像再構成には挑戦する。
現在のアルゴリズムは、従来型とディープラーニングベースの両方で、豊富な時間的詳細の活用と、再構成された画像の詳細の復元で改善する必要がある。
これを解決するために,スパイクストリームからの動的シーン再構築のための新しいモデルであるSwin Spikeformer(SwinSF)を紹介した。
SwinSFはスパイク特徴抽出、時空間特徴抽出、最終再構成モジュールで構成されている。
シフトしたウィンドウの自己注意と時間的スパイクアテンションを組み合わせ、空間的および時間的ダイナミクスの両方をカプセル化した包括的な特徴抽出を確実にし、スパイクストリームをより堅牢かつ正確に再構築する。
さらに、スパイク画像再構成のための新しいデータセットを構築し、最新のスパイクカメラの解像度と一致し、スパイクカメライメージングの最新の発展にその妥当性と適用性を保証する。
実験の結果,提案するネットワークSwinSFは,さまざまな解像度で実世界のデータと合成されたデータを含む一連のデータセットに対して,最先端のパフォーマンスを実現するため,新たなベンチマークを設定できた。
コードと提案されたデータセットが近く利用可能になります。
The spike camera, with its high temporal resolution, low latency, and high dynamic range, addresses high-speed imaging challenges like motion blur. It captures photons at each pixel independently, creating binary spike streams rich in temporal information but challenging for image reconstruction. Current algorithms, both traditional and deep learning-based, still need to be improved in the utilization of the rich temporal detail and the restoration of the details of the reconstructed image. To overcome this, we introduce Swin Spikeformer (SwinSF), a novel model for dynamic scene reconstruction from spike streams. SwinSF is composed of Spike Feature Extraction, Spatial-Temporal Feature Extraction, and Final Reconstruction Module. It combines shifted window self-attention and proposed temporal spike attention, ensuring a comprehensive feature extraction that encapsulates both spatial and temporal dynamics, leading to a more robust and accurate reconstruction of spike streams. Furthermore, we build a new synthesized dataset for spike image reconstruction which matches the resolution of the latest spike camera, ensuring its relevance and applicability to the latest developments in spike camera imaging. Experimental results demonstrate that the proposed network SwinSF sets a new benchmark, achieving state-of-the-art performance across a series of datasets, including both real-world and synthesized data across various resolutions. Our codes and proposed dataset will be available soon. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# AssistantBench: Webエージェントは現実的および時間消費的なタスクを解決できるか?
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? ( http://arxiv.org/abs/2407.15711v1 ) ライセンス: Link先を確認 | Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant, | (参考訳) 言語エージェント(Language agent)は、言語モデル(LM)上に構築され、オープンウェブのような複雑な環境と対話できるシステムである。
本研究では,そのようなエージェントがWeb上で現実的かつ時間を要するタスクをこなせるか,例えば不動産市場をモニタリングしたり,関連するビジネスを探索したりすることができるかを検討する。
AssistantBenchは、214の現実的なタスクからなる挑戦的な新しいベンチマークで、さまざまなシナリオやドメインをカバーして、自動的に評価できる。
我々は,AssistantBenchが言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
クローズドブックのLMはよく機能するが、事実を幻覚させる傾向があるため、精度は低い。
最先端のWebエージェントはスコアがゼロに近い。
さらに、SeePlanAct(SPA)を導入し、従来のエージェントを著しく上回り、SPAとクローズドブックモデルのアンサンブルが、全体的なパフォーマンスの最高のものに到達した。
さらに、現在のシステムの障害を分析し、Webナビゲーションが依然として大きな課題であることを示す。
Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 25 points. While closed-book LMs perform well, they exhibit low precision since they tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that web navigation remains a major challenge. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# プロセステンソル識別性尺度
Process tensor distinguishability measures ( http://arxiv.org/abs/2407.15712v1 ) ライセンス: Link先を確認 | Guilherme Zambon, | (参考訳) プロセステンソル(英: Process tensor)は、量子力学の複数のステップを通して開かれた量子系の進化を記述する量子コムである。
2つのプロセスがどの程度異なるかを測定するには複数の方法があるが、量化器がデータ処理の不等式のような物理的に望ましい条件に従うことを確実にするためには、特別な注意が必要である。
ここでは、量子コムの一般用途でよく用いられる2種類の微分可能性尺度を分析する。
第1級はChoi divergencesと呼ばれ、重要なデータ処理の不等式を満足していないのに対し、第2級は一般発散(Generalized divergences)と呼ぶ。
また、量子チャネルの一般化された発散の他の関連する結果を量子コムに拡張する。
最後に、我々が証明した性質を考えると、一般化された発散は、ほとんどの応用において量子コムを区別するのにチョイ発散よりも適しているかもしれないと論じる。
特に、これは、量子過程の資源理論や量子戦略の資源理論のようなコム構造を持つ資源理論のモノトンを定義するために重要である。
Process tensors are quantum combs describing the evolution of open quantum systems through multiple steps of a quantum dynamics. While there is more than one way to measure how different two processes are, special care must be taken to ensure quantifiers obey physically desirable conditions such as data processing inequalities. Here, we analyze two classes of distinguishability measures commonly used in general applications of quantum combs. We show that the first class, called Choi divergences, does not satisfy an important data processing inequality, while the second one, which we call generalized divergences, does. We also extend to quantum combs some other relevant results of generalized divergences of quantum channels. Finally, given the properties we proved, we argue that generalized divergences may be more adequate than Choi divergences for distinguishing quantum combs in most of their applications. Particularly, this is crucial for defining monotones for resource theories whose states have a comb structure, such as resource theories of quantum processes and resource theories of quantum strategies. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# マンバがクラックセグメンテーションに到達
Mamba meets crack segmentation ( http://arxiv.org/abs/2407.15714v1 ) ライセンス: Link先を確認 | Zhili He, Yu-Hsing Wang, | (参考訳) 亀裂はインフラに安全リスクをもたらし、見落としられない。
既存のクラックセグメンテーションネットワークにおける一般的な構造は、主にCNNまたはTransformerで構成されている。
しかし、CNNはグローバルなモデリング能力に欠けており、ひび割れの特徴全体の表現を妨げる。
トランスフォーマーは長距離依存をキャプチャできるが、高度で二次的な複雑さに悩まされる。
最近、マンバはその線形空間的・計算的複雑さと強力なグローバルな認識のために、大きな注目を集めている。
本研究では,マンバの特徴を分解する表現能力について検討する。
具体的には,マンバとアテンション機構の関係を明らかにするとともに,マンバを解釈し,アテンションブロックの原理に従う新しいマンバモジュール,すなわちCrackMambaを考案する。
我々は, アスファルト舗装とコンクリート舗装のひび割れと鋼のひび割れからなる2つのデータセットについて, 目立ったマンバモジュールであるVimとVmambaを比較した。
定量的な結果から、CrackMambaはパラメータと計算コストを削減しつつ、ベースラインモデルの性能を一貫して向上する唯一のMambaブロックであることが明らかとなった。
さらに,本稿では,マンバが理論的解析と視覚的解釈可能性の両面からグローバルな受容場を達成できることを示す。
この研究の発見は二重の貢献をもたらす。
まず、プラグアンドプレイでシンプルで効果的なMambaモジュールとして、CrackMambaは様々なクラックセグメンテーションモデルに統合される大きな可能性を示す。
第2に,Mamba とアテンション機構を統合した革新的 Mamba の設計概念は,クラックセグメンテーションネットワークに限らず,すべての Mamba ベースのコンピュータビジョンモデルに対して重要な参照値を保持する。
Cracks pose safety risks to infrastructure and cannot be overlooked. The prevailing structures in existing crack segmentation networks predominantly consist of CNNs or Transformers. However, CNNs exhibit a deficiency in global modeling capability, hindering the representation to entire crack features. Transformers can capture long-range dependencies but suffer from high and quadratic complexity. Recently, Mamba has garnered extensive attention due to its linear spatial and computational complexity and its powerful global perception. This study explores the representation capabilities of Mamba to crack features. Specifically, this paper uncovers the connection between Mamba and the attention mechanism, providing a profound insight, an attention perspective, into interpreting Mamba and devising a novel Mamba module following the principles of attention blocks, namely CrackMamba. We compare CrackMamba with the most prominent visual Mamba modules, Vim and Vmamba, on two datasets comprising asphalt pavement and concrete pavement cracks, and steel cracks, respectively. The quantitative results show that CrackMamba stands out as the sole Mamba block consistently enhancing the baseline model's performance across all evaluation measures, while reducing its parameters and computational costs. Moreover, this paper substantiates that Mamba can achieve global receptive fields through both theoretical analysis and visual interpretability. The discoveries of this study offer a dual contribution. First, as a plug-and-play and simple yet effective Mamba module, CrackMamba exhibits immense potential for integration into various crack segmentation models. Second, the proposed innovative Mamba design concept, integrating Mamba with the attention mechanism, holds significant reference value for all Mamba-based computer vision models, not limited to crack segmentation networks, as investigated in this study. | 翻訳日:2024-07-23 14:30:36 公開日:2024-07-22 |
# ハーモナイズドフロー: 教師なし・ソースフリーMRIハーモニゼーションのための正規化フローの活用
Harmonizing Flows: Leveraging normalizing flows for unsupervised and source-free MRI harmonization ( http://arxiv.org/abs/2407.15717v1 ) ライセンス: Link先を確認 | Farzad Beizaee, Gregory A. Lodygensky, Chris L. Adamson, Deanne K. Thompso, Jeanie L. Y. Cheon, Alicia J. Spittl. Peter J. Anderso, Christian Desrosier, Jose Dolz, | (参考訳) 磁気共鳴(MR)画像取得における標準化の欠如と様々な固有のパラメータは、ディープニューラルネットワークの一般化に悪影響を及ぼす、様々な部位やデバイスにまたがる異種画像をもたらす。
この問題を軽減するために, 正規化フローを利用してMR画像の整合を図り, ソース領域の分布をエミュレートする新しい非教師付き調和フレームワークを提案する。
提案する戦略は3つの重要なステップから構成される。
当初、正規化フローネットワークは、ソースドメインの分布特性をキャプチャするために訓練される。
そして、浅層調和器ネットワークをトレーニングし、その拡張処理により、ソースドメインからの画像を再構成する。
最後に、推論中に、正規化フローネットワークによってモデル化された出力画像が学習したソース領域分布に適合するようにハーモニザネットワークを更新する。
本研究のアプローチは, 成人と新生児のクロスドメイン脳MRIセグメント, および新生児の脳年齢推定の文脈において, 教師なし, ソースレス, タスク非依存であり, タスクの一般化性を示すものである。
その結果,既存の手法に比べて優れた性能を示した。
コードはhttps://github.com/farzad-bz/Harmonizing-Flowsで入手できる。
Lack of standardization and various intrinsic parameters for magnetic resonance (MR) image acquisition results in heterogeneous images across different sites and devices, which adversely affects the generalization of deep neural networks. To alleviate this issue, this work proposes a novel unsupervised harmonization framework that leverages normalizing flows to align MR images, thereby emulating the distribution of a source domain. The proposed strategy comprises three key steps. Initially, a normalizing flow network is trained to capture the distribution characteristics of the source domain. Then, we train a shallow harmonizer network to reconstruct images from the source domain via their augmented counterparts. Finally, during inference, the harmonizer network is updated to ensure that the output images conform to the learned source domain distribution, as modeled by the normalizing flow network. Our approach, which is unsupervised, source-free, and task-agnostic is assessed in the context of both adults and neonatal cross-domain brain MRI segmentation, as well as neonatal brain age estimation, demonstrating its generalizability across tasks and population demographics. The results underscore its superior performance compared to existing methodologies. The code is available at https://github.com/farzad-bz/Harmonizing-Flows | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# GFE-Mamba:MCIからの生成的特徴抽出によるマルチモーダル・プログレクションアセスメント
GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI ( http://arxiv.org/abs/2407.15719v1 ) ライセンス: Link先を確認 | Zhaojie Fang, Shenghao Zhu, Yifei Chen, Binfeng Zou, Fan Jia, Linwei Qiu, Chang Liu, Yiyu Huang, Xiang Feng, Feiwei Qin, Changmiao Wang, Yeru Wang, Jin Fan, Changbiao Chu, Wan-Zhen Wu, Hu Zhao, | (参考訳) アルツハイマー病(英: Alzheimer's Disease、AD)は、軽度認知障害(MCI)からしばしば進行する、可逆性神経変性疾患である。
臨床試験は、MCI患者に対する早期に標的とした介入は、ADの発達と進行を遅らせたり、停止させる可能性があることを示唆している。
これまでの研究では、正確な医学分類には、評価尺度やMRI(Magnetic Resonance Imaging)やPET(Positron Emission Tomography)といった様々な神経画像技術など、広範なマルチモーダルデータを含める必要があることが示されている。
しかし、時間とともに同一人物の診断を継続的に追跡し、同時にマルチモーダルデータを収集することは重大な課題となる。
この問題に対処するために,生成的特徴抽出(GFE)に基づく分類器であるGFE-Mambaを紹介する。
この分類器は、評価尺度、MRI、PETからのデータを効果的に統合し、より深いマルチモーダル融合を可能にする。
長いシーケンス情報と短いシーケンス情報の両方を効率よく抽出し、ピクセル空間を超えて追加情報を組み込む。
このアプローチは分類精度を向上するだけでなく、モデルの解釈可能性や安定性を向上させる。
我々は、アルツハイマー病神経画像イニシアチブ(ADNI)に基づく、3000以上のサンプルのデータセットを2段階のトレーニングプロセスのために構築した。
GFE-MambaモデルがMCIからADへの変換予測に有効であることを示す。
ソースコードとADNIデータセット処理コードはhttps://github.com/Tinysqua/GFE-Mamba.comで公開されています。
Alzheimer's Disease (AD) is an irreversible neurodegenerative disorder that often progresses from Mild Cognitive Impairment (MCI), leading to memory loss and significantly impacting patients' lives. Clinical trials indicate that early targeted interventions for MCI patients can potentially slow or halt the development and progression of AD. Previous research has shown that accurate medical classification requires the inclusion of extensive multimodal data, such as assessment scales and various neuroimaging techniques like Magnetic Resonance Imaging (MRI) and Positron Emission Tomography (PET). However, consistently tracking the diagnosis of the same individual over time and simultaneously collecting multimodal data poses significant challenges. To address this issue, we introduce GFE-Mamba, a classifier based on Generative Feature Extraction (GFE). This classifier effectively integrates data from assessment scales, MRI, and PET, enabling deeper multimodal fusion. It efficiently extracts both long and short sequence information and incorporates additional information beyond the pixel space. This approach not only improves classification accuracy but also enhances the interpretability and stability of the model. We constructed datasets of over 3000 samples based on the Alzheimer's Disease Neuroimaging Initiative (ADNI) for a two-step training process. Our experimental results demonstrate that the GFE-Mamba model is effective in predicting the conversion from MCI to AD and outperforms several state-of-the-art methods. Our source code and ADNI dataset processing code are available at https://github.com/Tinysqua/GFE-Mamba. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# 大規模言語モデルは構成能力を持つか? : 限界と拡張性の検討
Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability ( http://arxiv.org/abs/2407.15720v1 ) ライセンス: Link先を確認 | Zhuoyan Xu, Zhenmei Shi, Yingyu Liang, | (参考訳) 大規模言語モデル(LLM)は多くのAI問題に対して強力なツールとして登場し、優れたコンテキスト内学習(ICL)機能を示す。
2つ以上の単純なタスクを組み合わせた、目に見えない複雑なタスクを解く構成能力は、人工知能にとって必須の推論能力である。
LLMの素晴らしい成功にもかかわらず、コンポジットタスク、特にプレトレーニング期間中に遭遇しなかったタスクにどのようにアプローチするかは、未解決の問題であり、ほとんど理解されていない。
本研究では,複合タスクにおけるLCMのICL機能について,インコンテキストとして単純なタスクのみを用いて検討する。
言語的および論理的な課題を含む複合タスクのテストスイートを開発し、異なるLLMファミリーを対象とした実証的研究を行う。
1)異なる入力セグメントに異なるマッピング機構を適用する単純な複合タスクに対して、モデルをスケールアップしながら、適切な構成能力を示す。(2)複数のステップの推論を含むより複雑な複合タスクでは、各ステップが1つのタスクを表現し、モデルの性能が低下し、一般的にはスケールアップが改善されない。
我々は,タスクが異なる入力部品を別々に扱う場合,モデルが構成能力を示すことを説明して,簡易な設定で理論的解析を行う。
我々は,LLMがタスクの性質やモデルスケールに関する複合タスクを解く上での能力に新たな光を当てていると信じている。
データセットとコードは {\url{https://github.com/OliverXUZY/LLM_Compose}}で利用可能です。
Large language models (LLMs) have emerged as powerful tools for many AI problems and exhibit remarkable in-context learning (ICL) capabilities. Compositional ability, solving unseen complex tasks that combine two or more simple tasks, is an essential reasoning ability for Artificial General Intelligence. Despite LLM's tremendous success, how they approach composite tasks, especially those not encountered during the pretraining phase, remains an open question and largely ununderstood. In this study, we delve into the ICL capabilities of LLMs on composite tasks, with only simple tasks as in-context examples. We develop a test suite of composite tasks that include linguistic and logical challenges and perform empirical studies across different LLM families. We observe that models exhibit divergent behaviors: (1) For simpler composite tasks that apply distinct mapping mechanisms to different input segments, the models demonstrate decent compositional ability, while scaling up the model enhances this ability; (2) for more complex composite tasks that involving reasoning multiple steps, where each step represent one task, models typically underperform, and scaling up generally provide no improvements. We offer theoretical analysis in a simplified setting, explaining that models exhibit compositional capability when the task handles different input parts separately. We believe our work sheds new light on the capabilities of LLMs in solving composite tasks regarding the nature of the tasks and model scale. Our dataset and code are available at {\url{https://github.com/OliverXUZY/LLM_Compose}}. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# DStruct2Design:データ構造駆動生成フロアプラン設計のためのデータとベンチマーク
DStruct2Design: Data and Benchmarks for Data Structure Driven Generative Floor Plan Design ( http://arxiv.org/abs/2407.15723v1 ) ライセンス: Link先を確認 | Zhi Hao Luo, Luis Lara, Ge Ya Luo, Florian Golemo, Christopher Beckham, Christopher Pal, | (参考訳) 画像のテキスト条件付き生成モデルは印象的な結果を得た。
特殊タイプのラスタ画像生成タスクとしてのテキストコンディショニングフロアプラン生成も特に注目を集めた。
しかし、フロアプラ生成では、生成した結果の数値的性質が美学よりも重要である場合が多い。
例えば、フロアプランの特定の部屋のサイズを指定して、生成されたフロアプランを所定の仕様と比較したい場合、現在のアプローチ、データセット、そして一般的に使用される評価は、この種の制約をサポートしない。
そのため、最終的なフロアプラン画像を生成するために使用できるフロアプランの数値特性を含む中間データ構造を生成することが魅力的な戦略である。
本研究では,(1)一般的な画像ベースフロアプランデータセットRPLANとProcTHOR-10kを用いてフロアプラン生成のデータ構造を定式化するための新しいデータセットを構築し,さらにプロシージャ生成したProcTHORフロアプランデータを我々のフォーマットに変換するためのツールを提供する。
2) 制約の一部あるいは完全なセットを与えられたフロアプラン生成の課題について検討し, モデルから生成されたサンプルがいかに制約を尊重するかを評価するために, 一連の指標とベンチマークを設計する。
3) 大規模言語モデル(LLM), Llama3 を微調整し, 数値制約を考慮したフロアプラン生成問題に対するフロアプランデータ構造条件付き LLM の有効性を示す。
我々の新しいデータセットとベンチマークは、量的制約が部分的に指定されているだけで、尊重されなければならない設計を生成するLLMやその他の生成モデリング技術の性能を改善するための様々な方法について、さらなる研究を促進することを願っている。
Text conditioned generative models for images have yielded impressive results. Text conditioned floorplan generation as a special type of raster image generation task also received particular attention. However there are many use cases in floorpla generation where numerical properties of the generated result are more important than the aesthetics. For instance, one might want to specify sizes for certain rooms in a floorplan and compare the generated floorplan with given specifications Current approaches, datasets and commonly used evaluations do not support these kinds of constraints. As such, an attractive strategy is to generate an intermediate data structure that contains numerical properties of a floorplan which can be used to generate the final floorplan image. To explore this setting we (1) construct a new dataset for this data-structure to data-structure formulation of floorplan generation using two popular image based floorplan datasets RPLAN and ProcTHOR-10k, and provide the tools to convert further procedurally generated ProcTHOR floorplan data into our format. (2) We explore the task of floorplan generation given a partial or complete set of constraints and we design a series of metrics and benchmarks to enable evaluating how well samples generated from models respect the constraints. (3) We create multiple baselines by finetuning a large language model (LLM), Llama3, and demonstrate the feasibility of using floorplan data structure conditioned LLMs for the problem of floorplan generation respecting numerical constraints. We hope that our new datasets and benchmarks will encourage further research on different ways to improve the performance of LLMs and other generative modelling techniques for generating designs where quantitative constraints are only partially specified, but must be respected. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# サイズとクラスバランスを超えて - ディープラーニングのための新しいデータセット品質指標としてのAlpha
Beyond Size and Class Balance: Alpha as a New Dataset Quality Metric for Deep Learning ( http://arxiv.org/abs/2407.15724v1 ) ライセンス: Link先を確認 | Josiah Couch, Ramy Arnaout, Rima Arnaout, | (参考訳) ディープラーニングでは、画像分類タスクで高いパフォーマンスを達成するには、多様なトレーニングセットが必要である。
しかし、データセットの多様性は不完全である。
現在のベストプラクティスは、データセットのサイズとクラスのバランスを最大化することです。
しかし、大きな、クラスバランスのデータセットは多様性が保証されていない。
我々は、与えられたモデルアーキテクチャーに対して、データセットの多様性をより直接的に最大化することで、より良いモデル性能を達成することができると仮定した。
これにより、追加の計算リソースやアーキテクチャの進歩なしに、パフォーマンス改善の道を開くことができる。
この仮説を検証するために、画像間の類似性や相違を考慮し、シャノンエントロピーのようなよく知られた量を一般化する、生態学で開発された多様性測定の包括的枠組みを導入する。
(特別な場合として、このフレームワークからデータセットのサイズとクラスバランスが生まれます。)
超音波、X線、CT、病理画像を表す7つの医学データセットから数千のサブセットを解析した結果、画像間の類似性を考慮し、データセット内の画像クラスのペアの有効数として解釈された一般的なエントロピー尺度のセットである$A$ -- `big alpha'' が、パフォーマンスの最良の相関性はサイズやクラスバランスではなく、$A$ -- `big alpha'' であることが判明した。
これらのうちの1つである$A_0$は、すべてのサブセットでバランスの取れた精度の67\%、クラスバランスは54\%、サイズは39\%と説明されている。
最高のペアはサイズとA_1$ (79\%)で、サイズとクラスバランス(74\%)を上回った。
A$は、個々のデータセットとデータセットのサブセットで最高のパフォーマンスを示し、これらの結果の汎用性をサポートする。
本稿では,医用画像における深層学習の性能向上のための新しい手法として,$A$を最大化することを提案する。
In deep learning, achieving high performance on image classification tasks requires diverse training sets. However, dataset diversity is incompletely understood. The current best practice is to try to maximize dataset size and class balance. Yet large, class-balanced datasets are not guaranteed to be diverse: images can still be arbitrarily similar. We hypothesized that, for a given model architecture, better model performance can be achieved by maximizing dataset diversity more directly. This could open a path for performance improvement without additional computational resources or architectural advances. To test this hypothesis, we introduce a comprehensive framework of diversity measures, developed in ecology, that generalizes familiar quantities like Shannon entropy by accounting for similarities and differences among images. (Dataset size and class balance emerge from this framework as special cases.) By analyzing thousands of subsets from seven medical datasets representing ultrasound, X-ray, CT, and pathology images, we found that the best correlates of performance were not size or class balance but $A$ -- ``big alpha'' -- a set of generalized entropy measures interpreted as the effective number of image-class pairs in the dataset, after accounting for similarities among images. One of these, $A_0$, explained 67\% of the variance in balanced accuracy across all subsets, vs. 54\% for class balance and just 39\% for size. The best pair was size and $A_1$ (79\%), which outperformed size and class balance (74\%). $A$ performed best for subsets from individual datasets as well as across datasets, supporting the generality of these results. We propose maximizing $A$ as a potential new way to improve the performance of deep learning in medical imaging. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# 平面ゲルマニウムにおける孔のチューニング性向上のためのバックゲート
A backgate for enhanced tunability of holes in planar germanium ( http://arxiv.org/abs/2407.15725v1 ) ライセンス: Link先を確認 | Luigi Ruggiero, Arianna Nigro, Ilaria Zardo, Andrea Hofmann, | (参考訳) 平面半導体ヘテロ構造は多用途デバイス設計を提供し、スケーラブルな量子コンピューティングの候補として有望である。
特に、歪んだゲルマニウムに基づくヘテロ構造は、強靭で調整可能なスピン軌道相互作用、低有効質量、高ホールモビリティに重点を置いて、近年広く研究されている。
しかしながら、閉包ポテンシャルの形状が密度に直接関係しているという事実により、平面系は依然として制限されている。
本研究では,平面ゲルマニウムヘテロ構造に対するバックゲートの実装を成功させる。
バックゲートはトポゲートと組み合わせて密度と電場を独立に制御し、有効質量、$g$-factor、量子寿命などの重要な状態特性を決定する。
この非平行な制御は、工学的な量子ビット特性への道を切り開き、より密度の高い量子ビットパッキングを約束する二層量子井戸の標的となるチューニングを容易にする。
Planar semiconductor heterostructures offer versatile device designs and are promising candidates for scalable quantum computing. Notably, heterostructures based on strained germanium have been extensively studied in recent years, with emphasis on their strong and tunable spin-orbit interaction, low effective mass, and high hole mobility. However, planar systems are still limited by the fact that the shape of the confinement potential is directly related to the density. In this work, we present the successful implementation of a backgate for a planar germanium heterostructure. The backgate, in combination with a topgate, enables independent control over the density and the electric field, which determines important state properties such as the effective mass, the $g$-factor and the quantum lifetime. This unparalleled degree of control paves the way towards engineering qubit properties and facilitates the targetted tuning of bilayer quantum wells, which promise denser qubit packing. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# 物理インフォームされたコルモゴロフ・アルノルドネットワークを用いたラグランジュ速度測定による乱流速度と温度場の推定とその統計
Inferring turbulent velocity and temperature fields and their statistics from Lagrangian velocity measurements using physics-informed Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.15727v1 ) ライセンス: Link先を確認 | Juan Diego Toscano, Theo Käufer, Martin Maxey, Christian Cierpka, George Em Karniadakis, | (参考訳) 実験乱流速度データから隠れた温度場を推定するためのAIVT法を提案する。
この物理インフォームド機械学習により,スパース速度データのみを用いて連続温度場を推定できるので,直接温度測定の必要がなくなる。
特に、AIVTは、物理インフォームドされたコルモゴロフ・アルノルドネットワーク(ニューラルネットワークではない)に基づいており、速度データ、境界条件、および支配方程式の残差を最小化する複合損失関数を最適化することによって訓練されている。
粒子画像サーモメトリーとラグランジアン粒子追跡を併用して得られたレイリー・ブエナード対流(RBC)の,実験体積・同時温度・速度データにAIVTを適用した。
これにより、AIVT予測と測定を直接比較することができます。
乱流の直接数値シミュレーション (DNS) に匹敵する忠実度でスパース実験データから連続的, 即時的な速度場と温度場を再構成し, 推定できることを実証した。
これにより, ゆらぎ, 粘性, 熱散逸, QR分布などの乱流を定量化するための重要な量を計算することができる。
DNSレベルの乱流場を推定するためにAIVTを用いた実験データを処理するこのパラダイムシフトは、DNSが計算不可能なレイノルズ数での乱流の定量的理解の現在のデッドロックを破る上で有望な方法である。
We propose the Artificial Intelligence Velocimetry-Thermometry (AIVT) method to infer hidden temperature fields from experimental turbulent velocity data. This physics-informed machine learning method enables us to infer continuous temperature fields using only sparse velocity data, hence eliminating the need for direct temperature measurements. Specifically, AIVT is based on physics-informed Kolmogorov-Arnold Networks (not neural networks) and is trained by optimizing a combined loss function that minimizes the residuals of the velocity data, boundary conditions, and the governing equations. We apply AIVT to a unique set of experimental volumetric and simultaneous temperature and velocity data of Rayleigh-B\'enard convection (RBC) that we acquired by combining Particle Image Thermometry and Lagrangian Particle Tracking. This allows us to compare AIVT predictions and measurements directly. We demonstrate that we can reconstruct and infer continuous and instantaneous velocity and temperature fields from sparse experimental data at a fidelity comparable to direct numerical simulations (DNS) of turbulence. This, in turn, enables us to compute important quantities for quantifying turbulence, such as fluctuations, viscous and thermal dissipation, and QR distribution. This paradigm shift in processing experimental data using AIVT to infer turbulent fields at DNS-level fidelity is a promising avenue in breaking the current deadlock of quantitative understanding of turbulence at high Reynolds numbers, where DNS is computationally infeasible. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# SAM2CLIP2SAM:Covid-19検出のための3次元CTスキャンのセグメンテーションのための視覚言語モデル
SAM2CLIP2SAM: Vision Language Model for Segmentation of 3D CT Scans for Covid-19 Detection ( http://arxiv.org/abs/2407.15728v1 ) ライセンス: Link先を確認 | Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias, | (参考訳) 本稿では,任意のモデルや手法に組み込むことのできる画像の効果的セグメンテーションのための新しいアプローチを提案する。
私たちのアプローチには、CTスキャンをセグメント化する視覚言語モデルの組み合わせが含まれています。
特に、SAM2CLIP2SAMと呼ばれる新しいフレームワークは、Segment Anything Model(SAM)とContrastive Language- Image Pre-Training(CLIP)の両方の長所を利用して、CTスキャンで左右の肺を正確にセグメンテーションし、これらのセグメンテーションされた出力をRACNetに供給して、COVID-19や非COVID-19の症例を分類する。
SAMは最初、CTスキャンの各スライスごとに複数の部分ベースのセグメンテーションマスクを生成し、CLIPは関心領域(ROI)、すなわち左右の肺に関連付けられたマスクのみを選択し、最後にSAMはこれらのROIをプロンプトとして与えられ、肺の最終セグメンテーションマスクを生成する。
提案手法をCTスキャンのセグメンテーションに用いた場合の性能向上を示す2つのCovid-19アノテートデータベースに対して実験を行った。
This paper presents a new approach for effective segmentation of images that can be integrated into any model and methodology; the paradigm that we choose is classification of medical images (3-D chest CT scans) for Covid-19 detection. Our approach includes a combination of vision-language models that segment the CT scans, which are then fed to a deep neural architecture, named RACNet, for Covid-19 detection. In particular, a novel framework, named SAM2CLIP2SAM, is introduced for segmentation that leverages the strengths of both Segment Anything Model (SAM) and Contrastive Language-Image Pre-Training (CLIP) to accurately segment the right and left lungs in CT scans, subsequently feeding these segmented outputs into RACNet for classification of COVID-19 and non-COVID-19 cases. At first, SAM produces multiple part-based segmentation masks for each slice in the CT scan; then CLIP selects only the masks that are associated with the regions of interest (ROIs), i.e., the right and left lungs; finally SAM is given these ROIs as prompts and generates the final segmentation mask for the lungs. Experiments are presented across two Covid-19 annotated databases which illustrate the improved performance obtained when our method has been used for segmentation of the CT scans. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# Zero-Shot Embeddings inform Learning and Forgetting with Vision-Language Encoders
Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders ( http://arxiv.org/abs/2407.15731v1 ) ライセンス: Link先を確認 | Laura Niss, Kevin Vogt-Lowell, Theodoros Tsiligkaridis, | (参考訳) 大きな視覚言語基盤モデルの普及にもかかわらず、これらのモデルの微調整後の学習と学習結果の予測は、ほとんど未解明のままである。
コントラストデュアルエンコーダにおけるモダリティギャップの重要性を強調する作業から着想を得て,IIMM(Inter-Intra Modal Measure)を提案する。
画像埋め込みと、誤画像とラベル埋め込みの類似性を定量化する用語を組み合わせることで、IIMMは微調整による性能変化の強力な予測器として機能する。
最新の4つのビジョン言語モデル(CLIP, SigLIP, CoCa, EVA-02-CLIP)と5つの微調整技術(フル微調整, BitFit, 注意重み付け, LoRA, CLIP-Adapter)を比較検討した結果,強い統計的に有意な線形関係が得られた。
我々は,最先端モデル選択法から得られた伝達スコアに対する測定値を比較し,IIMMが精度向上の予測性が高いことを示す。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度をヒューリスティックに評価することができる。
このヒューリスティックは、いくつかの多様なタスクにおけるモデルのパフォーマンスに関するさらなる知識を前提として、新しいタスクのトレーニング時に期待されるパフォーマンス変化を予測できる強力な予測器へと進化する。
Despite the proliferation of large vision-language foundation models, estimation of the learning and forgetting outcomes following fine-tuning of these models remains largely unexplored. Inspired by work highlighting the significance of the modality gap in contrastive dual-encoders, we propose the Inter-Intra Modal Measure (IIMM). Combining terms quantifying the similarity between image embeddings and the similarity between incorrect image and label embedding pairs, the IIMM functions as a strong predictor of performance changes with fine-tuning. Our extensive empirical analysis across four state-of-the-art vision-language models (CLIP, SigLIP, CoCa, EVA-02-CLIP) and five fine-tuning techniques (full fine-tuning, BitFit, attention-weight tuning, LoRA, CLIP-Adapter) demonstrates a strong, statistically significant linear relationship: fine-tuning on tasks with higher IIMM scores produces greater in-domain performance gains but also induces more severe out-of-domain performance degradation, with some parameter-efficient fine-tuning (PEFT) methods showing extreme forgetting. We compare our measure against transfer scores from state-of-the-art model selection methods and show that the IIMM is significantly more predictive of accuracy gains. With only a single forward pass of the target data, practitioners can leverage this key insight to heuristically evaluate the degree to which a model can be expected to improve following fine-tuning. Given additional knowledge about the model's performance on a few diverse tasks, this heuristic further evolves into a strong predictor of expected performance changes when training for new tasks. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# TaskGen: StrictJSONを使ったタスクベースのメモリ注入エージェントフレームワーク
TaskGen: A Task-Based, Memory-Infused Agentic Framework using StrictJSON ( http://arxiv.org/abs/2407.15734v1 ) ライセンス: Link先を確認 | John Chong Min Tan, Prince Saroj, Bharat Runwal, Hardik Maheshwari, Brian Lim Yi Sheng, Richard Cottrill, Alankrit Chona, Ambuj Kumar, Mehul Motani, | (参考訳) TaskGenはオープンソースのエージェントフレームワークで、エージェントを使用して任意のタスクをサブタスクに分解することで解決する。
各サブタスクは、Equipped Functionまたは他のエージェントにマップされて実行される。
冗長性を減らすためにTaskGenは,LLM(Large Language Model)からのJSON出力を保証するStrictJSONと,型チェックや反復的エラー修正などの追加機能を使用している。
TaskGenの哲学の鍵は、必要な知識に基づいて情報/メモリを管理することである。
我々は,40×40個の動的迷路ナビゲーション(100%解答率),高密度報酬と詳細な目標(96%解答率),Webブラウジング(69%),MATHデータセット(71%解答率100以上のレベル5問題),Retrieval Augmented Generation on NaturalQuestionsデータセット(F1スコア47.03%)など,さまざまな環境においてTaskGenを実証的に評価した。
TaskGen is an open-sourced agentic framework which uses an Agent to solve an arbitrary task by breaking them down into subtasks. Each subtask is mapped to an Equipped Function or another Agent to execute. In order to reduce verbosity (and hence token usage), TaskGen uses StrictJSON that ensures JSON output from the Large Language Model (LLM), along with additional features such as type checking and iterative error correction. Key to the philosophy of TaskGen is the management of information/memory on a need-to-know basis. We empirically evaluate TaskGen on various environments such as 40x40 dynamic maze navigation with changing obstacle locations (100% solve rate), TextWorld escape room solving with dense rewards and detailed goals (96% solve rate), web browsing (69% of actions successful), solving the MATH dataset (71% solve rate over 100 Level-5 problems), Retrieval Augmented Generation on NaturalQuestions dataset (F1 score of 47.03%) | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# OMoS-QA:ドイツの移動文脈における言語横断抽出質問回答データセット
OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context ( http://arxiv.org/abs/2407.15736v1 ) ライセンス: Link先を確認 | Steffen Kleinle, Jakob Prange, Annemarie Friedrich, | (参考訳) 新しい国へ移住する際には、財政支援、住宅、学校、言語コース、その他の問題に関する情報を得る必要性に圧倒されやすい。
転職を急いだり強制されたりした場合、そのような質問に対する高品質な回答の必要性は、より緊急である。
公式の移民カウンセラーは通常オーバーブックされ、オンラインシステムは新入生を依頼された情報や適切なカウンセリングサービスに誘導することができる。
この目的のために我々は,ドイツ語と英語の質問のデータセットであるOMoS-QAを紹介した。
質問はオープンソースの大言語モデル(LLM)で自動的に生成され、回答文は高合意のクラウドワーカーによって選択される。
我々は,ドイツ語と英語の抽出質問応答(QA)の課題に対して,事前学習した5つのLLMの比較を行った。
すべてのモデルと両方の言語で、回答文の選択において高精度で低中間のリコールが見られます。
このパフォーマンスは、問合せ言語がドキュメント言語と一致しない場合にも維持されます。
コンテキストによって解決不可能な質問を特定する場合、2つの言語の間には大きな違いがある。
When immigrating to a new country, it is easy to feel overwhelmed by the need to obtain information on financial support, housing, schooling, language courses, and other issues. If relocation is rushed or even forced, the necessity for high-quality answers to such questions is all the more urgent. Official immigration counselors are usually overbooked, and online systems could guide newcomers to the requested information or a suitable counseling service. To this end, we present OMoS-QA, a dataset of German and English questions paired with relevant trustworthy documents and manually annotated answers, specifically tailored to this scenario. Questions are automatically generated with an open-source large language model (LLM) and answer sentences are selected by crowd workers with high agreement. With our data, we conduct a comparison of 5 pretrained LLMs on the task of extractive question answering (QA) in German and English. Across all models and both languages, we find high precision and low-to-mid recall in selecting answer sentences, which is a favorable trade-off to avoid misleading users. This performance even holds up when the question language does not match the document language. When it comes to identifying unanswerable questions given a context, there are larger differences between the two languages. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# グローバルサンプリングによる並列スプリット学習
Parallel Split Learning with Global Sampling ( http://arxiv.org/abs/2407.15738v1 ) ライセンス: Link先を確認 | Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush, Anke Schmeink, | (参考訳) IoTデバイスの拡大とディープラーニングの要求は、分散ディープラーニング(DDL)システムにおける大きな課題を浮き彫りにした。
Parallel Split Learning (PSL)は、リソース制約のあるデバイスでの分散学習に適したSplit Learningの、有望な派生品として登場した。
しかし、PSLは、大きな有効バッチサイズ、非IIDデータ分布、ストラグラー効果など、いくつかの障害に直面している。
我々は,これらの問題をサンプリングジレンマとみなし,サーバ側でミニバッチサンプリングプロセスを編成して対処することを提案する。
クライアント数から有効バッチサイズを分離し,非IID設定におけるミニバッチ偏差を低減するために,Uniform Global Sampling (UGS) 方式を導入する。
トラグラー効果に対処するため,UGSを一般化した潜在ディリクレサンプリング法(LDS)を導入し,バッチ偏差とトレーニング時間とのトレードオフのバランスをとる。
シミュレーションの結果,提案手法は非IID環境でのモデル精度を最大34.1%向上し,ストラグラーの有無でトレーニング時間を最大62%短縮する。
特に、LSDはモデル精度を損なうことなくストラグラー効果を効果的に軽減し、UGSと比較して計算オーバーヘッドを大幅に増やす。
本結果は,本手法が実アプリケーションにおけるDDLの有望なソリューションとしての可能性を示すものである。
The expansion of IoT devices and the demands of Deep Learning have highlighted significant challenges in Distributed Deep Learning (DDL) systems. Parallel Split Learning (PSL) has emerged as a promising derivative of Split Learning that is well suited for distributed learning on resource-constrained devices. However, PSL faces several obstacles, such as large effective batch sizes, non-IID data distributions, and the straggler effect. We view these issues as a sampling dilemma and propose to address them by orchestrating the mini-batch sampling process on the server side. We introduce the Uniform Global Sampling (UGS) method to decouple the effective batch size from the number of clients and reduce mini-batch deviation in non-IID settings. To address the straggler effect, we introduce the Latent Dirichlet Sampling (LDS) method, which generalizes UGS to balance the trade-off between batch deviation and training time. Our simulations reveal that our proposed methods enhance model accuracy by up to 34.1% in non-IID settings and reduce the training time in the presence of stragglers by up to 62%. In particular, LDS effectively mitigates the straggler effect without compromising model accuracy or adding significant computational overhead compared to UGS. Our results demonstrate the potential of our methods as a promising solution for DDL in real applications. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# 道路シーンにおけるアウト・オブ・ディストリビューション検出のための拡散
Diffusion for Out-of-Distribution Detection on Road Scenes and Beyond ( http://arxiv.org/abs/2407.15739v1 ) ライセンス: Link先を確認 | Silvio Galesso, Philipp Schröppel, Hssan Driss, Thomas Brox, | (参考訳) 近年、セマンティックセグメンテーションのためのアウト・オブ・ディストリビューション(OoD)検出の研究は、主に、セマンティックな多様性の制限された領域である道路シーンに焦点を当てている。
本研究では,この制約に挑戦し,その領域を一般の自然画像に拡張する。
以下に紹介する。
ADE20kデータセットをベースとしたADE-OoDベンチマークには,セマンティック多様性の高いさまざまなドメインの画像が含まれている。
2) OoD検出(DOoD)に拡散スコアマッチング(Diffusion score matching)を用いる新しいアプローチは,意味的多様性の増大に対して堅牢である。
ADE-OoDは、屋内および屋外のイメージを特徴とし、150のセマンティックカテゴリを分布内として定義し、様々なOoDオブジェクトを含んでいる。
DOoDでは,MDPアーキテクチャを用いた拡散モデルをセマンティック・イン・ディストリビューション・埋め込みに基づいて学習し,スコアマッチングの解釈に基づいて推定時刻に画素単位のOoDスコアを計算する。
一般的なロードシーンのOoDベンチマークでは、DOoDは、トレーニングやデータドメインに関する仮定にアウトレーヤを使わずに、最先端技術よりも同等かそれ以上のパフォーマンスを発揮する。
ADE-OoDでは、DOODは以前のアプローチよりも優れていますが、今後の改善の余地はたくさんあります。
In recent years, research on out-of-distribution (OoD) detection for semantic segmentation has mainly focused on road scenes -- a domain with a constrained amount of semantic diversity. In this work, we challenge this constraint and extend the domain of this task to general natural images. To this end, we introduce: 1. the ADE-OoD benchmark, which is based on the ADE20k dataset and includes images from diverse domains with a high semantic diversity, and 2. a novel approach that uses Diffusion score matching for OoD detection (DOoD) and is robust to the increased semantic diversity. ADE-OoD features indoor and outdoor images, defines 150 semantic categories as in-distribution, and contains a variety of OoD objects. For DOoD, we train a diffusion model with an MLP architecture on semantic in-distribution embeddings and build on the score matching interpretation to compute pixel-wise OoD scores at inference time. On common road scene OoD benchmarks, DOoD performs on par or better than the state of the art, without using outliers for training or making assumptions about the data domain. On ADE-OoD, DOoD outperforms previous approaches, but leaves much room for future improvements. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# The syzygy distinguisher―the syzygy distinguisher
The syzygy distinguisher ( http://arxiv.org/abs/2407.15740v1 ) ライセンス: Link先を確認 | Hugues Randriambololona, | (参考訳) 我々は,コード長の複雑さを減らした交代符号とゴッパ符号の新しい区別器を提案する。
これは、以前の区別器や構造回復アルゴリズムの強い規則的制限に苦しめられず、特に、ポスト量子暗号標準化のための古典的なマッケイリーの候補で使われるコードに適用される。
区別できる不変量は、双対符号の短縮の同次座標環のベッチ数である。
1978年に導入されて以来、McEliece暗号系の解析が指数障壁を破るのはこれが初めてである。
We present a new distinguisher for alternant and Goppa codes, whose complexity is subexponential in the code length. It does not suffer from the strong regime limitations of the previous distinguishers or structure recovery algorithms: in particular, it applies to the codes used in the Classic McEliece candidate for postquantum cryptography standardization. The invariants that allow us to distinguish are graded Betti numbers of the homogeneous coordinate ring of a shortening of the dual code. Since its introduction in 1978, this is the first time an analysis of the McEliece cryptosystem breaks the exponential barrier. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# 古典的データセットを量子メモリにロードするアルゴリズムの比較
Comparing Algorithms for Loading Classical Datasets into Quantum Memory ( http://arxiv.org/abs/2407.15745v1 ) ライセンス: Link先を確認 | Andriy Miranskyy, Mushahid Khan, Udson Mendes, | (参考訳) 量子コンピュータは、量子機械学習や量子信号処理といった様々な応用において重要性を増している。
これらのアプリケーションは、古典的なデータセットを量子メモリにロードする際の大きな課題に直面している。
多数のアルゴリズムが利用可能であり、考慮すべき品質特性が複数あるため、データのロード方法の比較は複雑である。
我々の目的は、古典的なデータセットを量子メモリにロードする(状態ベクトルを回路に変換する)様々なアルゴリズムを比較することである。
我々は,回路深度,キュービット数,古典的ランタイム,状態ベクトル表現(denseまたはsparse),回路変更性という5つの重要な属性に基づいて,状態生成アルゴリズムを評価する。
パレート集合を多目的最適化ツールとして使用し、プロパティの最適な組み合わせでアルゴリズムを識別する。
また,3つのメトリクス(回路深度,キュービット数,古典的実行時間)を視覚的に比較した。
我々は,高密度状態ベクトル変換のための7つのアルゴリズムとスパース状態ベクトル変換のための6つのアルゴリズムを比較した。
我々の分析では、初期アルゴリズムのセットを2つの密接なグループと2つのスパースグループに減らし、固有のトレードオフを強調している。
この比較手法は、特定のニーズに基づいてアルゴリズムを選択するための構造化されたアプローチを提供する。
研究者や実践者は、様々な量子コンピューティングタスクのためにデータローディングアルゴリズムを選択するのに役立つ。
Quantum computers are gaining importance in various applications like quantum machine learning and quantum signal processing. These applications face significant challenges in loading classical datasets into quantum memory. With numerous algorithms available and multiple quality attributes to consider, comparing data loading methods is complex. Our objective is to compare (in a structured manner) various algorithms for loading classical datasets into quantum memory (by converting statevectors to circuits). We evaluate state preparation algorithms based on five key attributes: circuit depth, qubit count, classical runtime, statevector representation (dense or sparse), and circuit alterability. We use the Pareto set as a multi-objective optimization tool to identify algorithms with the best combination of properties. To improve comprehension and speed up comparisons, we also visually compare three metrics (namely, circuit depth, qubit count, and classical runtime). We compare seven algorithms for dense statevector conversion and six for sparse statevector conversion. Our analysis reduces the initial set of algorithms to two dense and two sparse groups, highlighting inherent trade-offs. This comparison methodology offers a structured approach for selecting algorithms based on specific needs. Researchers and practitioners can use it to help select data-loading algorithms for various quantum computing tasks. | 翻訳日:2024-07-23 14:20:51 公開日:2024-07-22 |
# 外国為替レートはベルの不平等に違反できるのか?
Can foreign exchange rates violate Bell inequalities? ( http://arxiv.org/abs/2407.15747v1 ) ライセンス: Link先を確認 | Hans De Raedt, Mikhail I. Katsnelson, Manpreet S. Jattana, Vrinda Mehta, Madita Willsch, Dennis Willsch, Kristel Michielsen, Fengping Jin, | (参考訳) モデル自由不等式による経験データの解析は、経験データによるベル型不等式違反は、宇宙が数学的モデルの規則に従って機能していると信じない限り、何の意味も持たないという結論を導いた。
The analysis of empirical data through model-free inequalities leads to the conclusion that violations of Bell-type inequalities by empirical data cannot have any significance unless one believes that the universe operates according to the rules of a mathematical model. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# MoRSE:サイバーセキュリティ専門家のギャップを埋める
MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation ( http://arxiv.org/abs/2407.15748v1 ) ライセンス: Link先を確認 | Marco Simoni, Andrea Saracino, Vinod P., Mauro Conti, | (参考訳) 本稿では,サイバーセキュリティのためのAIチャットボットであるMoRSE(Mixture of RAGs Security Experts)を紹介する。
MoRSEは、サイバーセキュリティに関する包括的で完全な知識を提供することを目指している。
MoRSEは2つのRAG(Retrieval Augmented Generation)システムを使用して、多次元サイバーセキュリティコンテキストから情報を検索し、整理する。
MoRSEは従来のRAGと異なり、並列レトリバーを使用して、異なるフォーマットや構造で意味的に関連した情報を検索する。
パラメトリック知識ベースに依存する従来の大規模言語モデル(LLM)とは異なり、MoRSEはユーザクエリに応答して非パラメトリック知識ベースから関連文書を検索する。
その後、MoRSEはこの情報を使って正確な回答を生成する。
さらに、MoRSEは知識ベースをリアルタイムで更新することで、トレーニングをリトレーニングすることなく、継続的な知識の充実を可能にする。
我々は、MoRSEが他の最先端のLCMに対して有効であることを評価し、600のサイバーセキュリティ固有の質問に対してシステムを評価する。
実験により, GPT-4 や Mixtral 7x8 などの既知解と比較して, 解の妥当性および正解率の向上は 10 % 以上であることがわかった。
In this paper, we introduce MoRSE (Mixture of RAGs Security Experts), the first specialised AI chatbot for cybersecurity. MoRSE aims to provide comprehensive and complete knowledge about cybersecurity. MoRSE uses two RAG (Retrieval Augmented Generation) systems designed to retrieve and organize information from multidimensional cybersecurity contexts. MoRSE differs from traditional RAGs by using parallel retrievers that work together to retrieve semantically related information in different formats and structures. Unlike traditional Large Language Models (LLMs) that rely on Parametric Knowledge Bases, MoRSE retrieves relevant documents from Non-Parametric Knowledge Bases in response to user queries. Subsequently, MoRSE uses this information to generate accurate answers. In addition, MoRSE benefits from real-time updates to its knowledge bases, enabling continuous knowledge enrichment without retraining. We have evaluated the effectiveness of MoRSE against other state-of-the-art LLMs, evaluating the system on 600 cybersecurity specific questions. The experimental evaluation has shown that the improvement in terms of relevance and correctness of the answer is more than 10\% compared to known solutions such as GPT-4 and Mixtral 7x8. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# 類似ピッチ話者に対する音声分離モデルのロバスト性
Robustness of Speech Separation Models for Similar-pitch Speakers ( http://arxiv.org/abs/2407.15749v1 ) ライセンス: Link先を確認 | Bunlong Lay, Sebastian Zaczek, Kristina Tesch, Timo Gerkmann, | (参考訳) 単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。
本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
Ditter氏とGerkmann氏による以前の発見に基づいて、同様のピッチ条件下での2018 Chimera++の大幅なパフォーマンス低下を確認した上で、我々の研究は、分析をより最新の洗練されたニューラルネットワークモデルにまで拡張した。
実験の結果,現代のモデルでは,一致したトレーニングとテスト条件のパフォーマンスギャップが大幅に減少していることがわかった。
しかし、大きなピッチ差に対してモデルの性能は良好であるが、話者のピッチが類似している場合、性能は低下する。
これらの知見は、類似ピッチ話者や見当たらないデータに対する音声分離モデルの一般化可能性に関するさらなる研究を動機付けている。
Single-channel speech separation is a crucial task for enhancing speech recognition systems in multi-speaker environments. This paper investigates the robustness of state-of-the-art Neural Network models in scenarios where the pitch differences between speakers are minimal. Building on earlier findings by Ditter and Gerkmann, which identified a significant performance drop for the 2018 Chimera++ under similar-pitch conditions, our study extends the analysis to more recent and sophisticated Neural Network models. Our experiments reveal that modern models have substantially reduced the performance gap for matched training and testing conditions. However, a substantial performance gap persists under mismatched conditions, with models performing well for large pitch differences but showing worse performance if the speakers' pitches are similar. These findings motivate further research into the generalizability of speech separation models to similar-pitch speakers and unseen data. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# LongVideoBench:Long-context Interleaved Video-Language Understandingのためのベンチマーク
LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding ( http://arxiv.org/abs/2407.15754v1 ) ライセンス: Link先を確認 | Haoning Wu, Dongxu Li, Bei Chen, Junnan Li, | (参考訳) 大規模マルチモーダルモデル(LMM)は、より長く、よりリッチな入力を処理している。
進展にもかかわらず、そのような開発を測定するための公開ベンチマークはほとんどない。
このギャップを緩和するために、LongVideoBenchを紹介します。
本ベンチマークでは,長期的マルチモーダル理解に基づくLMMを包括的に評価するために,様々なテーマにまたがる字幕付き3,763本のウェブコレクトビデオを含む。
これを実現するために、我々は、長い入力から詳細なマルチモーダル情報を正確に検索し、推論する主な課題を解釈する。
そこで我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
具体的には、質問の一部として、参照コンテキストと呼ばれる関連するビデオコンテキストを参照する参照クエリを含む。
モデルには、参照されたコンテキストから関連するビデオの詳細を推論する必要がある。
推論のパラダイムに従って、17の細粒度カテゴリで6,678の人間注釈付き複数選択質問をキュレートし、長大なビデオ理解のための最も包括的なベンチマークの1つを確立した。
評価によると、LongVideoBenchは最も先進的なプロプライエタリなモデル(GPT-4o、Gemini-1.5-Pro、GPT-4-Turboなど)でも大きな課題がある。
さらに,本研究の結果から,LongVideoBenchを将来の長文LMM評価に有用なベンチマークとして位置づけることで,より多くのフレームを処理できる場合にのみ,ベンチマークのモデル性能が向上することが示唆された。
Large multimodal models (LMMs) are processing increasingly longer and richer inputs. Albeit the progress, few public benchmark is available to measure such development. To mitigate this gap, we introduce LongVideoBench, a question-answering benchmark that features video-language interleaved inputs up to an hour long. Our benchmark includes 3,763 varying-length web-collected videos with their subtitles across diverse themes, designed to comprehensively evaluate LMMs on long-term multimodal understanding. To achieve this, we interpret the primary challenge as to accurately retrieve and reason over detailed multimodal information from long inputs. As such, we formulate a novel video question-answering task termed referring reasoning. Specifically, as part of the question, it contains a referring query that references related video contexts, called referred context. The model is then required to reason over relevant video details from the referred context. Following the paradigm of referring reasoning, we curate 6,678 human-annotated multiple-choice questions in 17 fine-grained categories, establishing one of the most comprehensive benchmarks for long-form video understanding. Evaluations suggest that the LongVideoBench presents significant challenges even for the most advanced proprietary models (e.g. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), while their open-source counterparts show an even larger performance gap. In addition, our results indicate that model performance on the benchmark improves only when they are capable of processing more frames, positioning LongVideoBench as a valuable benchmark for evaluating future-generation long-context LMMs. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# 酸化ウラン形態解析における分布シフトのモデル編集
Model editing for distribution shifts in uranium oxide morphological analysis ( http://arxiv.org/abs/2407.15756v1 ) ライセンス: Link先を確認 | Davis Brown, Cody Nizinski, Madelyn Shapiro, Corey Fallon, Tianzhixi Yin, Henry Kvinge, Jonathan H. Tu, | (参考訳) ディープラーニングは今でも、ある種の科学的データに苦戦している。
特に、事前学習データは、関連する分散シフト(例えば、異なる測定器の使用によって誘導されるシフト)のカバレッジを提供しない可能性がある。
本研究では,ウラン鉱石濃縮(UOC)の合成条件を分類するために訓練された深層学習モデルについて考察し,この領域で共通する分布シフトの一般化にモデル編集が特に有効であることを示す。
特に、モデル編集は、U$_{3}$O$_{8}$のマイクログラフと異なる走査型電子顕微鏡で取得したマイクログラフの2つのキュレートされたデータセットにおいて、微調整に優れる。
Deep learning still struggles with certain kinds of scientific data. Notably, pretraining data may not provide coverage of relevant distribution shifts (e.g., shifts induced via the use of different measurement instruments). We consider deep learning models trained to classify the synthesis conditions of uranium ore concentrates (UOCs) and show that model editing is particularly effective for improving generalization to distribution shifts common in this domain. In particular, model editing outperforms finetuning on two curated datasets comprising of micrographs taken of U$_{3}$O$_{8}$ aged in humidity chambers and micrographs acquired with different scanning electron microscopes, respectively. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# ダイヤモンド中の単一窒素空孔中心を用いた量子実験のための教育実験装置
An instructional lab apparatus for quantum experiments with single nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2407.15759v1 ) ライセンス: Link先を確認 | Zhiyang Yuan, Sounak Mukherjee, Aedan Gardill, Jeff D. Thompson, Shimon Kolkowitz, Nathalie P. de Leon, | (参考訳) 大学院物理学のカリキュラムにおける量子システムに関する実験的な経験は、学生に量子物理学の深い理解を与え、急速に成長する量子科学産業にそれらを提供する。
ここでは, 単一窒素空孔(NV)中心をダイヤモンドで量子実験する実験装置について述べる。
この装置は、単一量子ビットの初期化、回転、測定などの基礎実験や、電子-核スピン相互作用のより高度な実験を行うことができる。
我々は,NV中心の基礎物理を解説し,この装置で実施できる可能性実験の例を示す。
また、ダイヤモンドサンプルとハードウェアの選択に関連する選択肢と固有のトレードオフについても論じる。
ここで説明した装置は、学生が典型的な実験コースの1学期以内の全てをスクラッチから独自の実験的な制御とデータ分析ソフトウェアを作成でき、また、装置の光学部品や内部動作を検査することができる。
この研究が、量子教育ラボを学部の物理学と工学のカリキュラムに統合したいすべての機関にとって、スタンドアローンのリソースとなり得ることを願っている。
Hands-on experimental experience with quantum systems in the undergraduate physics curriculum provides students with a deeper understanding of quantum physics and equips them for the fast-growing quantum science industry. Here we present an experimental apparatus for performing quantum experiments with single nitrogen-vacancy (NV) centers in diamond. This apparatus is capable of basic experiments such as single-qubit initialization, rotation, and measurement, as well as more advanced experiments investigating electron-nuclear spin interactions. We describe the basic physics of the NV center and give examples of potential experiments that can be performed with this apparatus. We also discuss the options and inherent trade-offs associated with the choice of diamond samples and hardware. The apparatus described here enables students to write their own experimental control and data analysis software from scratch all within a single semester of a typical lab course, as well as to inspect the optical components and inner workings of the apparatus. We hope that this work can serve as a standalone resource for any institution that would like to integrate a quantum instructional lab into its undergraduate physics and engineering curriculum. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# 完全なパッシブ量子会議キーアグリーメント
Fully Passive Quantum Conference Key Agreement ( http://arxiv.org/abs/2407.15761v1 ) ライセンス: Link先を確認 | Jinjie Li, Wenyuan Wang, H. F. Chau, | (参考訳) 会議鍵協定(CKA)は、多人数通信のための安全な方法を提供する。
最近開発された干渉に基づく準備・測定量子CKAは、測定デバイス独立性の利点、すなわち検出器側からのサイドチャネルに免疫を持つ。
さらに、単一光子干渉を用いることにより、特に高損失チャネルのキーレート性能が向上する。
一方、ソース変調側から全てのサイドチャネルを除去する完全受動的QKDスキームが提案されている。
我々は受動的アイデアを、多ユーザ通信のための高レベルの実装セキュリティを持つ干渉ベースのCKAに拡張する。
Conference Key Agreement (CKA) provides a secure method for multi-party communication. A recently developed interference-based prepare-and-measure quantum CKA possesses the advantages of measurement-device-independence, namely, being immune to side-channels from the detector side. Besides, it achieves good key rate performance, especially for high-loss channels, due to the use of single photon interference. Meanwhile, several fully passive QKD schemes have been proposed, which eliminate all side channels from the source modulation side. We extend the passive idea to an interference-based CKA, which has a high level of implementation security for many-user communication. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# Conditioned Language Policy: ステアブルな多目的ファインタニングのための汎用フレームワーク
Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning ( http://arxiv.org/abs/2407.15762v1 ) ライセンス: Link先を確認 | Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, Alekh Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Avinava Dubey, Alexandre Ramé, Johan Ferret, Geoffrey Cideron, Le Hou, Hongkun Yu, Amr Ahmed, Aranyak Mehta, Léonard Hussenot, Olivier Bachem, Edouard Leurent, | (参考訳) リワードベースの微調整は、言語ポリシーを意図した行動(創造性と安全性など)と整合させることに不可欠である。
ここでの重要な課題は、複数の(競合する)目標を柔軟かつ効率的な方法でトレードオフする、ステアブル言語モデルを開発することです。
本稿では,多目的言語モデルを微調整するための一般的なフレームワークである条件付き言語ポリシー(CLP)を提案する。
マルチタスクトレーニングとパラメータ効率の微調整のテクニックに基づいて、CLPは推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶことができる。
特に、目標間の異なるトレードオフを達成するために、トレーニングや複数のモデルのメンテナンスは必要ありません。
CLPフレームワークは広範な実験と改善を通じて,多目的ファインタニングにおける現在の最先端のアプローチを上回り,パレートが優位に立つステアブルモデルを学ぶことを示す。
Reward-based finetuning is crucial for aligning language policies with intended behaviors (e.g., creativity and safety). A key challenge here is to develop steerable language models that trade-off multiple (conflicting) objectives in a flexible and efficient manner. This paper presents Conditioned Language Policy (CLP), a general framework for finetuning language models on multiple objectives. Building on techniques from multi-task training and parameter-efficient finetuning, CLP can learn steerable models that effectively trade-off conflicting objectives at inference time. Notably, this does not require training or maintaining multiple models to achieve different trade-offs between the objectives. Through an extensive set of experiments and ablations, we show that the CLP framework learns steerable models that outperform and Pareto-dominate the current state-of-the-art approaches for multi-objective finetuning. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# 自己教師付きアウトリア合成によるオープンワールドオブジェクトベース異常検出に向けて
Towards Open-World Object-based Anomaly Detection via Self-Supervised Outlier Synthesis ( http://arxiv.org/abs/2407.15763v1 ) ライセンス: Link先を確認 | Brian K. S. Isaac-Medina, Yona Falinie A. Gaus, Neelanjan Bhowmik, Toby P. Breckon, | (参考訳) 物体検出はコンピュータビジョンにおける重要な課題であり、過去数年間で大きな注目を集めてきた。
それでも、検出器がトレーニング分布から物体をローカライズする能力は未解明のままである。
オブジェクトレベルのアウト・オブ・ディストリビューション(OoD)検出における最近のアプローチは、クラスラベルに大きく依存しているが、そのようなアプローチは、クラス分布がよく知られていない真のオープンワールドシナリオと矛盾する。
この文脈では、異常検出は、検出をOoDとして分類するのではなく、目に見えないインスタンスを検出することに焦点を当てている。
この研究は、オープンワールドオブジェクト検出器とOoD検出器を仮想外周合成によって利用することで、このギャップを埋めることを目的としている。
これは、検出器バックボーン機能を使用して、まず自己スーパービジョンを介してオブジェクトの擬似クラスを学習する。
これらの擬似クラスは、OoDヘッドによって分類される異常な特徴のクラス条件付き仮想外れ値サンプリングの基礎となる。
提案手法は,オブジェクト検出アーキテクチャ全体において,クラスラベルを頼らずに,異常を意識した特徴表現の学習を可能にするため,真にオープンなオブジェクト検出が可能となる。
提案手法の実証検証は,様々な画像モダリティ(可視,赤外,X線)を含む多様なデータセットに対して有効であることを示す。
さらに,本手法は,オブジェクトレベルの異常検出における最先端性能を確立し,自然画像の平均リコールスコアが5.4%以上,セキュリティX線データセットが23.5%向上した。
さらに,本手法は,現在のアプローチが失敗するデータセットの異常を検出する。
コードはhttps://github.com/KostadinovShalon/oln-ssos.comで公開されている。
Object detection is a pivotal task in computer vision that has received significant attention in previous years. Nonetheless, the capability of a detector to localise objects out of the training distribution remains unexplored. Whilst recent approaches in object-level out-of-distribution (OoD) detection heavily rely on class labels, such approaches contradict truly open-world scenarios where the class distribution is often unknown. In this context, anomaly detection focuses on detecting unseen instances rather than classifying detections as OoD. This work aims to bridge this gap by leveraging an open-world object detector and an OoD detector via virtual outlier synthesis. This is achieved by using the detector backbone features to first learn object pseudo-classes via self-supervision. These pseudo-classes serve as the basis for class-conditional virtual outlier sampling of anomalous features that are classified by an OoD head. Our approach empowers our overall object detector architecture to learn anomaly-aware feature representations without relying on class labels, hence enabling truly open-world object anomaly detection. Empirical validation of our approach demonstrates its effectiveness across diverse datasets encompassing various imaging modalities (visible, infrared, and X-ray). Moreover, our method establishes state-of-the-art performance on object-level anomaly detection, achieving an average recall score improvement of over 5.4% for natural images and 23.5% for a security X-ray dataset compared to the current approaches. In addition, our method detects anomalies in datasets where current approaches fail. Code available at https://github.com/KostadinovShalon/oln-ssos. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# 世界35都市における健康増進のための公園品質の不平等の検討
Examining Inequality in Park Quality for Promoting Health Across 35 Global Cities ( http://arxiv.org/abs/2407.15770v1 ) ライセンス: Link先を確認 | Linus W. Dietz, Sanja Šćepanović, Ke Zhou, André Felipe Zanella, Daniele Quercia, | (参考訳) 都市公園は様々なレクリエーションやレジャー活動のためのスペースや施設を提供することで、大きな健康上の利益をもたらす。
しかし、特定の公園空間と健康を育むための要素の容量は過小評価されている。
伝統的な研究は公園のサイズ、緑化、アクセシビリティに重点を置いており、しばしば特定の健康促進活動を促進する能力を見下ろしている。
このギャップに対処するため,公園における健康増進活動の6つのカテゴリ(身体,心身,自然鑑賞,環境,社会,文化)からなる分類法を提案する。
我々は,世界35都市において,公園空間と要素と特定の健康促進活動とを連携させるレキシコンを確立することで,健康を促進するために公園の容量を見積もる。
このレキシコンを用いて、OpenStreetMapから35都市のすべての公園の要素や空間のデータを収集した。
我々の分析では、合計827,038の要素と空間を持つ23,477の公園をカバーしている。
北米の公園が身体活動のためのスペースを増やしているのに対し、ヨーロッパの公園は自然の鑑賞に重点を置いているのがわかりました。
第2に, 要素と空間の両面から公園を採点し, 健康増進能力の変動について検討した。
公園内における身体活動における最も均一な規定と,社会活動に関する最も格差が認められた。
さらに、様々な活動を行う公園は通常市中心部にあり、郊外の公園では減少している。
最後に,コペンハーゲンとリオデジャネイロが最も顕著な格差を示すのに対して,東京とパリは最も均一な公園基準を提供している。
我々の研究は、都市公園をより公平、エンゲージメント、健康増進にするための洞察を提供する。
Urban parks provide significant health benefits by offering spaces and facilities for various recreational and leisure activities. However, the capacity of specific park spaces and elements to foster health remains underexamined. Traditional studies have focused on parks' size, greenery, and accessibility, often overlooking their ability to facilitate specific health-promoting activities. To address this gap, we propose a taxonomy consisting of six categories of health-promoting activities in parks: physical, mind-body, nature appreciation, environmental, social, and cultural. We estimate the capacity of parks in 35 global cities to promote health by establishing a lexicon linking park spaces and elements with specific health-promoting activities from our taxonomy. Using this lexicon, we collected data on elements and spaces in all parks in 35 cities from OpenStreetMap. Our analysis covers 23,477 parks with a total of 827,038 elements and spaces. By first comparing similarly sized parks across cities, we found that North American parks offer more spaces for physical activities, while European parks focus more on nature appreciation. Second, by scoring parks based on both elements and spaces, we investigated the variability in their health-promoting potential. We found the most uniform provision across parks for physical activities and the highest disparities regarding social activities. Additionally, parks offering a variety of activities are usually located in city centers, while offerings diminish in parks towards the suburbs. Lastly, we identified significant inequalities in park standards across cities, regardless of their continental location: Tokyo and Paris offer the most uniform park standards, while Copenhagen and Rio de Janeiro exhibit the most pronounced disparities. Our study provides insights for making urban parks more equitable, engaging, and health-promoting. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# マルチトリプラナー投影による局所機能強化物体のグラッピング
Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection ( http://arxiv.org/abs/2407.15771v1 ) ライセンス: Link先を確認 | Kangqi Ma, Hao Dong, Yadong Mu, | (参考訳) 本稿では,一般的な物体をロボットでつかむという課題に対処する。
以前の研究と同様に、このタスクは深度カメラで捉えた単一視点の3D観測(すなわち点雲)を入力として読み取る。
重要なことに、物体の把握の成功は、シーン内の物体の形状を包括的に理解することを要求する。
しかし、シングルビューの観察は、特に複雑な散らかったシーンにおいて、点雲の隙間を生じさせるオクルージョン(自己と物体間オクルージョンの両方を含む)に悩まされることが多い。
これにより、オブジェクトの形状が不完全であると認識され、しばしばオブジェクトの把握中に失敗や不正確なポーズ推定を引き起こす。
本稿では,この課題を,局所的占有率予測を通じて把握関連シーン領域を完了させるという,効果的な簡単な解決法を用いて解決する。
事前の実践に続いて、提案されたモデルはまず、シーン内の最もありそうないくつかの把握ポイントを提案することによって実行される。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
重要なことに、占有マップは、地域とグローバルの両方の手がかりを融合することによって推測される。
我々は、長距離コンテキスト情報を効率的に集約する多群三面体スキームを実装した。
さらに、6-DoFグリップポーズを、局所占有力向上した物体形状情報を利用して推定し、トップランクのグリップ提案を返却する。
大規模GraspNet-1Billionベンチマークと実際のロボットアームの両方に関する総合的な実験により、提案手法は、散らばったシーンや隠蔽シーンにおいて、観測されていない部分を効果的に完了できることが実証された。
占有率を向上した特徴から、我々のモデルは、平均精度の把握など、様々なパフォーマンス指標の下で、競合する他の手法よりも明らかに優れている。
This paper addresses the challenge of robotic grasping of general objects. Similar to prior research, the task reads a single-view 3D observation (i.e., point clouds) captured by a depth camera as input. Crucially, the success of object grasping highly demands a comprehensive understanding of the shape of objects within the scene. However, single-view observations often suffer from occlusions (including both self and inter-object occlusions), which lead to gaps in the point clouds, especially in complex cluttered scenes. This renders incomplete perception of the object shape and frequently causes failures or inaccurate pose estimation during object grasping. In this paper, we tackle this issue with an effective albeit simple solution, namely completing grasping-related scene regions through local occupancy prediction. Following prior practice, the proposed model first runs by proposing a number of most likely grasp points in the scene. Around each grasp point, a module is designed to infer any voxel in its neighborhood to be either void or occupied by some object. Importantly, the occupancy map is inferred by fusing both local and global cues. We implement a multi-group tri-plane scheme for efficiently aggregating long-distance contextual information. The model further estimates 6-DoF grasp poses utilizing the local occupancy-enhanced object shape information and returns the top-ranked grasp proposal. Comprehensive experiments on both the large-scale GraspNet-1Billion benchmark and real robotic arm demonstrate that the proposed method can effectively complete the unobserved parts in cluttered and occluded scenes. Benefiting from the occupancy-enhanced feature, our model clearly outstrips other competing methods under various performance metrics such as grasping average precision. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# STAMP: 安定したメモリリプレイによるアウトリーチ対応のテスト時間適応
STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay ( http://arxiv.org/abs/2407.15773v1 ) ライセンス: Link先を確認 | Yongcan Yu, Lijun Sheng, Ran He, Jian Liang, | (参考訳) テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
既存のTTAメソッドは、トレーニングセット内のクラスに関連するテストデータに特化して、認識性能の向上に重点を置いていることが多い。
しかし、オープンワールド推論プロセスの間、未知のクラスから必然的にデータインスタンスをテストする。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
そこで我々は,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
特に、低エントロピー及びラベル一貫性サンプルをクラスバランスで選択することにより、メモリバンクを動的に更新する。
さらに,低エントロピーサンプルに高重みを割り当てる自己重み付きエントロピー最小化戦略を開発した。
以上の結果から,STAMPは既存のTTA法よりも,認識性能と外乱検出性能の両方で優れていた。
コードはhttps://github.com/yuyongcan/STAMPで公開されている。
Test-time adaptation (TTA) aims to address the distribution shift between the training and test data with only unlabeled data at test time. Existing TTA methods often focus on improving recognition performance specifically for test data associated with classes in the training set. However, during the open-world inference process, there are inevitably test data instances from unknown classes, commonly referred to as outliers. This paper pays attention to the problem that conducts both sample recognition and outlier rejection during inference while outliers exist. To address this problem, we propose a new approach called STAble Memory rePlay (STAMP), which performs optimization over a stable memory bank instead of the risky mini-batch. In particular, the memory bank is dynamically updated by selecting low-entropy and label-consistent samples in a class-balanced manner. In addition, we develop a self-weighted entropy minimization strategy that assigns higher weight to low-entropy samples. Extensive results demonstrate that STAMP outperforms existing TTA methods in terms of both recognition and outlier detection performance. The code is released at https://github.com/yuyongcan/STAMP. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# 量子アドバンテージの探索:量子カーネル法におけるショット数の推定
In Search of Quantum Advantage: Estimating the Number of Shots in Quantum Kernel Methods ( http://arxiv.org/abs/2407.15776v1 ) ライセンス: Link先を確認 | Artur Miroszewski, Marco Fellous Asiani, Jakub Mielczarek, Bertrand Le Saux, Jakub Nalepa, | (参考訳) 量子機械学習(QML)は、Quantum Kernel Machinesのようなアプローチを通じて大きな注目を集めている。
これらの手法はかなりの可能性を秘めているが、その量子的性質は固有の課題を呈している。
1つの大きな課題は、量子デバイス上で実行される有限数の回路によって生じる推定されたカーネル値の限定的な解決である。
本研究では,量子カーネル法において要求される回路数を推定するためのルールとヒューリスティックの包括的システムを提案する。
追加回路を通した測定精度の向上を必要とする2つの臨界効果(拡散効果と濃度効果)を紹介する。
これらの効果は、忠実性と投影された量子核の文脈で分析される。
これらの現象に対処するため、カーネル値の所望の精度を推定する手法を開発し、回路実行回数に変換する。
本手法は指数値集中の問題に着目し, 広範囲な数値シミュレーションにより検証した。
我々は、量子カーネル法は、機械学習のパフォーマンスの観点からだけでなく、リソース消費の文脈からも考慮すべきである、と強調する。
この結果は量子カーネルメソッドのメリットに関する洞察を与え、量子機械学習タスクにおけるその応用に関するガイダンスを提供する。
Quantum Machine Learning (QML) has gathered significant attention through approaches like Quantum Kernel Machines. While these methods hold considerable promise, their quantum nature presents inherent challenges. One major challenge is the limited resolution of estimated kernel values caused by the finite number of circuit runs performed on a quantum device. In this study, we propose a comprehensive system of rules and heuristics for estimating the required number of circuit runs in quantum kernel methods. We introduce two critical effects that necessitate an increased measurement precision through additional circuit runs: the spread effect and the concentration effect. The effects are analyzed in the context of fidelity and projected quantum kernels. To address these phenomena, we develop an approach for estimating desired precision of kernel values, which, in turn, is translated into the number of circuit runs. Our methodology is validated through extensive numerical simulations, focusing on the problem of exponential value concentration. We stress that quantum kernel methods should not only be considered from the machine learning performance perspective, but also from the context of the resource consumption. The results provide insights into the possible benefits of quantum kernel methods, offering a guidance for their application in quantum machine learning tasks. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# 発光器を用いたフォトニックグラフ状態生成プロトコルの最適化複雑性と資源最小化
Optimization complexity and resource minimization of emitter-based photonic graph state generation protocols ( http://arxiv.org/abs/2407.15777v1 ) ライセンス: Link先を確認 | Evangelia Takou, Edwin Barnes, Sophia E. Economou, | (参考訳) フォトニックグラフ状態は、測定と融合に基づく量子コンピューティング、量子ネットワーク、センシングに重要である。
基本的には、必須の絡み合いを生成するためにエミッターを用いて決定的に生成することができる。
エミッタ間の絡み合うゲートの数を最小限に抑え、そのようなプロトコルの全体的な最適化の複雑さを理解する方法は、実用的な実装において不可欠である。
本稿では,これらの問題にグラフ理論の概念を用いて対処する。
我々は,狭義のゲートの数を最小限に抑える最適化器を開発し,中程度の大きさのランダムグラフに対するネーティブなスキームと比較して最大75$\%まで削減する。
エミッタ・エミッタ数の最適化の複雑さはNPハードである可能性が高いが、グラフ変換の強い接続と安定化回路の最適化に基づくヒューリスティックスを開発することができる。
これらのパターンは大きなグラフを処理でき、エッジ密度などの微妙な指標に頼ることなく、エミッタCNOTの最大6,6\%の削減を実現します。
両最適化問題の平均NP硬度に拘わらず,エミッタおよびCNOT資源のグローバル最小化を実現し,任意の大きさの未符号化かつ符号化されたリピータグラフ状態を作成するための最適排出順序と回路を見出した。
さらに、グラフの局所同値な軌道について研究する。
任意のグラフに対して軌道を列挙することは$\#$P完全であるが、リピータグラフの軌道の大きさを解析的に計算し、任意のリピータサイズの軌道を生成する手順を見つける。
最後に、与えられた軌道から任意のグラフを作成するための絡み合うゲートコストを調べ、軌道全体にわたって同じ最適なCNOT数を達成することができることを示す。
Photonic graph states are important for measurement- and fusion-based quantum computing, quantum networks, and sensing. They can in principle be generated deterministically by using emitters to create the requisite entanglement. Finding ways to minimize the number of entangling gates between emitters and understanding the overall optimization complexity of such protocols is crucial for practical implementations. Here, we address these issues using graph theory concepts. We develop optimizers that minimize the number of entangling gates, reducing them by up to 75$\%$ compared to naive schemes for moderately sized random graphs. While the complexity of optimizing emitter-emitter CNOT counts is likely NP-hard, we are able to develop heuristics based on strong connections between graph transformations and the optimization of stabilizer circuits. These patterns allow us to process large graphs and still achieve a reduction of up to $66\%$ in emitter CNOTs, without relying on subtle metrics such as edge density. We find the optimal emission orderings and circuits to prepare unencoded and encoded repeater graph states of any size, achieving global minimization of emitter and CNOT resources despite the average NP-hardness of both optimization problems. We further study the locally equivalent orbit of graphs. Although enumerating orbits is $\#$P complete for arbitrary graphs, we analytically calculate the size of the orbit of repeater graphs and find a procedure to generate the orbit for any repeater size. Finally, we inspect the entangling gate cost of preparing any graph from a given orbit and show that we can achieve the same optimal CNOT count across the orbit. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# ゲート定義量子ドットにおけるベルの不等式
Violating Bell's inequality in gate-defined quantum dots ( http://arxiv.org/abs/2407.15778v1 ) ライセンス: Link先を確認 | Paul Steinacker, Tuomo Tanttu, Wee Han Lim, Nard Dumoulin Stuyck, MengKe Feng, Santiago Serrano, Ensar Vahapoglu, Rocky Y. Su, Jonathan Y. Huang, Cameron Jones, Kohei M. Itoh, Fay E. Hudson, Christopher C. Escott, Andrea Morello, Andre Saraiva, Chih Hwan Yang, Andrew S. Dzurak, Arne Laucht, | (参考訳) 量子コンピュータによって約束される優れた計算力は、絡み合いの基本的な量子力学的原理を利用する。
しかし、絡み合いを達成し、生成状態が局所因性の原理に従わないことを検証することは、ベルの不等式によって課される古典的境界を破るために高いコンカレンス値と読み出し忠実さを同時に要求するため、ゲート定義量子ドットにおけるスピン量子ビットにとって困難であることが証明された。
ここでは、ゲートセットトモグラフィー(GST)による初期化や校正など、シリコン中のスピン量子ビットに対する高度な操作プロトコルを用いて、関連するすべてのエラーを低減し、99%以上のフル2量子ビットゲートの忠実度をプッシュする。
我々は、読み出し誤差を補正することなく97.17%のベル状態忠実度を示し、2{\sqrt{2}}の理論的最大値に近いS = 2.731のベル信号でベルの不等式に違反する。
測定値は, 温度1.1K, エンタングルメント寿命100 {\mu}においても, 古典的限界を超えている。
The superior computational power promised by quantum computers utilises the fundamental quantum mechanical principle of entanglement. However, achieving entanglement and verifying that the generated state does not follow the principle of local causality has proven difficult for spin qubits in gate-defined quantum dots, as it requires simultaneously high concurrence values and readout fidelities to break the classical bound imposed by Bell's inequality. Here we employ advanced operational protocols for spin qubits in silicon, such as heralded initialization and calibration via gate set tomography (GST), to reduce all relevant errors and push the fidelities of the full 2-qubit gate set above 99%. We demonstrate a 97.17% Bell state fidelity without correcting for readout errors and violate Bell's inequality with a Bell signal of S = 2.731 close to the theoretical maximum of 2{\sqrt{2}}. Our measurements exceed the classical limit even at elevated temperatures of 1.1K or entanglement lifetimes of 100 {\mu}s. | 翻訳日:2024-07-23 14:11:00 公開日:2024-07-22 |
# MLモデルにおける説明的決定:パラメータ化複雑度解析
Explaining Decisions in ML Models: a Parameterized Complexity Analysis ( http://arxiv.org/abs/2407.15780v1 ) ライセンス: Link先を確認 | Sebastian Ordyniak, Giacomo Paesani, Mateusz Rychlicki, Stefan Szeider, | (参考訳) 本稿では,機械学習(ML)モデルにおける説明問題のパラメータ化複雑性に関する包括的理論的考察を行う。
一般的なブラックボックスの知覚とは対照的に、我々は透明な内部機構を持つモデルに焦点を当てている。
本稿では, 帰納的かつ対照的な2種類の説明問題を, 局所的および大域的両変種において解決する。
我々の分析では、決定木、決定セット、決定リスト、順序付き二項決定図、ランダムフォレスト、ブール回路など、さまざまなMLモデルを含み、それぞれ独自の説明課題を提供している。
この研究は、これらのモデルのための説明を生成する複雑さに関する基礎的な理解を提供することによって、説明可能なAI(XAI)における大きなギャップを埋める。
この研究は、XAIの領域におけるさらなる研究に不可欠な洞察を与え、AIシステムにおける透明性と説明責任の必要性に関する幅広い議論に寄与する。
This paper presents a comprehensive theoretical investigation into the parameterized complexity of explanation problems in various machine learning (ML) models. Contrary to the prevalent black-box perception, our study focuses on models with transparent internal mechanisms. We address two principal types of explanation problems: abductive and contrastive, both in their local and global variants. Our analysis encompasses diverse ML models, including Decision Trees, Decision Sets, Decision Lists, Ordered Binary Decision Diagrams, Random Forests, and Boolean Circuits, and ensembles thereof, each offering unique explanatory challenges. This research fills a significant gap in explainable AI (XAI) by providing a foundational understanding of the complexities of generating explanations for these models. This work provides insights vital for further research in the domain of XAI, contributing to the broader discourse on the necessity of transparency and accountability in AI systems. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 99.9%の忠実度を有するフラクソニウム量子ビット上の24日間安定なCNOTゲート
24 days-stable CNOT-gate on fluxonium qubits with over 99.9% fidelity ( http://arxiv.org/abs/2407.15783v1 ) ライセンス: Link先を確認 | Wei-Ju Lin, Hyunheung Cho, Yinqi Chen, Maxim G. Vavilov, Chen Wang, Vladimir E. Manucharyan, | (参考訳) Fluxonium qubitは、長いコヒーレンス時間と強いアンハーモニック性のため、量子情報処理のための有望なビルディングブロックである。
本稿では,2つの誘導結合されたフラクソニウム量子ビット上の60ns直接CNOTゲートを選択的暗黒化法により実現し,ゲート忠実度を99.94%とした。
この忠実度は、ランダム化されたベンチマーク測定の間で再検討されることなく、24日間、99.9%以上である。
60 nsのIDゲートの99.96%の忠実度と比較すると、我々のデータはゲート操作中の非デコヒーレンス関連エラーの調査を$2 \times 10^{-4}$に下げる。
この結果は、超伝導量子ビット上での「3つを超える」デモンストレーションの比較的小さなファミリーに、単純で頑健な2量子ビットゲートを付加する。
Fluxonium qubit is a promising building block for quantum information processing due to its long coherence time and strong anharmonicity. In this paper, we realize a 60 ns direct CNOT-gate on two inductively-coupled fluxonium qubits using selective darkening approach, resulting in a gate fidelity as high as 99.94%. The fidelity remains above 99.9% for 24 days without any recalibration between randomized benchmarking measurements. Compared with the 99.96% fidelity of a 60 ns identity gate, our data brings the investigation of the non-decoherence-related errors during gate operations down to $2 \times 10^{-4}$. The present result adds a simple and robust two-qubit gate into the still relatively small family of "the beyond three nines" demonstrations on superconducting qubits. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 超信頼性無線ネットワーク制御システムにおける拡散モデルに基づく資源配分戦略
Diffusion Model Based Resource Allocation Strategy in Ultra-Reliable Wireless Networked Control Systems ( http://arxiv.org/abs/2407.15784v1 ) ライセンス: Link先を確認 | Amirhassan Babazadeh Darabi, Sinem Coleri, | (参考訳) 拡散モデルは、複雑なデータ分散をキャプチャするその能力を活用することによって、生成AIで大いに利用されている。
しかし、無線ネットワークにおけるリソース割り当ての分野では、その可能性はほとんど解明されていない。
本稿では,無線ネットワーク制御システム(WNCS)のための新しい拡散モデルに基づく資源配分戦略を提案する。この手法は,制御システムのサンプリング期間の最適化による全消費電力の最小化と,通信システムの有限ブロック長方式におけるブロック長とパケットエラーの確率について述べる。
この問題はまず最適条件の導出のみに基づいてブロック長の最適化に還元される。
そして、最適化理論解は、チャネルゲインと対応する最適なブロック長のデータセットを収集する。
最後に、Denoising Diffusion Probabilistic Model (DDPM)は、この収集データセットを使用して、チャネル状態情報(CSI)に条件付けられた最適なブロック長値を生成するリソース割り当てアルゴリズムを訓練する。
シミュレーションにより,提案手法は従来提案されていた深層強化学習(DRL)に基づく手法よりも高い性能を示し,全消費電力に対する最適性能が得られた。
さらに, 臨界制約違反の低減に最大18倍の改善が見られ, 解の精度が向上した。
Diffusion models are vastly used in generative AI, leveraging their capability to capture complex data distributions. However, their potential remains largely unexplored in the field of resource allocation in wireless networks. This paper introduces a novel diffusion model-based resource allocation strategy for Wireless Networked Control Systems (WNCSs) with the objective of minimizing total power consumption through the optimization of the sampling period in the control system, and blocklength and packet error probability in the finite blocklength regime of the communication system. The problem is first reduced to the optimization of blocklength only based on the derivation of the optimality conditions. Then, the optimization theory solution collects a dataset of channel gains and corresponding optimal blocklengths. Finally, the Denoising Diffusion Probabilistic Model (DDPM) uses this collected dataset to train the resource allocation algorithm that generates optimal blocklength values conditioned on the channel state information (CSI). Via extensive simulations, the proposed approach is shown to outperform previously proposed Deep Reinforcement Learning (DRL) based approaches with close to optimal performance regarding total power consumption. Moreover, an improvement of up to eighteen-fold in the reduction of critical constraint violations is observed, further underscoring the accuracy of the solution. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 人間ラベルに制限のない概念に基づく解釈可能強化学習
Concept-Based Interpretable Reinforcement Learning with Limited to No Human Labels ( http://arxiv.org/abs/2407.15786v1 ) ライセンス: Link先を確認 | Zhuorui Ye, Stephanie Milani, Geoffrey J. Gordon, Fei Fang, | (参考訳) 強化学習(RL)の最近の進歩は、意思決定のためのニューラルネットワークベースのポリシーを主に活用しているが、これらのモデルは解釈可能性に欠けており、ステークホルダーの理解と信頼の難しさを浮き彫りにしている。
概念ボトルネックモデルは、人間の理解可能な概念をニューラルネットワークに統合することで、解釈可能な代替手段を提供する。
しかしながら、先行研究における重要な制限は、これらの概念に対する人間のアノテーションは、トレーニング中に容易に利用でき、人間のアノテーションから連続的なリアルタイム入力を必要とするという仮定である。
この制限を克服するために、RLアルゴリズムは、人間に小さなデータセットをラベル付けさせるだけで、あるいは極端に、人間ラベルなしで、概念ベースのポリシーを効率的に学習できる新しいトレーニングスキームを導入する。
我々のアルゴリズムであるlicORICEは、概念学習とRLトレーニングのインターリーブ、概念アンサンブルを使用してラベル付けのための情報的データポイントを積極的に選択し、概念データを単純な戦略でデコレーションする3つの主な貢献を含んでいる。
licORICEは,3つの環境において,手動ラベリングの取り組みを500以上のコンセプトラベルに減らすかを示す。
最後に,視覚モデルを用いて,明示的なラベルを最小限のコストで生の視覚入力から概念を推論する方法について検討する。
Recent advances in reinforcement learning (RL) have predominantly leveraged neural network-based policies for decision-making, yet these models often lack interpretability, posing challenges for stakeholder comprehension and trust. Concept bottleneck models offer an interpretable alternative by integrating human-understandable concepts into neural networks. However, a significant limitation in prior work is the assumption that human annotations for these concepts are readily available during training, necessitating continuous real-time input from human annotators. To overcome this limitation, we introduce a novel training scheme that enables RL algorithms to efficiently learn a concept-based policy by only querying humans to label a small set of data, or in the extreme case, without any human labels. Our algorithm, LICORICE, involves three main contributions: interleaving concept learning and RL training, using a concept ensembles to actively select informative data points for labeling, and decorrelating the concept data with a simple strategy. We show how LICORICE reduces manual labeling efforts to to 500 or fewer concept labels in three environments. Finally, we present an initial study to explore how we can use powerful vision-language models to infer concepts from raw visual inputs without explicit labels at minimal cost to performance. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 高ノイズデータを用いた人工膝関節置換術の非観血的マストイド切除術
Unsupervised Mastoidectomy for Cochlear CT Mesh Reconstruction Using Highly Noisy Data ( http://arxiv.org/abs/2407.15787v1 ) ライセンス: Link先を確認 | Yike Zhang, Dingjie Su, Eduardo Davalos, Jack H. Noble, | (参考訳) コクラーインプラント(CI)法では、内耳内にあるコクリーに電極の配列を挿入する。
マストイドミー (Mastoidectomy) は、高速ドリルを用いて側頭骨のマストイド領域の一部を除去し、中耳と内耳を通して内耳への安全なアクセスを可能にする外科手術である。
術前CT(Computerized Tomography)ボリュームを用いて作成した計画を2次元手術顕微鏡で記録する術中ナビゲーションシステムを開発することを目的としている。
そこで本研究では, 術前CTのみを用いて, マストイドの容積を合成する方法を提案する。
マストイドを合成するための教師なし学習フレームワークを提案する。
本手法は,マストイド切除時に摘出された領域が可視であるが,金属加工物,低信号-雑音比,電極配線の影響を受けても,手動によるデータのクリーニングやラベル付けを避けるために,術後CTスキャンを用いる。
術式別では, 口径70.0%, 口径70.0%の乳頭切除術を施行した。
本手法は,術中顕微鏡に術前計画の登録に使用可能な術前計画において,現実的なマストイド切除領域を予測し,術中ナビゲーションの進歩を示すものである。
Cochlear Implant (CI) procedures involve inserting an array of electrodes into the cochlea located inside the inner ear. Mastoidectomy is a surgical procedure that uses a high-speed drill to remove part of the mastoid region of the temporal bone, providing safe access to the cochlea through the middle and inner ear. We aim to develop an intraoperative navigation system that registers plans created using 3D preoperative Computerized Tomography (CT) volumes with the 2D surgical microscope view. Herein, we propose a method to synthesize the mastoidectomy volume using only the preoperative CT scan, where the mastoid is intact. We introduce an unsupervised learning framework designed to synthesize mastoidectomy. For model training purposes, this method uses postoperative CT scans to avoid manual data cleaning or labeling, even when the region removed during mastoidectomy is visible but affected by metal artifacts, low signal-to-noise ratio, or electrode wiring. Our approach estimates mastoidectomy regions with a mean dice score of 70.0%. This approach represents a major step forward for CI intraoperative navigation by predicting realistic mastoidectomy-removed regions in preoperative planning that can be used to register the pre-surgery plan to intraoperative microscopy. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 金融ニュースから構造化洞察を抽出する - LLM駆動アプローチの強化
Extracting Structured Insights from Financial News: An Augmented LLM Driven Approach ( http://arxiv.org/abs/2407.15788v1 ) ライセンス: Link先を確認 | Rian Dolphin, Joe Dursun, Jonathan Chow, Jarrett Blankenship, Katie Adams, Quinton Pike, | (参考訳) 金融ニュースは、金融セクター全体の意思決定プロセスにおいて重要な役割を果たすが、この情報の効率的な構造化形式への処理は依然として困難である。
本稿では,Large Language Models (LLMs) を利用して,構造化されていない金融ニュースから構造化データを取り出すのを未然に防ぐような制約を克服する,新たな金融ニュース処理手法を提案する。
本稿では、生のニュース記事コンテンツから関連企業チッカーを抽出し、企業レベルで感情分析を行い、事前に構造化されたデータフィードに頼ることなく要約を生成するシステムを提案する。
提案手法は,LLMの生成能力と近年のプロンプト技術と,調整された文字列類似性アプローチを用いた堅牢な検証フレームワークを組み合わせたものである。
5530の金融ニュース記事のデータセットによる評価は、現在のデータ提供者に比べて90%がティッカーを欠くことなく、さらに22%がティッカーを付加しているという、私たちのアプローチの有効性を示している。
本稿に加えて,本手法は,最新のニュースとともにリアルタイムで更新されるライブAPIエンドポイントを通じて処理されたデータを用いて,大規模に実装されている。
私たちの知る限りでは、私たちは、ニュース記事から、企業ごとの詳細な感情分析を提供し、市場参加者に利用可能な情報の深みを高めた最初のデータプロバイダーです。
また,5530件の論文評価データセットを静的ファイルとして公開し,金融ニュースを活用したさらなる研究の促進を期待する。
Financial news plays a crucial role in decision-making processes across the financial sector, yet the efficient processing of this information into a structured format remains challenging. This paper presents a novel approach to financial news processing that leverages Large Language Models (LLMs) to overcome limitations that previously prevented the extraction of structured data from unstructured financial news. We introduce a system that extracts relevant company tickers from raw news article content, performs sentiment analysis at the company level, and generates summaries, all without relying on pre-structured data feeds. Our methodology combines the generative capabilities of LLMs, and recent prompting techniques, with a robust validation framework that uses a tailored string similarity approach. Evaluation on a dataset of 5530 financial news articles demonstrates the effectiveness of our approach, with 90% of articles not missing any tickers compared with current data providers, and 22% of articles having additional relevant tickers. In addition to this paper, the methodology has been implemented at scale with the resulting processed data made available through a live API endpoint, which is updated in real-time with the latest news. To the best of our knowledge, we are the first data provider to offer granular, per-company sentiment analysis from news articles, enhancing the depth of information available to market participants. We also release the evaluation dataset of 5530 processed articles as a static file, which we hope will facilitate further research leveraging financial news. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# RADA: ドメイン適応によるロバストで正確な機能学習
RADA: Robust and Accurate Feature Learning with Domain Adaptation ( http://arxiv.org/abs/2407.15791v1 ) ライセンス: Link先を確認 | Jingtai He, Gehao Zhang, Tingting Liu, Songlin Du, | (参考訳) 近年のキーポイント検出と記述子抽出の進歩は、局所的な特徴学習タスクにおいて顕著な性能を示している。
しかし、既存の手法では、大きな外観変化やドメインシフトなどの極端な条件下では、一般に準最適性能を示す。
本研究では,ドメイン適応による堅牢かつ正確な特徴の学習を容易にするために,2つの主成分を組み込んだマルチレベル特徴集約ネットワークを提案する。
まず、各領域にまたがる高レベルの特徴分布を整列させ、不変領域表現を実現する。
第2に,ウェーブ位置符号化の概念を通じて視覚情報と幾何学情報を統合し,複雑な条件を効果的に処理することで,記述者のロバスト性を高めるトランスフォーマーベースのブースターを提案する。
特徴の精度とロバスト性を確保するため,我々は階層型アーキテクチャを採用し,包括的情報を収集し,キーポイント検出,記述子抽出,およびそれらの結合処理に細心の注意を払って監視する。
広汎な実験により,画像マッチング,カメラポーズ推定,視覚的ローカライゼーションタスクにおいて,我々の手法であるRADが優れた結果が得られることが示された。
Recent advancements in keypoint detection and descriptor extraction have shown impressive performance in local feature learning tasks. However, existing methods generally exhibit suboptimal performance under extreme conditions such as significant appearance changes and domain shifts. In this study, we introduce a multi-level feature aggregation network that incorporates two pivotal components to facilitate the learning of robust and accurate features with domain adaptation. First, we employ domain adaptation supervision to align high-level feature distributions across different domains to achieve invariant domain representations. Second, we propose a Transformer-based booster that enhances descriptor robustness by integrating visual and geometric information through wave position encoding concepts, effectively handling complex conditions. To ensure the accuracy and robustness of features, we adopt a hierarchical architecture to capture comprehensive information and apply meticulous targeted supervision to keypoint detection, descriptor extraction, and their coupled processing. Extensive experiments demonstrate that our method, RADA, achieves excellent results in image matching, camera pose estimation, and visual localization tasks. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# アウトリーマーが小グループを圧倒した場合のロバスト混合学習
Robust Mixture Learning when Outliers Overwhelm Small Groups ( http://arxiv.org/abs/2407.15792v1 ) ライセンス: Link先を確認 | Daniil Dmitriev, Rares-Darius Buhai, Stefan Tiegel, Alexander Wolters, Gleb Novikov, Amartya Sanyal, David Steurer, Fanny Yang, | (参考訳) 敵が任意の外れ値を加える場合、適切に分離された混合の手段を推定する問題について検討する。
最短混合重量よりもアウトリーチ分率が著しく小さい場合、強い保証が得られますが、低ウェイトクラスタからアウトリーチが群出する場合は、はるかに少なくなります — これはリストデコッド混合学習(LD-ML)と呼ばれる設定です。
この場合、対向的なアウトリーチは追加のスプリアス混合成分をシミュレートすることができる。
したがって、混合のすべての手段が出力リストの小さなエラーまで回復しなければならない場合、リストのサイズは(真の)コンポーネントの数よりも大きくなる必要がある。
LD-MLに適用可能な唯一の既存手法であるリスト分割可能な平均推定において、最小限のオーバヘッドで各混合平均の順序-最適誤差を保証し、大幅に改善するアルゴリズムを提案する。
混合が分離されていない場合でも改善が観察されるが,本アルゴリズムは混合構造を利用してサンプルを部分的にクラスタリングし,異なるスケールでリストデコタブル平均推定を行うためのベースラーナを慎重に反復することができる。
We study the problem of estimating the means of well-separated mixtures when an adversary may add arbitrary outliers. While strong guarantees are available when the outlier fraction is significantly smaller than the minimum mixing weight, much less is known when outliers may crowd out low-weight clusters - a setting we refer to as list-decodable mixture learning (LD-ML). In this case, adversarial outliers can simulate additional spurious mixture components. Hence, if all means of the mixture must be recovered up to a small error in the output list, the list size needs to be larger than the number of (true) components. We propose an algorithm that obtains order-optimal error guarantees for each mixture mean with a minimal list-size overhead, significantly improving upon list-decodable mean estimation, the only existing method that is applicable for LD-ML. Although improvements are observed even when the mixture is non-separated, our algorithm achieves particularly strong guarantees when the mixture is separated: it can leverage the mixture structure to partially cluster the samples before carefully iterating a base learner for list-decodable mean estimation at different scales. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# CLIP - インクリメンタルラーニングのための強力なベースライン
CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning ( http://arxiv.org/abs/2407.15793v1 ) ライセンス: Link先を確認 | Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara, | (参考訳) CLIPのようなトランスフォーマーやビジョンランゲージモデル(VLM)の出現に伴い、大規模な事前学習モデルが継続的な学習シナリオのパフォーマンス向上のための一般的な戦略となっている。
これにより、破滅的な忘れを伴わずに、効果的に微調整トランスフォーマーベースのモデルを構築するための多くの急進的戦略の開発につながった。
しかし、これらの手法は、事前訓練から著しく逸脱し、ゼロショット能力を保っている領域のモデルを専門化するのに苦労する。
本稿では,VLMを適応させながら忘れを緩和する新しい手法であるインクリメンタル・プロンプト学習のための連続生成トレーニングを提案する。
また、CLベンチマーク内でゼロショット機能を評価するための新しい指標も導入する。
異なるドメインに関する広範な実験を通じて、ゼロショット能力を改善しつつ、新しいタスクに適応する上で、我々のフレームワークの有効性を実証する。
さらなる分析により,我々の手法は,ジョイント・プロンプト・チューニングによってギャップを埋めることができることが明らかとなった。
コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。
With the emergence of Transformers and Vision-Language Models (VLMs) such as CLIP, large pre-trained models have become a common strategy to enhance performance in Continual Learning scenarios. This led to the development of numerous prompting strategies to effectively fine-tune transformer-based models without succumbing to catastrophic forgetting. However, these methods struggle to specialize the model on domains significantly deviating from the pre-training and preserving its zero-shot capabilities. In this work, we propose Continual Generative training for Incremental prompt-Learning, a novel approach to mitigate forgetting while adapting a VLM, which exploits generative replay to align prompts to tasks. We also introduce a new metric to evaluate zero-shot capabilities within CL benchmarks. Through extensive experiments on different domains, we demonstrate the effectiveness of our framework in adapting to new tasks while improving zero-shot capabilities. Further analysis reveals that our approach can bridge the gap with joint prompt tuning. The codebase is available at https://github.com/aimagelab/mammoth. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 手術映像における弱教師付き物体検出とセグメンテーションのための空間的時間的知識の遠心化
Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video ( http://arxiv.org/abs/2407.15794v1 ) ライセンス: Link先を確認 | Guiqiu Liao, Matjaz Jogan, Sai Koushik, Eric Eaton, Daniel A. Hashimoto, | (参考訳) 弱教師付きビデオオブジェクトセグメンテーション(WSVOS)は、オブジェクトマスクの広範なトレーニングデータセットを必要としないセグメンテーションマップの識別を可能にし、代わりに、オブジェクトの存在を示す粗いビデオラベルに依存する。
現在の最先端の手法では、モーションキューを使用する複数の独立した処理段階を必要とするか、あるいはエンドツーエンドのトレーニング可能なネットワークの場合、セグメント化の精度が欠如している。
これにより、複数の手術ツールが視野内を頻繁に移動する手術ビデオのセマンティックアノテーションに対するWSVOSの適用が制限されるが、WSVOSでは通常遭遇するよりも難しい問題である。
本稿では,半分離型知識蒸留を用いて時空間情報を分散し,高品質なクラスアクティベーションマップ(CAM)を予測するフレームワークであるVDST-Netを提案する。
ビデオ中の物体の位置やタイミングに関する特定情報が提供されていない場合の時間的矛盾を解決するために設計された教師ネットワークは、時間的依存を活用して情報を統合する学生ネットワークで動作する。
提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60倍未満のアノテートフレームに存在するような,より困難な手術用ビデオデータセット上で有効であることを示す。
本手法は最先端技術より優れ,映像レベルの弱い監督下で優れたセグメンテーションマスクを生成する。
Weakly supervised video object segmentation (WSVOS) enables the identification of segmentation maps without requiring an extensive training dataset of object masks, relying instead on coarse video labels indicating object presence. Current state-of-the-art methods either require multiple independent stages of processing that employ motion cues or, in the case of end-to-end trainable networks, lack in segmentation accuracy, in part due to the difficulty of learning segmentation maps from videos with transient object presence. This limits the application of WSVOS for semantic annotation of surgical videos where multiple surgical tools frequently move in and out of the field of view, a problem that is more difficult than typically encountered in WSVOS. This paper introduces Video Spatio-Temporal Disentanglement Networks (VDST-Net), a framework to disentangle spatiotemporal information using semi-decoupled knowledge distillation to predict high-quality class activation maps (CAMs). A teacher network designed to resolve temporal conflicts when specifics about object location and timing in the video are not provided works with a student network that integrates information over time by leveraging temporal dependencies. We demonstrate the efficacy of our framework on a public reference dataset and on a more challenging surgical video dataset where objects are, on average, present in less than 60\% of annotated frames. Our method outperforms state-of-the-art techniques and generates superior segmentation masks under video-level weak supervision. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# AdaCLIP: ゼロショット異常検出のためのハイブリッド学習型プロンプトによるCLIP適応
AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection ( http://arxiv.org/abs/2407.15795v1 ) ライセンス: Link先を確認 | Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi, | (参考訳) ゼロショット異常検出(ZSAD)は、任意の新しいカテゴリから画像内の異常を識別することを目的としている。
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
静的と動的の2種類の学習可能なプロンプトが提案されている。
静的プロンプトはすべての画像間で共有され、ZSADにCLIPをプリミティブに適応させるのに役立つ。
対照的に、テストイメージ毎に動的プロンプトが生成され、動的適応機能を備えたCLIPが提供される。
静的プロンプトと動的プロンプトの組み合わせはハイブリッドプロンプトと呼ばれ、ZSAD性能が向上する。
AdaCLIPは他のZSAD法よりも優れており、異なるカテゴリやドメインに最適化できることを示している。
最後に,多種多様な補助データの重要性と,一般化能力の向上のために最適化されたプロンプトに注目した。
コードはhttps://github.com/caoyunkang/AdaCLIPで入手できる。
Zero-shot anomaly detection (ZSAD) targets the identification of anomalies within images from arbitrary novel categories. This study introduces AdaCLIP for the ZSAD task, leveraging a pre-trained vision-language model (VLM), CLIP. AdaCLIP incorporates learnable prompts into CLIP and optimizes them through training on auxiliary annotated anomaly detection data. Two types of learnable prompts are proposed: static and dynamic. Static prompts are shared across all images, serving to preliminarily adapt CLIP for ZSAD. In contrast, dynamic prompts are generated for each test image, providing CLIP with dynamic adaptation capabilities. The combination of static and dynamic prompts is referred to as hybrid prompts, and yields enhanced ZSAD performance. Extensive experiments conducted across 14 real-world anomaly detection datasets from industrial and medical domains indicate that AdaCLIP outperforms other ZSAD methods and can generalize better to different categories and even domains. Finally, our analysis highlights the importance of diverse auxiliary data and optimized prompts for enhanced generalization capacity. Code is available at https://github.com/caoyunkang/AdaCLIP. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# MILAN: ライダーセマンティックセグメンテーションのためのミリアノテーション
MILAN: Milli-Annotations for Lidar Semantic Segmentation ( http://arxiv.org/abs/2407.15797v1 ) ライセンス: Link先を確認 | Nermin Samet, Gilles Puy, Oriane Siméoni, Renaud Marlet, | (参考訳) 自動運転のための注釈付きライダーポイントクラウドは、高価で時間を要するタスクとして悪名高い。
本研究では,近年の自己教師付きライダースキャン表現の品質が,アノテーションのコストを大幅に削減できることを示す。
私たちの方法には2つの主要なステップがあります。
まず、自己教師付き表現により、高度に情報的なライダースキャンの簡易かつ直接的な選択が可能であることを示し、これらのスキャン上でネットワークをトレーニングすると、ランダムなスキャンの選択よりもはるかに優れた結果が得られ、より興味深いことに、SOTAのアクティブな学習手法による選択と同等の結果が得られる。
第2のステップでは、同じ自己教師付き表現を、選択したスキャンのクラスタポイントに利用します。
各クラスタをひとつのクリックで分類するようにアノテータに指示すると、完全にアノテートされたトレーニングセットでギャップを埋めることができ、ポイントラベルの1000分の1しか必要としません。
Annotating lidar point clouds for autonomous driving is a notoriously expensive and time-consuming task. In this work, we show that the quality of recent self-supervised lidar scan representations allows a great reduction of the annotation cost. Our method has two main steps. First, we show that self-supervised representations allow a simple and direct selection of highly informative lidar scans to annotate: training a network on these selected scans leads to much better results than a random selection of scans and, more interestingly, to results on par with selections made by SOTA active learning methods. In a second step, we leverage the same self-supervised representations to cluster points in our selected scans. Asking the annotator to classify each cluster, with a single click per cluster, then permits us to close the gap with fully-annotated training sets, while only requiring one thousandth of the point labels. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# ロバストな顔反応生成: モダリティ補償を伴う感情認識フレームワーク
Robust Facial Reactions Generation: An Emotion-Aware Framework with Modality Compensation ( http://arxiv.org/abs/2407.15798v1 ) ライセンス: Link先を確認 | Guanyu Hu, Jie Wei, Siyang Song, Dimitrios Kollias, Xinyu Yang, Zhonglin Sun, Odysseus Kaloidas, | (参考訳) マルチ適切な顔反応生成(MAFRG)タスクの目的は、会話相手(話者)のマルチモーダル行動データに基づいて、文脈的に適切で多様な顔行動応答を生成することである。
現在の手法では、通常、音声と顔のモダリティデータの連続的な可用性を前提としており、これらのデータが断続的に利用できない現実のシナリオを無視し、しばしばモデル障害を引き起こす。
さらに、高度なディープラーニングモデルを用いて話者のマルチモーダル入力から情報を抽出するにも拘わらず、これらのモデルは、人間の聞き手から適切な表情反応を引き出すのに不可欠である、話者の感情的文脈を適切に活用することができない。
これらの制約に対処するため,感情対応型モダリティ補償(EMC)フレームワークを提案する。
この汎用的なソリューションは、既存のモデルにシームレスに統合することができ、利点を保ちながら、モダリティの欠如のあるシナリオのパフォーマンスと堅牢性を大幅に向上させることができる。
我々のフレームワークは、補償モダリティアライメント(CMA)モジュールを介して、欠落したモダリティデータに直面するときのレジリエンスを保証する。
また、Emotion-Aware Attention (EA)モジュールを通じて、より適切な感情認識反応を生成する。
実験結果から,本フレームワークは,従来のモデル構造と比較して,平均57.2倍の精度でFRCorrの適合性を向上させることが示された。
音声モダリティデータが欠落しているシナリオでは、適切な生成のパフォーマンスが向上し、顔データが欠落している場合には、最小限の劣化しか示さない。
The objective of the Multiple Appropriate Facial Reaction Generation (MAFRG) task is to produce contextually appropriate and diverse listener facial behavioural responses based on the multimodal behavioural data of the conversational partner (i.e., the speaker). Current methodologies typically assume continuous availability of speech and facial modality data, neglecting real-world scenarios where these data may be intermittently unavailable, which often results in model failures. Furthermore, despite utilising advanced deep learning models to extract information from the speaker's multimodal inputs, these models fail to adequately leverage the speaker's emotional context, which is vital for eliciting appropriate facial reactions from human listeners. To address these limitations, we propose an Emotion-aware Modality Compensatory (EMC) framework. This versatile solution can be seamlessly integrated into existing models, thereby preserving their advantages while significantly enhancing performance and robustness in scenarios with missing modalities. Our framework ensures resilience when faced with missing modality data through the Compensatory Modality Alignment (CMA) module. It also generates more appropriate emotion-aware reactions via the Emotion-aware Attention (EA) module, which incorporates the speaker's emotional information throughout the entire encoding and decoding process. Experimental results demonstrate that our framework improves the appropriateness metric FRCorr by an average of 57.2\% compared to the original model structure. In scenarios where speech modality data is missing, the performance of appropriate generation shows an improvement, and when facial data is missing, it only exhibits minimal degradation. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 教師なし磁気共鳴画像復調のためのアンバイアス型リスク推定器の適応的拡張
Adaptive Extensions of Unbiased Risk Estimators for Unsupervised Magnetic Resonance Image Denoising ( http://arxiv.org/abs/2407.15799v1 ) ライセンス: Link先を確認 | Reeshad Khan, Dr. John Gauch, Dr. Ukash Nakarmi, | (参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)のイメージデノナイジングへの応用は、特に医療画像で発生する複雑なノイズシナリオにおいて、従来のデノナイジング手法に特に挑戦している。
従来のDNN法やいくつかのDNN法の有効性にもかかわらず、高品質でノイズのない地上の真理画像に依存しているため、実用性は制限される。
これに対応して、我々は、医学画像フレームワークにおける革新的な教師なし学習戦略、特にStein's Unbiased Risk Estimator(SURE)、その拡張(eSURE)、および新しい実装であるExtended Poisson Unbiased Risk Estimator(ePURE)を紹介し、ベンチマークを行った。
本稿では,医療画像の典型的なシナリオであるガウスノイズとポアソンノイズが伴うMRIデータに対して,これらの手法を総合的に評価する。
我々の主な貢献は、SURE、eSURE、特に医療画像のためのePUREフレームワークの効果的適応と実装であり、従来のノイズのない地上真実が得られない環境において、その堅牢性と有効性を示している。
The application of Deep Neural Networks (DNNs) to image denoising has notably challenged traditional denoising methods, particularly within complex noise scenarios prevalent in medical imaging. Despite the effectiveness of traditional and some DNN-based methods, their reliance on high-quality, noiseless ground truth images limits their practical utility. In response to this, our work introduces and benchmarks innovative unsupervised learning strategies, notably Stein's Unbiased Risk Estimator (SURE), its extension (eSURE), and our novel implementation, the Extended Poisson Unbiased Risk Estimator (ePURE), within medical imaging frameworks. This paper presents a comprehensive evaluation of these methods on MRI data afflicted with Gaussian and Poisson noise types, a scenario typical in medical imaging but challenging for most denoising algorithms. Our main contribution lies in the effective adaptation and implementation of the SURE, eSURE, and particularly the ePURE frameworks for medical images, showcasing their robustness and efficacy in environments where traditional noiseless ground truth cannot be obtained. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# 大量カスタマイズ生産の促進:スマート産業におけるフローショップ生産のための多目的メタヒューリスティックアルゴリズム
Enhancing Mass Customization Manufacturing: Multiobjective Metaheuristic Algorithms for flow shop Production in Smart Industry ( http://arxiv.org/abs/2407.15802v1 ) ライセンス: Link先を確認 | Diego Rossit, Daniel Rossit, Sergio Nesmachnow, | (参考訳) 大規模生産産業の現在の状況は、新たな顧客トレンドと新しいスマート製造技術によって引き起こされる大きな変革を経験している。
このような変更の1つは、大規模生産プロセスによるコスト効率の確保を保ちながら、製品が個々の顧客仕様に合わせて調整されるような、大量カスタマイズの実施を義務付けることである。
これらの変化は、業界の様々な面に大きな影響を与える可能性がある。
本研究は,工場生産計画における必要な適応に焦点を当てたものである。
具体的には,フェースパン,重み付けされた全重み付け,総完成時間という,異なる最適化目標を考慮し,フローホップに対処する効率的な進化的アルゴリズムを提案する。
幅広い計算実験は、様々な仕事、オペレーション、行方不明なオペレーションの確率を含む、様々な現実的なインスタンスで実施されている。
提案手法の競合性を実証し,この問題に対処する最も適切な進化的アルゴリズムの同定を可能にする。
さらに,最適化目標に対する動作不足の確率の影響についても論じる。
The current landscape of massive production industries is undergoing significant transformations driven by emerging customer trends and new smart manufacturing technologies. One such change is the imperative to implement mass customization, wherein products are tailored to individual customer specifications while still ensuring cost efficiency through large-scale production processes. These shifts can profoundly impact various facets of the industry. This study focuses on the necessary adaptations in shop-floor production planning. Specifically, it proposes the use of efficient evolutionary algorithms to tackle the flowshop with missing operations, considering different optimization objectives: makespan, weighted total tardiness, and total completion time. An extensive computational experimentation is conducted across a range of realistic instances, encompassing varying numbers of jobs, operations, and probabilities of missing operations. The findings demonstrate the competitiveness of the proposed approach and enable the identification of the most suitable evolutionary algorithms for addressing this problem. Additionally, the impact of the probability of missing operations on optimization objectives is discussed. | 翻訳日:2024-07-23 14:00:56 公開日:2024-07-22 |
# タスクグラフの実行が可能なシンプルで高速なC++スレッドプール実装
A simple and fast C++ thread pool implementation capable of running task graphs ( http://arxiv.org/abs/2407.15805v1 ) ライセンス: Link先を確認 | Dmytro Puyda, | (参考訳) 本稿では,タスクグラフの実行が可能な単純かつ高速なC++スレッドプールの実装を提案する。
実装はGitHubで公開されており、https://github.com/dpuyda/scheduling.comを参照してほしい。
In this paper, the author presents a simple and fast C++ thread pool implementation capable of running task graphs. The implementation is publicly available on GitHub, see https://github.com/dpuyda/scheduling. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# FSboard:スマートフォンで収集された300万文字以上のASLフィンガースペル
FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones ( http://arxiv.org/abs/2407.15806v1 ) ライセンス: Link先を確認 | Manfred Georg, Garrett Tanzer, Saad Hassan, Maximus Shengelia, Esha Uboweja, Sam Sepah, Sean Forbes, Thad Starner, | (参考訳) 手話の機械理解の進歩は、限られたデータによって遅く、妨げられている。
本稿では,携帯電話のテキスト入力ユースケースに存在する米手話指スペルデータセットであるFSboardについて,Pixel 4Aの自撮りカメラを用いて147件の支払いとDeafシグナーの同意を得た。
フィンガースペル認識は手話翻訳のごく一部に過ぎない不完全解であるが、より広範な技術開発が進むにつれて、Deaf/Hard of Hearingシグナーにすぐに利益をもたらす可能性がある。
FSboardは長さ300万文字、持続時間250時間で、これまでで最大10倍の速度で指で文字を認識できるデータセットである。
単純なベースラインとして、30HzのMediaPipeのホロスティックなランドマークをByT5-Smallに微調整し、ユニークなフレーズとシグナを持つテストセットで11.1%の文字誤り率(CER)を達成する。
この品質は、フレームレートを減らし、顔やボディのランドマークを除いたときに優雅に低下します。
Progress in machine understanding of sign languages has been slow and hampered by limited data. In this paper, we present FSboard, an American Sign Language fingerspelling dataset situated in a mobile text entry use case, collected from 147 paid and consenting Deaf signers using Pixel 4A selfie cameras in a variety of environments. Fingerspelling recognition is an incomplete solution that is only one small part of sign language translation, but it could provide some immediate benefit to Deaf/Hard of Hearing signers as more broadly capable technology develops. At >3 million characters in length and >250 hours in duration, FSboard is the largest fingerspelling recognition dataset to date by a factor of >10x. As a simple baseline, we finetune 30 Hz MediaPipe Holistic landmark inputs into ByT5-Small and achieve 11.1% Character Error Rate (CER) on a test set with unique phrases and signers. This quality degrades gracefully when decreasing frame rate and excluding face/body landmarks: plausible optimizations to help models run on device in real time. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# 熱伝導率に及ぼすフォノン散乱効果の量子計算
Quantum Computing for Phonon Scattering Effects on Thermal Conductivity ( http://arxiv.org/abs/2407.15808v1 ) ライセンス: Link先を確認 | Xiangjun Tan, | (参考訳) 近年の研究では、複数のフォノン散乱過程が材料の熱伝導率に大きく影響を与え、フォノンモードの複雑さがエスカレートするにつれて、古典的なシミュレーションにおいて重要な計算課題が生じることが示されている。
本研究では,これらの課題に対処するための量子シミュレーションの可能性について検討し,ノイズ中間スケール量子時代(NISQ)量子計算能力と熱伝導率計算を最適化するための量子誤差緩和技術を用いて検討した。
変分量子固有解法(VQE)アルゴリズムを用いて,ボルツマン輸送方程式(BTE)に基づくフォノン-フォノンの寄与をシミュレートする。
提案手法では,マルチフォノン散乱系をフェミオンスピン演算子にマッピングし,回路精度と深さのバランスをとるために,カスタマイズアンザッツを作成する必要がある。
ボソニック作用素を用いてフォック空間内にシステムを構築し、量子計算に適したパウリ作用素の和に変換する。
非単体ノイズ効果の影響に対処することにより、ノイズの影響をベンチマークし、エラー軽減戦略を実装し、NISQ時代の量子シミュレーションのより効率的なモデルを開発する。
Recent investigations have demonstrated that multi-phonon scattering processes substantially influence the thermal conductivity of materials, posing significant computational challenges for classical simulations as the complexity of phonon modes escalates. This study examines the potential of quantum simulations to address these challenges, utilizing Noisy Intermediate Scale Quantum era (NISQ) quantum computational capabilities and quantum error mitigation techniques to optimize thermal conductivity calculations. Employing the Variational Quantum Eigensolver (VQE) algorithm, we simulate phonon-phonon contributions based on the Boltzmann Transport Equation (BTE). Our methodology involves mapping multi-phonon scattering systems to fermionic spin operators, necessitating the creation of a customized ansatz to balance circuit accuracy and depth. We construct the system within Fock space using bosonic operators and transform the Hamiltonian into the sum of Pauli operators suitable for quantum computation. By addressing the impact of non-unitary noise effects, we benchmark the noise influence and implement error mitigation strategies to develop a more efficient model for quantum simulations in the NISQ era. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# グローバル・ノースステレオタイプを打破する: 顔認識システムにおけるバイアスの監査と軽減のためのグローバル・サウス中心ベンチマークデータセット
Breaking the Global North Stereotype: A Global South-centric Benchmark Dataset for Auditing and Mitigating Biases in Facial Recognition Systems ( http://arxiv.org/abs/2407.15810v1 ) ライセンス: Link先を確認 | Siddharth D Jaiswal, Animesh Ganai, Abhisek Dash, Saptarshi Ghosh, Animesh Mukherjee, | (参考訳) 顔認識システム(FRS)は、前例のない速度で世界中で開発・展開されている。
ほとんどのプラットフォームは限られた国で設計されているが、適切なチェックポイントなしで世界中で展開されている。
これは、これらのシステムの異なるパフォーマンスに直面している人々を保護するための強力な法律が欠如しているグローバル・サウス諸国にとって特に問題となる。
データセットの可用性の欠如、FRS機能の理解の欠如、低リソースバイアス緩和対策の組み合わせによって、この問題は強調される。
本研究では,世界8カ国の男性6,579人,女性6,579人からなる顔データセットを提案する。
データセットの50%以上がグローバル・サウス諸国の個人であり、人口統計学的に多様である。
敵対的監査と堅牢なモデルトレーニングを支援するため、各画像は4つの敵的変種を持ち、合計4万枚以上の画像がある。
また、性別予測(レッドチーム化の例として、オープンソースモデルの1つに対する国別予測)のタスクのために、商用およびオープンソースの両方で人気のある5つのFRSをベンチマークします。
工業用FRSの実験では98.2%から38.1%の範囲で、男性と女性の間には大きな差異がある(最大差38.5%)。
また、グローバル・ノースとサウス(最大50%の差)のすべてのFRSでもビアーゼが観察されている。
Grad-CAM分析は、鼻、額、口をオープンソースFRSの1つの領域として同定する。
この知見を生かして, 男女の差異を50%から1.5%に減らし, 精度を著しく向上させ, 少ないショットと新しいコントラスト学習技術を用いて, 簡便で低リソースなバイアス軽減ソリューションを設計した。
オープンソースのDeepfaceモデルによるレッドチーム実験では、コントラスト学習は単純な微調整よりも効果的であることが証明されている。
Facial Recognition Systems (FRSs) are being developed and deployed globally at unprecedented rates. Most platforms are designed in a limited set of countries but deployed in worldwide, without adequate checkpoints. This is especially problematic for Global South countries which lack strong legislation to safeguard persons facing disparate performance of these systems. A combination of unavailability of datasets, lack of understanding of FRS functionality and low-resource bias mitigation measures accentuate the problem. In this work, we propose a new face dataset composed of 6,579 unique male and female sportspersons from eight countries around the world. More than 50% of the dataset comprises individuals from the Global South countries and is demographically diverse. To aid adversarial audits and robust model training, each image has four adversarial variants, totaling over 40,000 images. We also benchmark five popular FRSs, both commercial and open-source, for the task of gender prediction (and country prediction for one of the open-source models as an example of red-teaming). Experiments on industrial FRSs reveal accuracies ranging from 98.2%--38.1%, with a large disparity between males and females in the Global South (max difference of 38.5%). Biases are also observed in all FRSs between females of the Global North and South (max difference of ~50%). Grad-CAM analysis identifies the nose, forehead and mouth as the regions of interest on one of the open-source FRSs. Utilizing this insight, we design simple, low-resource bias mitigation solutions using few-shot and novel contrastive learning techniques significantly improving the accuracy with disparity between males and females reducing from 50% to 1.5% in one of the settings. In the red-teaming experiment with the open-source Deepface model, contrastive learning proves more effective than simple fine-tuning. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# 各ドラーのストレッチング:マイクロ予算によるスクラッチからの拡散訓練
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget ( http://arxiv.org/abs/2407.15811v1 ) ライセンス: Link先を確認 | Vikash Sehwag, Xianghao Kong, Jingtao Li, Michael Spranger, Lingjuan Lyu, | (参考訳) 生成的AIにおける法則のスケーリングによってパフォーマンスが向上すると同時に、大きな計算資源を持つアクター間でこれらのモデルの開発を同時に集中させる。
テキスト・トゥ・イメージ(T2I)生成モデルに着目し,大規模T2I拡散変圧器モデルの低コストな訓練を実証することにより,このボトルネックに対処することを目指している。
変換器の計算コストが各画像のパッチ数とともに増加するにつれて、トレーニング中の画像パッチの75%をランダムにマスクすることを提案する。
マスク前にパッチミキサーを用いて全パッチを前処理する遅延マスキング手法を提案する。
また, マイクロ予算トレーニングにおいて, 合成画像を使用することによる重要な利点を明らかにするため, 実験層を混在させることなど, トランスフォーマーアーキテクチャの最新の改良も取り入れた。
最後に、利用可能な実画像と合成画像の3700万枚しか使用せず、1,890ドルの経済的コストで16億個のパラメータスパーストランスフォーマーをトレーニングし、COCOデータセット上でゼロショット生成で12.7 FIDを達成する。
特に、我々のモデルは、安定拡散モデルよりも118$\times$安いコストと、28,400ドルという現在の最先端アプローチよりも14$\times$低いコストを発生させながら、競争力のあるFIDと高品質な世代を達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
As scaling laws in generative AI push performance, they also simultaneously concentrate the development of these models among actors with large computational resources. With a focus on text-to-image (T2I) generative models, we aim to address this bottleneck by demonstrating very low-cost training of large-scale T2I diffusion transformer models. As the computational cost of transformers increases with the number of patches in each image, we propose to randomly mask up to 75% of the image patches during training. We propose a deferred masking strategy that preprocesses all patches using a patch-mixer before masking, thus significantly reducing the performance degradation with masking, making it superior to model downscaling in reducing computational cost. We also incorporate the latest improvements in transformer architecture, such as the use of mixture-of-experts layers, to improve performance and further identify the critical benefit of using synthetic images in micro-budget training. Finally, using only 37M publicly available real and synthetic images, we train a 1.16 billion parameter sparse transformer with only \$1,890 economical cost and achieve a 12.7 FID in zero-shot generation on the COCO dataset. Notably, our model achieves competitive FID and high-quality generations while incurring 118$\times$ lower cost than stable diffusion models and 14$\times$ lower cost than the current state-of-the-art approach that costs \$28,400. We aim to release our end-to-end training pipeline to further democratize the training of large-scale diffusion models on micro-budgets. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# Stern-Gerlach干渉法とスピンコントラストにおけるナノ粒子の光学的安定性
Gyroscopic stability for nanoparticles in Stern-Gerlach Interferometry and spin contrast ( http://arxiv.org/abs/2407.15813v1 ) ライセンス: Link先を確認 | Tian Zhou, Sougato Bose, Anupam Mazumdar, | (参考訳) ナノ粒子によるマクロな空間量子スーパーポジションの作成には、量子力学の基礎のテスト、重力波を検出する物質波干渉計、電磁真空の検出、ダークマター検出、量子センサーの探索、実験室での重力の量子的性質のテストなど、さまざまな応用がある。
本稿では, 物質波干渉計における回転の役割について検討し, ナノダイアモンドの窒素空孔中心にあるような欠陥の方向に沿った角運動量を与えると, 10-14}-10^{-17}$ Kgナノダイアモンドの質量に対して eg 10^{3}-10^{6}$~Hz の広い角度の運動量に対してスピンコントラストが増大することを示した。
さらに、付与された角運動量により、ほぼ2倍の係数で空間重畳が促進され、ナノダイアモンド中の潜在的な永久双極子を平均化することができる。
Creating macroscopic spatial quantum superposition with a nanoparticle has a multitude of applications, ranging from testing the foundations of quantum mechanics, matter-wave interferometer for detecting gravitational waves and probing the electromagnetic vacuum, dark matter detection and quantum sensors to testing the quantum nature of gravity in a lab. In this paper, we investigate the role of rotation in a matter-wave interferometer, where we show that imparting angular momentum along the direction of a defect, such as one present in the nitrogen-vacancy centre of a nanodiamond can cause an enhancement in spin contrast for a wide-ranging value of the angular momentum, e.g. $10^{3}-10^{6}$~Hz for a mass of order $10^{-14}-10^{-17}$ Kg nanodiamond. Furthermore, the imparted angular momentum can enhance the spatial superposition by almost a factor of two and possibly average out any potential permanent dipoles in the nanodiamond. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# 言語モデルと人間による言語不確かさの知覚
Perceptions of Linguistic Uncertainty by Language Models and Humans ( http://arxiv.org/abs/2407.15814v1 ) ライセンス: Link先を確認 | Catarina G Belem, Markelle Kelly, Mark Steyvers, Sameer Singh, Padhraic Smyth, | (参考訳) ``probably' や ``highly unlikely'' のような不確実性表現は、人間の言語で広く普及している。
従来の研究では、人間がこれらの表現をどのように解釈するかという点では、集団レベルでの合意が確立されているが、そのような表現を解釈する言語モデルの能力についてはほとんど調査されていない。
本稿では,言語モデルが不確実性の言語表現を数値応答にどうマッピングするかを検討する。
我々のアプローチは、言語モデルがこの設定で心の理論を適用できるかどうかを評価する: ある特定の文について他のエージェントの不確実性を理解すること。
我々は,これらの能力を評価するために作成した課題に対して,人間と10のポピュラー言語モデルを評価した。
予想外の結果,10モデル中8モデルでは,不確実性表現を確率的応答に人間的な方法でマッピングできることが判明した。
しかし、文が実際に真であるか偽であるかによって、系統的に異なる振る舞いを観察する。
この感度は、言語モデルが(人間と比較して)以前の知識に基づいてバイアスの影響を受けやすいことを示している。
これらの発見は重要な疑問を提起し、人間-AIアライメントとAI-AIコミュニケーションに幅広い影響を及ぼす。
Uncertainty expressions such as ``probably'' or ``highly unlikely'' are pervasive in human language. While prior work has established that there is population-level agreement in terms of how humans interpret these expressions, there has been little inquiry into the abilities of language models to interpret such expressions. In this paper, we investigate how language models map linguistic expressions of uncertainty to numerical responses. Our approach assesses whether language models can employ theory of mind in this setting: understanding the uncertainty of another agent about a particular statement, independently of the model's own certainty about that statement. We evaluate both humans and 10 popular language models on a task created to assess these abilities. Unexpectedly, we find that 8 out of 10 models are able to map uncertainty expressions to probabilistic responses in a human-like manner. However, we observe systematically different behavior depending on whether a statement is actually true or false. This sensitivity indicates that language models are substantially more susceptible to bias based on their prior knowledge (as compared to humans). These findings raise important questions and have broad implications for human-AI alignment and AI-AI communication. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# あらゆる場所を操作するための学習:強化学習のための視覚的一般化可能なフレームワーク
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning ( http://arxiv.org/abs/2407.15815v1 ) ライセンス: Link先を確認 | Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu, | (参考訳) 多様なオープンワールドシナリオで動作するための一般化機能を備えたビジュモータロボットを開発できるだろうか?
本稿では,視覚的強化学習に適した一般化可能なフレームワークである「textbf{Maniwhere}」を提案する。
具体的には,Spatial Transformer Network (STN) モジュールと融合した多視点表現学習手法を提案する。
さらに、カリキュラムベースのランダム化と拡張手法を用いて、RLトレーニングプロセスの安定化と視覚一般化能力の向上を図る。
Maniwhereの有効性を示すために、3つのハードウェアプラットフォームにまたがる強力な視覚的一般化とsim2realトランスファー能力を示すために、明瞭なオブジェクト、バイマニュアル、デクスタスな手操作タスクを含む8つのタスクを慎重に設計した。
実験の結果,Maniwhereは既存の最先端手法を著しく上回っていることがわかった。
ビデオはhttps://gemcollector.github.io/maniwhere/で公開されている。
Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose \textbf{Maniwhere}, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# H&E全スライド画像を用いた複数癌コホートにおける分子量変化の効率的かつ一般化可能な予測
Efficient and generalizable prediction of molecular alterations in multiple cancer cohorts using H&E whole slide images ( http://arxiv.org/abs/2407.15816v1 ) ライセンス: Link先を確認 | Kshitij Ingale, Sun Hae Hong, Qiyuan Hu, Renyu Zhang, Bo Osinski, Mina Khoshdeli, Josh Och, Kunal Nagpal, Martin C. Stumpe, Rohan P. Joshi, | (参考訳) 標的となるバイオマーカーの腫瘍サンプルの分子検査は、標準化の欠如、ターンアラウンドタイム、コスト、がんの種類による組織利用率の低下によって制限されている。
さらに、通常のワークフローでは、低頻度のターゲット可能な変更はテストされない。
正常に生成されたヘマトキシリンとエオシン(H&E)の染色された画像からDNAの変化を予測するアルゴリズムは、確認された分子検査のためのサンプルを優先順位付けすることができる。
突然変異を含む多数のサンプルのコストと必要性は、それぞれの変更に対して個々のアルゴリズムを訓練するアプローチを制限する。
この研究では、マルチタスクアプローチを用いて、H&E画像から複数のDNA変化を同時に予測するモデルを訓練した。
バイオマーカー特異的モデルと比較して、このアプローチは平均的に改善され、稀な突然変異に対して顕著な利得が得られた。
モデルは、独立時間保持、外部安定、マルチサイトTCGAテストセットに合理的に一般化された。
さらに、マルチタスクモデルを用いたスライド画像の埋め込みは、トレーニングの一部ではない下流タスクにおいて、強い性能を示した。
全体として、これは単一のスライドから複数の実行可能な予測を提供する、臨床的に有用なアルゴリズムを開発するための有望なアプローチである。
Molecular testing of tumor samples for targetable biomarkers is restricted by a lack of standardization, turnaround-time, cost, and tissue availability across cancer types. Additionally, targetable alterations of low prevalence may not be tested in routine workflows. Algorithms that predict DNA alterations from routinely generated hematoxylin and eosin (H&E)-stained images could prioritize samples for confirmatory molecular testing. Costs and the necessity of a large number of samples containing mutations limit approaches that train individual algorithms for each alteration. In this work, models were trained for simultaneous prediction of multiple DNA alterations from H&E images using a multi-task approach. Compared to biomarker-specific models, this approach performed better on average, with pronounced gains for rare mutations. The models reasonably generalized to independent temporal-holdout, externally-stained, and multi-site TCGA test sets. Additionally, whole slide image embeddings derived using multi-task models demonstrated strong performance in downstream tasks that were not a part of training. Overall, this is a promising approach to develop clinically useful algorithms that provide multiple actionable predictions from a single slide. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# 深部輪郭閉鎖演算子を用いた走査型電子顕微鏡画像におけるセルインスタンスセグメンテーションの促進
Enhancing Cell Instance Segmentation in Scanning Electron Microscopy Images via a Deep Contour Closing Operator ( http://arxiv.org/abs/2407.15817v1 ) ライセンス: Link先を確認 | Florian Robert, Alexia Calovoulos, Laurent Facq, Fanny Decoeur, Etienne Gontier, Christophe F. Grosset, Baudouin Denis de Senneville, | (参考訳) SEM画像中の正確なセグメンテーションと個別化は、腫瘍学における組織構造を解明するための非常に有望な技術である。
現在のAIベースの手法は有効であるが、エラーは持続し、特に画像中のセルの輪郭の質が悪く、ギャップを埋める必要がある領域において、時間を要する手動修正が必要になる。
本研究では,SEM画像のインスタンスベースセルセグメンテーションを改善するために,新たなAIによる境界線修正手法を提案する。
CNN COp-Netは、細胞輪郭のギャップに対処するために導入され、不十分な情報や欠落した情報のある領域で効果的に満たされる。
ネットワークは、入力セルの輪郭確率マップとして、潜在的に不十分または欠落した情報を取り込み、修正セルの輪郭デラインを出力する。
トレーニングデータの欠如は、カスタマイズされたPDEを用いて、低整合性確率マップを生成することで対処された。
PDX肝芽腫組織からのプライベートSEM画像と公開画像データセットの両方を用いて,細胞境界の精度を高めるためのアプローチの有効性を示した。
提案したセル輪郭閉鎖演算子は、テストデータセットにおいて顕著な改善を示し、それぞれ50%(プライベートデータ)と10%(パブリックデータ)の精度向上を実現している。
さらに、手動修正の必要性が大幅に低減され、全体的なデジタル化プロセスが促進された。
画像品質がセル境界の整合性を損なう極めて困難な領域では, セルインスタンスのセグメンテーションの精度が顕著に向上し, ギャップを埋める必要が生じた。
そこで本研究は,腫瘍組織における生体組織構造の研究を促進することを目的としている。
Accurately segmenting and individualizing cells in SEM images is a highly promising technique for elucidating tissue architecture in oncology. While current AI-based methods are effective, errors persist, necessitating time-consuming manual corrections, particularly in areas where the quality of cell contours in the image is poor and requires gap filling. This study presents a novel AI-driven approach for refining cell boundary delineation to improve instance-based cell segmentation in SEM images, also reducing the necessity for residual manual correction. A CNN COp-Net is introduced to address gaps in cell contours, effectively filling in regions with deficient or absent information. The network takes as input cell contour probability maps with potentially inadequate or missing information and outputs corrected cell contour delineations. The lack of training data was addressed by generating low integrity probability maps using a tailored PDE. We showcase the efficacy of our approach in augmenting cell boundary precision using both private SEM images from PDX hepatoblastoma tissues and publicly accessible images datasets. The proposed cell contour closing operator exhibits a notable improvement in tested datasets, achieving respectively close to 50% (private data) and 10% (public data) increase in the accurately-delineated cell proportion compared to state-of-the-art methods. Additionally, the need for manual corrections was significantly reduced, therefore facilitating the overall digitalization process. Our results demonstrate a notable enhancement in the accuracy of cell instance segmentation, particularly in highly challenging regions where image quality compromises the integrity of cell boundaries, necessitating gap filling. Therefore, our work should ultimately facilitate the study of tumour tissue bioarchitecture in onconanotomy field. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# 視線の連鎖によるマルチモーダルLDMの事前学習の高速化
Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight ( http://arxiv.org/abs/2407.15819v1 ) ライセンス: Link先を確認 | Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang, | (参考訳) 本稿では,MLLM(Multimodal Large Language Models)の事前学習を高速化する視覚言語ブリッジモジュールであるChain-of-Sightを紹介する。
提案手法では,様々な空間スケールで視覚的詳細をキャプチャする視覚的リサンプラーを用いている。
このアーキテクチャは、グローバルおよびローカルな視覚的コンテキストを効果的に活用するだけでなく、複合トークンスケーリング戦略を通じて視覚的トークンの柔軟な拡張を促進する。
その結果、視力の連鎖は、微調整フェーズと比較して、事前学習フェーズにおける視覚トークンを著しく少なくする。
この事前トレーニング中の視覚トークンの意図的な削減は、特に事前トレーニングプロセスを加速させ、ウォールタイムのトレーニング時間を約73%短縮する。
一連の視覚言語ベンチマークによる実証的な結果から、Chain-of-Sightによる事前トレーニングの加速は、トレーニングプロセス全体を通して、すべての視覚トークンを活用するための標準的なパイプラインにマッチまたは超えることなく、パフォーマンスを犠牲にすることなく達成されることが明らかになった。
さらに、事前トレーニングのためのビジュアルトークンの数をスケールアップすると、パフォーマンスが向上し、一連のベンチマークで既存のアプローチと競合するようになる。
This paper introduces Chain-of-Sight, a vision-language bridge module that accelerates the pre-training of Multimodal Large Language Models (MLLMs). Our approach employs a sequence of visual resamplers that capture visual details at various spacial scales. This architecture not only leverages global and local visual contexts effectively, but also facilitates the flexible extension of visual tokens through a compound token scaling strategy, allowing up to a 16x increase in the token count post pre-training. Consequently, Chain-of-Sight requires significantly fewer visual tokens in the pre-training phase compared to the fine-tuning phase. This intentional reduction of visual tokens during pre-training notably accelerates the pre-training process, cutting down the wall-clock training time by ~73%. Empirical results on a series of vision-language benchmarks reveal that the pre-train acceleration through Chain-of-Sight is achieved without sacrificing performance, matching or surpassing the standard pipeline of utilizing all visual tokens throughout the entire training process. Further scaling up the number of visual tokens for pre-training leads to stronger performances, competitive to existing approaches in a series of benchmarks. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# 部分観測可能性下における浅層計画について
On shallow planning under partial observability ( http://arxiv.org/abs/2407.15820v1 ) ライセンス: Link先を確認 | Randy Lefebvre, Audrey Durand, | (参考訳) 強化学習フレームワーク(Reinforcement Learning framework)の下で現実の問題を定式化するには、エージェントの計画的地平を明示する学習目的(計算累積報酬)の割引係数を選択するなど、非自明な設計選択が必要となる。
本研究は,マルコフ決定過程の構造パラメータの偏差トレードオフに対する割引係数の影響について検討する。
この結果は,特に部分観測可能性の下では,より短い計画的地平が有用である可能性が示唆された。
Formulating a real-world problem under the Reinforcement Learning framework involves non-trivial design choices, such as selecting a discount factor for the learning objective (discounted cumulative rewards), which articulates the planning horizon of the agent. This work investigates the impact of the discount factor on the biasvariance trade-off given structural parameters of the underlying Markov Decision Process. Our results support the idea that a shorter planning horizon might be beneficial, especially under partial observability. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# 機械学習システムを開発するソフトウェアエンジニアとデータサイエンティストの効果的なコラボレーションに向けて
Towards Effective Collaboration between Software Engineers and Data Scientists developing Machine Learning-Enabled Systems ( http://arxiv.org/abs/2407.15821v1 ) ライセンス: Link先を確認 | Gabriel Busquim, Allysson Allex Araújo, Maria Julia Lima, Marcos Kalinowski, | (参考訳) 機械学習(ML)を既存のシステムに組み込むことは、いくつかの組織で需要が高まっている。
しかし、ML対応システムの開発には、様々な専門分野のアクターが協力して取り組む必要がある、いくつかの社会的および技術的課題が含まれている。
本稿は,これらのシステム構築における2つの重要なアクター – ソフトウェアエンジニアとデータサイエンティスト – のコラボレーションを強化する方法を理解することを目的としている。
我々は、経験豊富なデータサイエンティストと、実世界のML対応システムに取り組んでいるソフトウェアエンジニアと2つのフォーカスグループセッションを行い、特定の技術的タスクに対する様々な推奨事項の関連性を評価した。
我々の研究は、これらのアクター間のコラボレーションが、特にデータアクセスとMLモデルデプロイメントを定義する際に、ML対応システムを効果的に開発する上で重要であることを発見した。
参加者は、文献で表現されたレコメンデーションが、異なるタスク間のコラボレーションにどのように役立つか、具体的な例を提供した。
例えば、各チームメンバの明確な責任を定義し、簡潔なドキュメントを作成することで、コミュニケーションと全体的なパフォーマンスを改善することができます。
私たちの研究は、ML対応システムを開発するソフトウェアエンジニアとデータサイエンティストの効果的なコラボレーションを促進する方法について、より深く理解することに貢献します。
Incorporating Machine Learning (ML) into existing systems is a demand that has grown among several organizations. However, the development of ML-enabled systems encompasses several social and technical challenges, which must be addressed by actors with different fields of expertise working together. This paper has the objective of understanding how to enhance the collaboration between two key actors in building these systems: software engineers and data scientists. We conducted two focus group sessions with experienced data scientists and software engineers working on real-world ML-enabled systems to assess the relevance of different recommendations for specific technical tasks. Our research has found that collaboration between these actors is important for effectively developing ML-enabled systems, especially when defining data access and ML model deployment. Participants provided concrete examples of how recommendations depicted in the literature can benefit collaboration during different tasks. For example, defining clear responsibilities for each team member and creating concise documentation can improve communication and overall performance. Our study contributes to a better understanding of how to foster effective collaboration between software engineers and data scientists creating ML-enabled systems. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# J-CHAT:音声対話言語モデリングのための大規模対話コーパス
J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling ( http://arxiv.org/abs/2407.15828v1 ) ライセンス: Link先を確認 | Wataru Nakata, Kentaro Seki, Hitomi Yanaka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, | (参考訳) 音声対話は人間とAIの相互作用において重要な役割を担い、対話指向音声言語モデル(SLM)を必要とする。
汎用SLMを開発するためには,大規模かつ多様な音声データセットが不可欠である。
さらに、ヒクフ品質の音声生成を確実にするためには、データはWild内のデータのように自発的に行う必要があり、ノイズを除去して音響的にクリーンにする必要がある。
批判的な必要性にもかかわらず、これらの基準を満たすオープンソースコーパスは提供されていない。
本研究では,日本語音声対話コーパス(J-CHAT)を構築・公開することで,このギャップを解消する。
さらに、コーパス構築のための言語に依存しない手法を提案し、J-CHATで訓練されたSLMを用いた対話生成実験について述べる。
実験結果から,複数のドメインから収集したデータは対話生成の自然性と有意義性を向上させることが示唆された。
Spoken dialogue plays a crucial role in human-AI interactions, necessitating dialogue-oriented spoken language models (SLMs). To develop versatile SLMs, large-scale and diverse speech datasets are essential. Additionally, to ensure hiqh-quality speech generation, the data must be spontaneous like in-wild data and must be acoustically clean with noise removed. Despite the critical need, no open-source corpus meeting all these criteria has been available. This study addresses this gap by constructing and releasing a large-scale spoken dialogue corpus, named Japanese Corpus for Human-AI Talks (J-CHAT), which is publicly accessible. Furthermore, this paper presents a language-independent method for corpus construction and describes experiments on dialogue generation using SLMs trained on J-CHAT. Experimental results indicate that the collected data from multiple domains by our method improve the naturalness and meaningfulness of dialogue generation. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# マイクロFrontendsアーキテクチャへの移行のメリットと限界を探る
Investigating Benefits and Limitations of Migrating to a Micro-Frontends Architecture ( http://arxiv.org/abs/2407.15829v1 ) ライセンス: Link先を確認 | Fabio Antunes, Maria Julia Dias Lima, Marco Antônio Pereira Araújo, Davide Taibi, Marcos Kalinowski, | (参考訳) [コンテキスト]Webアプリケーションのモジュール化、スケーラビリティ、保守性を高めるための有望なアプローチとして、マイクロフロントエンドアーキテクチャの採用が注目を集めています。
目標] この研究の主な目的は、開発者の視点から、現実世界のアプリケーションをマイクロフロントエンドアーキテクチャに移行することの利点と限界を調査することである。
[方法] アクションリサーチのアプローチに基づき、診断と計画の後、ターゲットWebアプリケーションをマイクロフロントエンドアーキテクチャに移行するための介入を適用した。
その後、移行は、アプリケーションのメンテナンスを担当する残りの開発者を含むワークショップで評価された。
ワークショップでは、移行したアーキテクチャを紹介し、シンプルなメンテナンスタスクを実行し、洞察を得るためにフォーカスグループの利益と制限について議論し、テクノロジの受け入れに関する質問に答えた。
結果]フォーカスグループで収集された開発者の認識は,文献で報告されたメリットと限界を強化した。
主なメリットは、テクノロジ選択の柔軟性の向上、開発チームのスケーラビリティ、テクノロジの段階的なマイグレーションなどだ。
しかし、アーキテクチャの複雑さが増すにつれ、特に依存関係と環境管理、デバッグ、統合テストにおいて、開発者の間で懸念が高まった。
[結論]マイクロフロントエンドは有望な技術だが、未解決の問題はまだ適用範囲を限定している。
開発者は一般的にアーキテクチャを便利で適度に使いやすく感じたが、採用をためらった。
[Context] The adoption of micro-frontends architectures has gained traction as a promising approach to enhance modularity, scalability, and maintainability of web applications. [Goal] The primary aim of this research is to investigate the benefits and limitations of migrating a real-world application to a micro-frontends architecture from the perspective of the developers. [Method] Based on the action research approach, after diagnosis and planning, we applied an intervention of migrating the target web application to a micro-frontends architecture. Thereafter, the migration was evaluated in a workshop involving the remaining developers responsible for maintaining the application. During the workshop, these developers were presented with the migrated architecture, conducted a simple maintenance task, discussed benefits and limitations in a focus group to gather insights, and answered a questionnaire on the acceptance of the technology. [Results] Developers' perceptions gathered during the focus group reinforce the benefits and limitations reported in the literature. Key benefits included enhanced flexibility in technology choices, scalability of development teams, and gradual migration of technologies. However, the increased complexity of the architecture raised concerns among developers, particularly in dependency and environment management, debugging, and integration testing. [Conclusions] While micro-frontends represent a promising technology, unresolved issues still limit their broader applicability. Developers generally perceived the architecture as useful and moderately easy to use but hesitated to adopt it. | 翻訳日:2024-07-23 13:51:10 公開日:2024-07-22 |
# NV-Retriever: 効果的なハードネガティブマイニングによるテキスト埋め込みモデルの改善
NV-Retriever: Improving text embedding models with effective hard-negative mining ( http://arxiv.org/abs/2407.15831v1 ) ライセンス: Link先を確認 | Gabriel de Souza P. Moreira, Radek Osmulski, Mengyao Xu, Ronay Ak, Benedikt Schifferer, Even Oldridge, | (参考訳) テキスト埋め込みモデルは、意味探索や質問応答システム(Retrieval-Augmented Generation, RAG)に基づく情報検索に人気がある。
これらのモデルは典型的にはトランスフォーマーモデルであり、対照的な学習目的によって微調整される。
多くの論文で新しい埋め込みモデルアーキテクチャとトレーニングアプローチが紹介されているが、重要な要素の1つは、負の通路を採掘する過程である。
微調整埋め込みモデルの難しい側面の1つは、コントラスト学習のための高品質なハードネガティブパスの選択である。
本稿では、より効果的な偽陰性除去のために、正の関連性スコアを利用する正の認識マイニング手法のファミリーを提案する。
また,その構成に対する強陰性鉱業法に関する総合的なアブレーション研究を行い,異なる教師と基礎モデルを探索する。
MTEB Retrieval (BEIR) ベンチマークで60.9点, 従来の手法よりも0.65点, NV-Retriever-v1モデルを導入することで, 提案手法の有効性を実証する。
このモデルは、2024年7月07日にMTEB Retrievalに発行された際、第1位となった。
Text embedding models have been popular for information retrieval applications such as semantic search and Question-Answering systems based on Retrieval-Augmented Generation (RAG). Those models are typically Transformer models that are fine-tuned with contrastive learning objectives. Many papers introduced new embedding model architectures and training approaches, however, one of the key ingredients, the process of mining negative passages, remains poorly explored or described. One of the challenging aspects of fine-tuning embedding models is the selection of high quality hard-negative passages for contrastive learning. In this paper we propose a family of positive-aware mining methods that leverage the positive relevance score for more effective false negatives removal. We also provide a comprehensive ablation study on hard-negative mining methods over their configurations, exploring different teacher and base models. We demonstrate the efficacy of our proposed methods by introducing the NV-Retriever-v1 model, which scores 60.9 on MTEB Retrieval (BEIR) benchmark and 0.65 points higher than previous methods. The model placed 1st when it was published to MTEB Retrieval on July 07, 2024. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# STEMチリ大学在学中における計算思考の不平等
Inequalities in Computational Thinking Among Incoming Students in an STEM Chilean University ( http://arxiv.org/abs/2407.15833v1 ) ライセンス: Link先を確認 | Felipe González-Pizarro, Claudia López, Andrea Vásquez, Carlos Castro, | (参考訳) 計算思考は世界中で必須のスキルとして現れるが、ラテンアメリカにおける正式な初等教育と中等教育は、それをカリキュラムで開発するメカニズムを組み込むことは滅多にない。
地域の学生が計算思考のスキルを習得する程度は、いまだに不明である。
本稿は,チリの大学における入学者の計算思考能力について,STEMの規律を重視した横断的な研究から得られた知見について述べる。
この研究は500以上の回答に基づいて、性別、学校の種類(プライベートかノーか)、および事前のプログラミング知識における計算思考における有意な不平等の証拠を提供する。
この議論は、これらの格差が、高度に社会経済的に分離された教育システム、主に技術アクセスに焦点を当てた公共政策、そして自発的なイニシアチブに大きく依存する計算思考など、国の文脈的要因とどのように関係するかについての洞察を提供する。
同様の状況に直面した国で、学生がSTEMの学位を取得するための、より公平な分野を作るための、今後の研究努力と定式化戦略を啓蒙することができる。
While computational thinking arises as an essential skill worldwide, formal primary and secondary education in Latin America rarely incorporates mechanisms to develop it in their curricula. The extent to which students in the region acquire computational thinking skills remains largely unknown. To start addressing this void, this article presents findings from a cross-sectional study that characterizes the computational thinking abilities of incoming students at a Chilean university with a strong emphasis on STEM disciplines. Based on more than 500 responses, this study provides evidence of significant inequalities in computational thinking across gender, type of school (private or no), and prior programming knowledge. The discussion offers insights into how these disparities relate to contextual factors of the country, such as a highly socio-economically segregated educational system, public policies focused mainly on technology access, and heavy reliance on voluntary initiatives, to develop computational thinking. The findings can enlighten upcoming research endeavors and formulate strategies to create a more equitable field for students entering STEM degrees in nations facing similar circumstances. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# dMel: 音声トークン化をシンプルに
dMel: Speech Tokenization made Simple ( http://arxiv.org/abs/2407.15835v1 ) ライセンス: Link先を確認 | He Bai, Tatiana Likhomanenko, Ruixiang Zhang, Zijin Gu, Zakaria Aldeneh, Navdeep Jaitly, | (参考訳) 大規模言語モデルは、膨大なテキストデータに基づく自己教師付き事前学習を活用することで、自然言語処理に革命をもたらした。
この成功に触発された研究者らは、連続した音声信号を識別する複雑な音声トークン化法を研究し、言語モデリング技術が音声データに適用できるようにした。
しかし、既存のアプローチは意味的トークンをモデル化し、音響情報を失う可能性があり、または音響的トークンをモデル化し、意味的情報の喪失を危険にさらす。
複数のトークン型を持つこともアーキテクチャを複雑にし、追加の事前トレーニングを必要とする。
本稿では,メルフィルタチャネルを離散強度ビンに分割することで,既存の音声トークン化手法よりも優れた単純な表現(dMel)が得られることを示す。
音声認識(ASR)、音声合成(TTS)の異なる音声トークン化手法を包括的に評価する。
本研究は,dMelが統合された枠組み内での両タスクの高性能化に有効であることを示し,音声とテキストの協調モデリングを効果的かつ効果的に行う方法について検討した。
Large language models have revolutionized natural language processing by leveraging self-supervised pretraining on vast textual data. Inspired by this success, researchers have investigated complicated speech tokenization methods to discretize continuous speech signals so that language modeling techniques can be applied to speech data. However, existing approaches either model semantic tokens, potentially losing acoustic information, or model acoustic tokens, risking the loss of semantic information. Having multiple token types also complicates the architecture and requires additional pretraining. Here we show that discretizing mel-filterbank channels into discrete intensity bins produces a simple representation (dMel), that performs better than other existing speech tokenization methods. Using a transformer decoder-only architecture for speech-text modeling, we comprehensively evaluate different speech tokenization methods on speech recognition (ASR), speech synthesis (TTS). Our results demonstrate the effectiveness of dMel in achieving high performance on both tasks within a unified framework, paving the way for efficient and effective joint modeling of speech and text. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# 自己監督型視覚表現学習のための潜時マスク画像モデリングに向けて
Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2407.15837v1 ) ライセンス: Link先を確認 | Yibing Wei, Abhinav Gupta, Pedro Morgado, | (参考訳) Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。
領域認識学習に優れ、様々なタスクに対して強力な初期化を提供するが、ピクセル再構成目的の低レベルな性質のため、さらなる微調整を監督せずに高レベルなセマンティクスを捉えるのに苦労している。
有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。
しかし,本手法は,モデルと組み合わせて再構築対象を学習することで,自明あるいは準最適解がもたらされる可能性があるため,重要なトレーニング課題となる。
本研究は,オンライン/ターゲットの協調最適化のための表現崩壊,学習目標,潜時空間における高次領域相関,復号化といった課題の原因を明らかにする。
これらの問題を逐次解決することにより、Latent MIMは、MIMモデルの利点を維持しながら、実際にハイレベルな表現を学習できることを実証する。
Masked Image Modeling (MIM) has emerged as a promising method for deriving visual representations from unlabeled image data by predicting missing pixels from masked portions of images. It excels in region-aware learning and provides strong initializations for various tasks, but struggles to capture high-level semantics without further supervised fine-tuning, likely due to the low-level nature of its pixel reconstruction objective. A promising yet unrealized framework is learning representations through masked reconstruction in latent space, combining the locality of MIM with the high-level targets. However, this approach poses significant training challenges as the reconstruction targets are learned in conjunction with the model, potentially leading to trivial or suboptimal solutions.Our study is among the first to thoroughly analyze and address the challenges of such framework, which we refer to as Latent MIM. Through a series of carefully designed experiments and extensive analysis, we identify the source of these challenges, including representation collapsing for joint online/target optimization, learning objectives, the high region correlation in latent space and decoding conditioning. By sequentially addressing these issues, we demonstrate that Latent MIM can indeed learn high-level representations while retaining the benefits of MIM models. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# MMInstruct: 広範囲な多様性を持つ高品質なマルチモーダルインストラクションチューニングデータセット
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity ( http://arxiv.org/abs/2407.15838v1 ) ライセンス: Link先を確認 | Yangzhou Liu, Yue Cao, Zhangwei Gao, Weiyun Wang, Zhe Chen, Wenhai Wang, Hao Tian, Lewei Lu, Xizhou Zhu, Tong Lu, Yu Qiao, Jifeng Dai, | (参考訳) VLLM(Vision Large Language Models)の性能向上には,視覚言語指導による微調整の有効性があった。
1) 指示アノテーションの品質: 既存のVLLMは高い性能を示すが、これらの先進的なVLLMによって生成された命令は、幻覚などの不正確さに悩まされる可能性がある。
2)インストラクションと画像の多様性:限られた種類の命令と、画像データの多様性の欠如は、モデルが現実のシナリオ出力に近づいた多様で多様なシナリオを生成する能力に影響を及ぼす可能性がある。
これらの課題に対処するため、24ドメインの973K命令からなる高品質で多様な視覚的命令チューニングデータセットMMInstructを構築した。
命令タイプは4種類あり、判定、複数選択、ロングビジュアル質問回答、ショートビジュアル質問回答である。
MMInstructを構築するために, GPT-4V, GPT-3.5, 手動補正を利用する命令生成データエンジンを提案する。
命令生成エンジンは,手作業のコストの1/6で半自動,低コスト,マルチドメインの命令生成を可能にする。
大規模な実験検証とアブレーション実験により,MMInstruct は VLLM の性能を著しく向上させることができることを実証した。
コードとデータはhttps://github.com/yuecao0119/MMInstruct.comから入手できる。
Despite the effectiveness of vision-language supervised fine-tuning in enhancing the performance of Vision Large Language Models (VLLMs). However, existing visual instruction tuning datasets include the following limitations: (1) Instruction annotation quality: despite existing VLLMs exhibiting strong performance, instructions generated by those advanced VLLMs may still suffer from inaccuracies, such as hallucinations. (2) Instructions and image diversity: the limited range of instruction types and the lack of diversity in image data may impact the model's ability to generate diversified and closer to real-world scenarios outputs. To address these challenges, we construct a high-quality, diverse visual instruction tuning dataset MMInstruct, which consists of 973K instructions from 24 domains. There are four instruction types: Judgement, Multiple-Choice, Long Visual Question Answering and Short Visual Question Answering. To construct MMInstruct, we propose an instruction generation data engine that leverages GPT-4V, GPT-3.5, and manual correction. Our instruction generation engine enables semi-automatic, low-cost, and multi-domain instruction generation at 1/6 the cost of manual construction. Through extensive experiment validation and ablation experiments, we demonstrate that MMInstruct could significantly improve the performance of VLLMs, e.g., the model fine-tuning on MMInstruct achieves new state-of-the-art performance on 10 out of 12 benchmarks. The code and data shall be available at https://github.com/yuecao0119/MMInstruct. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# 高対話環境におけるインテリジェントエージェントのための重要サンプリング型メタトレーニング
Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments ( http://arxiv.org/abs/2407.15839v1 ) ライセンス: Link先を確認 | Mansur Arief, Mike Timmerman, Jiachen Li, David Isele, Mykel J Kochenderfer, | (参考訳) 高度にインタラクティブな環境をナビゲートするためのインテリジェントエージェントのトレーニングは、大きな課題を提示します。
指導的メタ強化学習(英語版) (RL) アプローチは、まず、エゴエージェントを訓練するための指導方針を訓練するが、様々なレベルの相互作用における一般化性を改善するのに有効であることが証明されているが、最先端の手法は極端な場合に対して過度に敏感であり、より一般的なシナリオではエージェントのパフォーマンスを損なう傾向にある。
本研究では、ガイド付きメタRLと重要サンプリング(IS)を統合した新しいトレーニングフレームワークを導入し、Tインターセクションのような高度に対話的な運転シナリオをナビゲートするためのトレーニング分布を最適化する。
トレーニング中に重要な相互作用を過度に強調したり、極端なケースを過度に強調する従来の方法とは異なり、本手法はIS提案分布を用いてより困難な運転行動に向けてトレーニング分布を戦略的に調整し、その重要度を非バイアスに当てはめる。
実世界のデータセットからの自然な分布を推定し、反復的なトレーニング改善のための混合モデルを使用することで、このフレームワークは、共通および極端な駆動シナリオにまたがるバランスのとれたフォーカスを保証する。
InDデータセットから合成データセットとT-断面積のシナリオを用いて行った実験は、訓練を加速するだけでなく、自然条件下でのエージェント性能の向上も示し、信頼性の高い自律エージェントを高度に対話的なナビゲーションタスクのために訓練する際のISとメタRLの組み合わせの有効性を示した。
Training intelligent agents to navigate highly interactive environments presents significant challenges. While guided meta reinforcement learning (RL) approach that first trains a guiding policy to train the ego agent has proven effective in improving generalizability across various levels of interaction, the state-of-the-art method tends to be overly sensitive to extreme cases, impairing the agents' performance in the more common scenarios. This study introduces a novel training framework that integrates guided meta RL with importance sampling (IS) to optimize training distributions for navigating highly interactive driving scenarios, such as T-intersections. Unlike traditional methods that may underrepresent critical interactions or overemphasize extreme cases during training, our approach strategically adjusts the training distribution towards more challenging driving behaviors using IS proposal distributions and applies the importance ratio to de-bias the result. By estimating a naturalistic distribution from real-world datasets and employing a mixture model for iterative training refinements, the framework ensures a balanced focus across common and extreme driving scenarios. Experiments conducted with both synthetic dataset and T-intersection scenarios from the InD dataset demonstrate not only accelerated training but also improvement in agent performance under naturalistic conditions, showcasing the efficacy of combining IS with meta RL in training reliable autonomous agents for highly interactive navigation tasks. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# SlowFast-LLaVA:ビデオ大言語モデルのための強力なトレーニングフリーベースライン
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models ( http://arxiv.org/abs/2407.15841v1 ) ライセンス: Link先を確認 | Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan, | (参考訳) SlowFast-LLaVA(略してSF-LLaVA)は、トレーニング不要なビデオ大言語モデル(LLM)であり、一般的に使用されるLCMのトークン予算を超えることなく、詳細な空間的意味論と長距離時間的文脈を共同でキャプチャすることができる。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプリングされたビデオフレームの特徴を効果的に集約することで実現される。
具体的には、Slow経路は、できるだけ多くの空間的詳細(例えば24x24トークン)を維持しながら、低フレームレートで特徴を抽出し、Fast経路は高いフレームレートで動作するが、より大きな空間的プーリングストライド(例えば、ダウンサンプリング6x)を使用してモーションキューにフォーカスする。
その結果,映像の詳細な理解に有用な空間的特徴と時間的特徴の両方を適切に捉えることが可能となった。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
いくつかのベンチマークでは、ビデオデータセットに微調整された最先端のVideo LLMと比較して、同等またはそれ以上のパフォーマンスを実現している。
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture the detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled video frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as many spatial details as possible (e.g., with 24x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for understanding details along the video. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# アート:美的制御可能なテキスト駆動型スティライゼーション
Artist: Aesthetically Controllable Text-Driven Stylization without Training ( http://arxiv.org/abs/2407.15842v1 ) ライセンス: Link先を確認 | Ruixiang Jiang, Changwen Chen, | (参考訳) 拡散モデルは、デノナイジングプロセス中にコンテンツとスタイル生成を絡ませ、スタイリングタスクに直接適用されると、望ましくないコンテンツの修正につながる。
既存の手法は、スタイル化の美的要件を満たすために拡散モデルを効果的に制御するのに苦労している。
本稿では,テキスト駆動型スタイリゼーションのための事前学習拡散モデルの内容とスタイル生成を審美的に制御する,トレーニング不要なアプローチである「textbf{Artist}」を紹介する。
私たちのキーとなる洞察は、コンテンツとスタイルを分離した拡散プロセスに分解し、情報を共有することです。
本稿では,スタイル非関連なコンテンツ生成を抑えるための,シンプルで効果的なコンテンツとスタイル制御手法を提案する。
広範にわたる実験により,本手法は審美レベルのスタイリゼーション要件の達成,コンテンツイメージの複雑な詳細の保存,スタイルプロンプトの整合性に優れていた。
さらに,様々な観点からスタイリゼーション強度の高制御性を示す。
コードは、プロジェクトのホームページでリリースされる。 https://DiffusionArtist.github.io
Diffusion models entangle content and style generation during the denoising process, leading to undesired content modification when directly applied to stylization tasks. Existing methods struggle to effectively control the diffusion model to meet the aesthetic-level requirements for stylization. In this paper, we introduce \textbf{Artist}, a training-free approach that aesthetically controls the content and style generation of a pretrained diffusion model for text-driven stylization. Our key insight is to disentangle the denoising of content and style into separate diffusion processes while sharing information between them. We propose simple yet effective content and style control methods that suppress style-irrelevant content generation, resulting in harmonious stylization results. Extensive experiments demonstrate that our method excels at achieving aesthetic-level stylization requirements, preserving intricate details in the content image and aligning well with the style prompt. Furthermore, we showcase the highly controllability of the stylization strength from various perspectives. Code will be released, project home page: https://DiffusionArtist.github.io | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# CarFormer: 学習したオブジェクト中心表現による自動運転
CarFormer: Self-Driving with Learned Object-Centric Representations ( http://arxiv.org/abs/2407.15843v1 ) ライセンス: Link先を確認 | Shadi Hamdan, Fatma Güney, | (参考訳) 表現の選択は、自動運転において重要な役割を果たす。
近年,Bird's Eye View (BEV) の表現は顕著なパフォーマンスを示している。
本稿では,BEVにおけるオブジェクト中心の表現を学習し,複雑なシーンをより実用的な情報に抽出することを提案する。
まず、BEVシーケンス上のスロットアテンションモデルを用いて、オブジェクトをスロットに配置することを学ぶ。
これらのオブジェクト中心の表現に基づいて、トランスフォーマーを訓練して運転を学び、他の車両の将来について推論する。
その結果、オブジェクト中心のスロット表現は、オブジェクトの正確な属性を使用するシーンレベルとオブジェクトレベルの両方のアプローチより優れていることがわかった。
スロット表現は、位置、方向、速度などの空間的および時間的文脈からオブジェクトに関する情報を明示的に提供せずに自然に組み込む。
スロット付きモデルでは,提供経路の完成率が向上し,高い駆動スコアが得られ,複数のランをまたがる分散度が低くなり,スロットがオブジェクト中心アプローチにおける信頼性の高い代替手段であることを確認した。
さらに,実験を予測することで,世界モデルとしてのモデルの性能を検証し,将来のスロット表現を正確に予測する能力を示す。
コードと事前訓練されたモデルはhttps://kuis-ai.github.io/CarFormer/.com/で見ることができる。
The choice of representation plays a key role in self-driving. Bird's eye view (BEV) representations have shown remarkable performance in recent years. In this paper, we propose to learn object-centric representations in BEV to distill a complex scene into more actionable information for self-driving. We first learn to place objects into slots with a slot attention model on BEV sequences. Based on these object-centric representations, we then train a transformer to learn to drive as well as reason about the future of other vehicles. We found that object-centric slot representations outperform both scene-level and object-level approaches that use the exact attributes of objects. Slot representations naturally incorporate information about objects from their spatial and temporal context such as position, heading, and speed without explicitly providing it. Our model with slots achieves an increased completion rate of the provided routes and, consequently, a higher driving score, with a lower variance across multiple runs, affirming slots as a reliable alternative in object-centric approaches. Additionally, we validate our model's performance as a world model through forecasting experiments, demonstrating its capability to predict future slot representations accurately. The code and the pre-trained models can be found at https://kuis-ai.github.io/CarFormer/. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# HandDGP:グローバル位置の異なるカメラ空間ハンドメッシュ予測
HandDGP: Camera-Space Hand Mesh Prediction with Differentiable Global Positioning ( http://arxiv.org/abs/2407.15844v1 ) ライセンス: Link先を確認 | Eugene Valassakis, Guillermo Garcia-Hernando, | (参考訳) 単一のRGB画像からカメラ空間のハンドメッシュを予測することは、3D仮想および拡張世界の現実的なハンドインタラクションの実現に不可欠である。
以前の作業は通常、タスクを2つのステージに分割した: 手のトリミングされたイメージが与えられた後、相対座標のメッシュを予測し、その後、これらの予測を独立した独立したステージでカメラ空間に持ち上げる。
この2つの段階を2D-3D対応問題に対処するエンド・ツー・エンド・ソリューションに統一することを提案する。
このソリューションは、新しい差別化可能なグローバル位置決めモジュールを通じて、カメラ空間出力からネットワークの他の部分へのバックプロパゲーションを可能にする。
また、トレーニングデータセットと入力画像の両方を同じカメラで取得したかのように調和させ、問題の本質的なスケールと深さのあいまいさを軽減する画像修正手順も導入する。
3つの公開ベンチマークにおいて,いくつかのベースラインと最先端アプローチに対する評価において,我々のフレームワークの有効性を検証した。
Predicting camera-space hand meshes from single RGB images is crucial for enabling realistic hand interactions in 3D virtual and augmented worlds. Previous work typically divided the task into two stages: given a cropped image of the hand, predict meshes in relative coordinates, followed by lifting these predictions into camera space in a separate and independent stage, often resulting in the loss of valuable contextual and scale information. To prevent the loss of these cues, we propose unifying these two stages into an end-to-end solution that addresses the 2D-3D correspondence problem. This solution enables back-propagation from camera space outputs to the rest of the network through a new differentiable global positioning module. We also introduce an image rectification step that harmonizes both the training dataset and the input image as if they were acquired with the same camera, helping to alleviate the inherent scale-depth ambiguity of the problem. We validate the effectiveness of our framework in evaluations against several baselines and state-of-the-art approaches across three public benchmarks. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# 伝達学習による実世界モデルからの学習データ再構成
Reconstructing Training Data From Real World Models Trained with Transfer Learning ( http://arxiv.org/abs/2407.15845v1 ) ライセンス: Link先を確認 | Yakir Oz, Gilad Yehudai, Gal Vardi, Itai Antebi, Michal Irani, Niv Haim, | (参考訳) 訓練された分類器からトレーニングデータを再構成する現在の方法は、非常に小さなモデル、限られたトレーニングセットサイズ、低解像度の画像に限られている。
このような制限は、現実のシナリオへの適用を妨げます。
本稿では,高解像度画像上で訓練されたモデルに対して,現実的な設定でデータ再構成を可能にする新しいアプローチを提案する。
具体的には、DINO-ViTやCLIPといった大規模トレーニング済みモデルのイメージ埋め込みを通じて、トランスファーラーニングによってトレーニングされたモデルをターゲットとして、実世界のシナリオにarXiv:2206.07758の再構築スキームを適用する。
我々の研究は、画像空間ではなく埋め込み空間にデータ再構成を導入し、視覚データを超えた適用性を示している。
さらに,数千の候補からの良好な復元を識別するクラスタリングに基づく新しい手法を提案する。
これは、優れた再構成画像を特定するためのトレーニングセットの知識に依存した以前の作品に大きく改善される。
我々の発見は、トランスファー学習を用いてトレーニングされたモデルからのデータ漏洩の潜在的なプライバシーリスクを浮き彫りにした。
Current methods for reconstructing training data from trained classifiers are restricted to very small models, limited training set sizes, and low-resolution images. Such restrictions hinder their applicability to real-world scenarios. In this paper, we present a novel approach enabling data reconstruction in realistic settings for models trained on high-resolution images. Our method adapts the reconstruction scheme of arXiv:2206.07758 to real-world scenarios -- specifically, targeting models trained via transfer learning over image embeddings of large pre-trained models like DINO-ViT and CLIP. Our work employs data reconstruction in the embedding space rather than in the image space, showcasing its applicability beyond visual data. Moreover, we introduce a novel clustering-based method to identify good reconstructions from thousands of candidates. This significantly improves on previous works that relied on knowledge of the training set to identify good reconstructed images. Our findings shed light on a potential privacy risk for data leakage from models trained using transfer learning. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# LLMmap: 大きな言語モデルのためのフィンガープリント
LLMmap: Fingerprinting For Large Language Models ( http://arxiv.org/abs/2407.15847v1 ) ライセンス: Link先を確認 | Dario Pasquini, Evgenios M. Kornaropoulos, Giuseppe Ateniese, | (参考訳) LLM 統合アプリケーションを対象とした第1世代の指紋認証攻撃 LLMmap を紹介する。
LLMmapはアクティブなフィンガープリントアプローチを採用し、アプリケーションに慎重にクエリを送信し、レスポンスを分析して使用中の特定のLLMモデルを特定する。
わずか8つの相互作用で、LLMmapは95%以上の精度でLSMを正確に識別できる。
さらに重要なのは、LLMmapはさまざまなアプリケーション層で堅牢に設計されており、様々なシステムプロンプト、確率的なサンプリングハイパーパラメータ、RAGやChain-of-Thoughtといった複雑な生成フレームワークでもLLMを識別できる。
We introduce LLMmap, a first-generation fingerprinting attack targeted at LLM-integrated applications. LLMmap employs an active fingerprinting approach, sending carefully crafted queries to the application and analyzing the responses to identify the specific LLM model in use. With as few as 8 interactions, LLMmap can accurately identify LLMs with over 95% accuracy. More importantly, LLMmap is designed to be robust across different application layers, allowing it to identify LLMs operating under various system prompts, stochastic sampling hyperparameters, and even complex generation frameworks such as RAG or Chain-of-Thought. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# BoostMVSNeRFs:大規模シーンにおける一般化可能なビュー合成のためのMVSベースのNeRFのブーピング
BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes ( http://arxiv.org/abs/2407.15848v1 ) ライセンス: Link先を確認 | Chih-Hai Su, Chih-Yao Hu, Shr-Ruei Tsai, Jie-Ying Lee, Chin-Yang Lin, Yu-Lun Liu, | (参考訳) ニューラル・ラディアンス・フィールド(Neural Radiance Fields、NeRF)は例外的な品質を示してきたが、訓練期間の延長は依然として限界である。
一般化可能でMSVベースのNeRFは訓練時間を短縮できるが、品質上のトレードオフがしばしば発生する。
本稿では,大規模シーンにおけるMVSベースのNeRFのレンダリング品質を高めるため,BoostMVSNeRFと呼ばれる新しい手法を提案する。
まず,MVSをベースとしたNeRF手法の制約,例えば限定的なビューポートカバレッジや,限定的な入力ビューによるアーティファクトなどの制約を同定する。
そこで本稿では,ボリュームレンダリング中に複数のコストボリュームを選択し,組み合わせる新しい手法を提案する。
本手法はトレーニングを必要とせず,フィードフォワード方式でMSVベースのNeRF手法に適応してレンダリング品質を向上させる。
さらに、このアプローチはエンドツーエンドのトレーニングも可能で、特定のシーンを微調整することができます。
本研究では,大規模データセットを用いた実験による手法の有効性を実証し,大規模シーンにおけるレンダリング品質の大幅な向上と屋外シナリオの非有界化を実証した。
BoostMVSNeRFsのソースコードはhttps://su-terry.github.io/BoostMVSNeRFs/で公開しています。
While Neural Radiance Fields (NeRFs) have demonstrated exceptional quality, their protracted training duration remains a limitation. Generalizable and MVS-based NeRFs, although capable of mitigating training time, often incur tradeoffs in quality. This paper presents a novel approach called BoostMVSNeRFs to enhance the rendering quality of MVS-based NeRFs in large-scale scenes. We first identify limitations in MVS-based NeRF methods, such as restricted viewport coverage and artifacts due to limited input views. Then, we address these limitations by proposing a new method that selects and combines multiple cost volumes during volume rendering. Our method does not require training and can adapt to any MVS-based NeRF methods in a feed-forward fashion to improve rendering quality. Furthermore, our approach is also end-to-end trainable, allowing fine-tuning on specific scenes. We demonstrate the effectiveness of our method through experiments on large-scale datasets, showing significant rendering quality improvements in large-scale scenes and unbounded outdoor scenarios. We release the source code of BoostMVSNeRFs at https://su-terry.github.io/BoostMVSNeRFs/. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# WayEx: 単一デモによるウェイポイント探索
WayEx: Waypoint Exploration using a Single Demonstration ( http://arxiv.org/abs/2407.15849v1 ) ライセンス: Link先を確認 | Mara Levy, Nirat Saini, Abhinav Shrivastava, | (参考訳) 我々は,1つのデモンストレーションから複雑な目標条件ロボットタスクを学習する新しい方法であるWayExを提案する。
提案手法は,従来の模擬学習手法と差別化を図り,実演時の行動に関する情報を不要にする。
これは、新しい報酬関数を導入し、知識拡張技術を採用することで達成される。
多様な6つのタスクにまたがるウェイポイント探索戦略であるWayExの有効性を実証し,その適用性を示す。
特に,本手法は従来の強化学習法と比較してトレーニング時間を50%短縮する。
WayExは、既存の模倣学習手法よりも高い報酬を得る。
さらに、標準アプローチが不足している複雑な環境に対処することに成功したことを実証する。
詳細は、https://waypoint-ex.github.io.comで確認できる。
We propose WayEx, a new method for learning complex goal-conditioned robotics tasks from a single demonstration. Our approach distinguishes itself from existing imitation learning methods by demanding fewer expert examples and eliminating the need for information about the actions taken during the demonstration. This is accomplished by introducing a new reward function and employing a knowledge expansion technique. We demonstrate the effectiveness of WayEx, our waypoint exploration strategy, across six diverse tasks, showcasing its applicability in various environments. Notably, our method significantly reduces training time by 50% as compared to traditional reinforcement learning methods. WayEx obtains a higher reward than existing imitation learning methods given only a single demonstration. Furthermore, we demonstrate its success in tackling complex environments where standard approaches fall short. More information is available at: https://waypoint-ex.github.io. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# AutoAD-Zero: ゼロショットオーディオ記述のためのトレーニングフリーフレームワーク
AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description ( http://arxiv.org/abs/2407.15850v1 ) ライセンス: Link先を確認 | Junyu Xie, Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman, | (参考訳) 本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
我々は,市販のビジュアル言語モデル (VLM) と大規模言語モデル (LLM) のパワーを用いて,このタスクの視覚的およびテキスト的促進戦略を開発する。
私たちの貢献は3倍です。
i)VLMは、微調整を必要とせず、視覚的表示を通じて文字情報を直接誘導することで、文字の命名と参照を成功させることができることを実証する。
2)ADを生成するための2段階のプロセスが開発され、第1段階は、VLMに動画を包括的に記述するよう要求し、続いて、LLMを利用して、密集したテキスト情報を1つの簡潔なAD文に要約する第2段階を使用する。
(iii)テレビ音声記述のための新しいデータセットを策定する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
Our objective is to generate Audio Descriptions (ADs) for both movies and TV series in a training-free manner. We use the power of off-the-shelf Visual-Language Models (VLMs) and Large Language Models (LLMs), and develop visual and text prompting strategies for this task. Our contributions are three-fold: (i) We demonstrate that a VLM can successfully name and refer to characters if directly prompted with character information through visual indications without requiring any fine-tuning; (ii) A two-stage process is developed to generate ADs, with the first stage asking the VLM to comprehensively describe the video, followed by a second stage utilising a LLM to summarise dense textual information into one succinct AD sentence; (iii) A new dataset for TV audio description is formulated. Our approach, named AutoAD-Zero, demonstrates outstanding performance (even competitive with some models fine-tuned on ground truth ADs) in AD generation for both movies and TV series, achieving state-of-the-art CRITIC scores. | 翻訳日:2024-07-23 13:41:12 公開日:2024-07-22 |
# 合成信号誘導特徴学習による完全実時間rPPG推定
Fully Test-Time rPPG Estimation via Synthetic Signal-Guided Feature Learning ( http://arxiv.org/abs/2407.13322v2 ) ライセンス: Link先を確認 | Pei-Kai Huang, Tzu-Hsien Chen, Ya-Ting Chan, Kuan-Wen Chen, Chiou-Ting Hsu, | (参考訳) 多くのリモート光胸腺撮影(rPPG)推定モデルは、トレーニング領域で有望なパフォーマンスを達成したが、テスト領域での生理的信号や心拍数(HR)の測定に失敗することが多い。
したがって、ドメイン一般化(DG)またはドメイン適応(DA)技術はオフラインのトレーニング段階で採用され、利用可能なすべてのソースドメインデータを参照することによって、モデルが観測されていないまたは観測されていないテストドメインに適応する。
しかし、rPPG推定問題においては、適応モデルは通常、異なるビデオキャプチャ設定、異なる年齢範囲の個人、異なるHR分布など、様々なドメイン情報でターゲットデータを推定する課題に直面している。
対照的に、TTA(Test-Time Adaptation)は、ソースデータを参照することなく、ラベルのないターゲットデータにオンラインで適応することにより、様々な未確認領域のrPPG信号を適応的に推定することができる。
本稿ではまず,様々なドメイン情報や人事分布を含む新しいTTA-rPPGベンチマークを提案し,rPPG推定における課題をシミュレートする。
次に,二つの目的を持つ合成信号誘導rPPG推定フレームワークを提案する。
まず、rPPGモデルを適用して新しいターゲット領域情報を取得するために、効果的なスペクトルベースのエントロピー最小化を設計する。
第2に、擬似rPPG信号を擬似基底構造として合成し、条件生成器を誘導して潜在rPPG特徴を生成する合成信号誘導特徴学習を開発する。
合成rPPG信号と生成されたrPPG特徴を用いて、rPPGモデルを誘導し、様々なHR分布を広範囲にカバーする。
TTA-rPPGベンチマークの広範な実験により,提案手法は,TTA-rPPGベンチマークのほとんどのプロトコルにおいて,従来のDGおよびDA手法よりも優れた性能を実現し,性能を向上することが示された。
Many remote photoplethysmography (rPPG) estimation models have achieved promising performance on the training domain but often fail to measure the physiological signals or heart rates (HR) on test domains. Domain generalization (DG) or domain adaptation (DA) techniques are therefore adopted in the offline training stage to adapt the model to the unobserved or observed test domain by referring to all the available source domain data. However, in rPPG estimation problems, the adapted model usually confronts challenges of estimating target data with various domain information, such as different video capturing settings, individuals of different age ranges, or of different HR distributions. In contrast, Test-Time Adaptation (TTA), by online adapting to unlabeled target data without referring to any source data, enables the model to adaptively estimate rPPG signals of various unseen domains. In this paper, we first propose a novel TTA-rPPG benchmark, which encompasses various domain information and HR distributions, to simulate the challenges encountered in rPPG estimation. Next, we propose a novel synthetic signal-guided rPPG estimation framework with a two-fold purpose. First, we design an effective spectral-based entropy minimization to enforce the rPPG model to learn new target domain information. Second, we develop a synthetic signal-guided feature learning, by synthesizing pseudo rPPG signals as pseudo ground-truths to guide a conditional generator to generate latent rPPG features. The synthesized rPPG signals and the generated rPPG features are used to guide the rPPG model to broadly cover various HR distributions. Our extensive experiments on the TTA-rPPG benchmark show that the proposed method achieves superior performance and outperforms previous DG and DA methods across most protocols of the proposed TTA-rPPG benchmark. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# 量子機械学習の強化:非線形光再生カーネルのパワー
Enhancing Quantum Machine Learning: The Power of Non-Linear Optical Reproducing Kernels ( http://arxiv.org/abs/2407.13809v2 ) ライセンス: Link先を確認 | Shahram Dehdashti, Prayag Tiwari, Kareem H. El Safty, Peter Bruza, Janis Notzel, | (参考訳) 量子機械学習アルゴリズムの配列の中で、量子カーネル法は、主にノイズの多い中間スケールの量子デバイスとの互換性と、量子上の優位性を達成するという約束のために焦点として登場した。
この方法は、データを量子状態で構築された特徴空間に非線形に変換することで、分類および回帰処理を可能にする。
本研究では,Su(2),Su(1, 1)コヒーレント状態,圧縮状態を一般化したKerrコヒーレント状態を用いた新しい特徴空間を提案する。
特に、特徴空間は一定の曲率を示し、Kerrパラメータの符号に依存する球面と双曲幾何学の両方を含む。
顕著なことに、コヒーレント状態に関連する物理的パラメータは、特徴空間の曲率の制御を可能にする。
本研究では、Kerrコヒーレント状態の位相と振幅にデータを符号化したKerrカーネルを用いる。
月から乳がん診断まで,さまざまなデータセットを分析した。
以上の結果から,Kerrコヒーレント状態のロバスト性は,異なるハイパーパラメータを収容する際の柔軟性に起因し,ノイズの多いデータセットやハードウェアセットアップに対して優れた性能を提供する。
Amidst the array of quantum machine learning algorithms, the quantum kernel method has emerged as a focal point, primarily owing to its compatibility with noisy intermediate-scale quantum devices and its promise to achieve quantum advantage. This method operates by nonlinearly transforming data into feature space constructed with quantum states, enabling classification and regression tasks. In this study, we present a novel feature space constructed using Kerr coherent states, which generalize su(2), su(1, 1) coherent states, and squeezed states. Notably, the feature space exhibits constant curvature, comprising both spherical and hyperbolic geometries, depending on the sign of the Kerr parameter. Remarkably, the physical parameters associated with the coherent states, enable control over the curvature of the feature space. Our study employs Kerr kernels derived from encoding data into the phase and amplitude of Kerr coherent states. We analyze various datasets ranging from Moon to breast cancer diagnostics. Our findings demonstrate the robustness of Kerr coherent states, attributed to their flexibility in accommodating different hyperparameters, thereby offering superior performance across noisy datasets and hardware setups. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# 逆二乗相互作用を持つ新しい翻訳的不変な超対称鎖:分配関数、熱力学、臨界性
A novel translationally invariant supersymmetric chain with inverse-square interactions: partition function, thermodynamics and criticality ( http://arxiv.org/abs/2407.13827v2 ) ライセンス: Link先を確認 | Bireswar Basu-Mallick, Federico Finkel, Artemio González-López, | (参考訳) 我々は、ルート系に直接関連しない長距離相互作用を持つ翻訳不変su$(m|n)$超対称スピン鎖の新しい族を導入する。
我々はこれらのモデルの対称性について研究し、特にこの種のシステムのボソン-フェルミオン双対性(boson-fermion duality)特性の存在を確立した。
新しい鎖とそれに付随する多体超対称スピン力学モデルの関係を利用して、m$と$n$のすべての値と任意の数のスピンに対して、それらの分割関数を閉形式で計算することができる。
m$ と $n$ の両方が偶数であるとき、分配函数は2つの超対称ハルダン-シャストリースピン鎖の分配函数の積として分解され、したがって適切な転移行列のペロン固有値の観点からスピン毎の熱力学自由エネルギーの簡単な式が導かれる。
この式を用いて、これらの鎖の大規模な熱力学を解析し、特に、特定の熱が1つのショットキーピークを、適切な$k$レベルのモデルとほぼ同じ温度で表すことを示す。
また,新しい鎖の臨界挙動,特に基底状態の縮退と線形エネルギー-分子分散関係による低エネルギー励起の存在を解析した。
このようにして、可能な唯一の臨界鎖は$m=0,1,2$であることを示すことができる。
さらに、分割函数の明示的な公式を用いて、$n$ の Su$(0|n)$ および su$(2|n)$ の鎖の臨界性を確立し、関連する共形体理論の中心電荷を評価することができる。
We introduce a novel family of translationally-invariant su$(m|n)$ supersymmetric spin chains with long-range interaction not directly associated to a root system. We study the symmetries of these models, establishing in particular the existence of a boson-fermion duality characteristic of this type of systems. Taking advantage of the relation of the new chains with an associated many-body supersymmetric spin dynamical model, we are able to compute their partition function in closed form for all values of $m$ and $n$ and for an arbitrary number of spins. When both $m$ and $n$ are even, we show that the partition function factorizes as the product of the partition functions of two supersymmetric Haldane-Shastry spin chains, which in turn leads to a simple expression for the thermodynamic free energy per spin in terms of the Perron eigenvalue of a suitable transfer matrix. We use this expression to study the thermodynamics of a large class of these chains, showing in particular that the specific heat presents a single Schottky peak at approximately the same temperature as a suitable $k$-level model. We also analyze the critical behavior of the new chains, and in particular the ground state degeneracy and the existence of low energy excitations with a linear energy-momentum dispersion relation. In this way we are able to show that the only possible critical chains are the ones with $m=0,1,2$. In addition, using the explicit formula for the partition function we are able to establish the criticality of the su$(0|n)$ and su$(2|n)$ chains with even $n$, and to evaluate the central charge of their associated conformal field theory. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# GANプライオリティのクローズアップ - モデル反転攻撃に対する中間機能の爆発的展開
A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks ( http://arxiv.org/abs/2407.13863v2 ) ライセンス: Link先を確認 | Yixiang Qiu, Hao Fang, Hongyao Yu, Bin Chen, MeiKang Qiu, Shu-Tao Xia, | (参考訳) Model Inversion(MI)攻撃は、出力情報を利用することで、リリースされたモデルからプライバシーに敏感なトレーニングデータを再構築することを目的としており、Deep Neural Networks(DNN)のセキュリティに対する広範な懸念を提起している。
近年のGAN(Generative Adversarial Network)の進歩は,MI攻撃の性能向上に大きく寄与している。
しかし、以前のMI攻撃は、GANプリエントスペースの秘密情報のみを開示し、複数のターゲットモデルとデータセット間のセマンティック抽出と転送可能性を制限する。
この課題に対処するため、中間ブロック間の特徴を分解し、GAN構造を分解する中間特徴拡張生成モデル変換(IF-GMI)という新しい手法を提案する。
これにより、ラテントコードから表現能力を拡張した中間機能まで最適化スペースを拡張できます。
GAN先行画像が非現実的な画像を生成するのを防止するため、最適化プロセスにL1ボール制約を適用する。
複数のベンチマーク実験により,提案手法は従来の手法よりも大幅に優れており,特にアウト・オブ・ディストリビューション(OOD)のシナリオにおいて,様々な条件下での最先端の結果が得られることが示された。
私たちのコードは、https://github.com/final-solution/IF-GMIで利用可能です。
Model Inversion (MI) attacks aim to reconstruct privacy-sensitive training data from released models by utilizing output information, raising extensive concerns about the security of Deep Neural Networks (DNNs). Recent advances in generative adversarial networks (GANs) have contributed significantly to the improved performance of MI attacks due to their powerful ability to generate realistic images with high fidelity and appropriate semantics. However, previous MI attacks have solely disclosed private information in the latent space of GAN priors, limiting their semantic extraction and transferability across multiple target models and datasets. To address this challenge, we propose a novel method, Intermediate Features enhanced Generative Model Inversion (IF-GMI), which disassembles the GAN structure and exploits features between intermediate blocks. This allows us to extend the optimization space from latent code to intermediate features with enhanced expressive capabilities. To prevent GAN priors from generating unrealistic images, we apply a L1 ball constraint to the optimization process. Experiments on multiple benchmarks demonstrate that our method significantly outperforms previous approaches and achieves state-of-the-art results under various settings, especially in the out-of-distribution (OOD) scenario. Our code is available at: https://github.com/final-solution/IF-GMI | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# マンバにおける間接物体識別回路の検討
Investigating the Indirect Object Identification circuit in Mamba ( http://arxiv.org/abs/2407.14008v2 ) ライセンス: Link先を確認 | Danielle Ensign, Adrià Garriga-Alonso, | (参考訳) 現在の解釈可能性技術は、将来のモデルにどのように一般化されるのか?
関連するケーススタディは、Transformersに匹敵するスケーリングを備えた、最近の反復アーキテクチャであるMambaである。
我々は,マンバ前技法をマンバに適用し,間接物体識別(IOI)タスクに責任を持つ回路を部分的にリバースエンジニアリングする。
私たちの技術は
1)レイヤ39は重要なボトルネックです。
2)第39層における畳み込みは、1つの位置を前方に指定し、
3) 名前エンティティはLayer 39のSSMに線形に格納される。
最後に,Mamba IOI 回路を識別するために,自動回路発見ツールである位置属性パッシングを適用した。
コントリビューションは,回路ベースの機械的解釈可能性ツールがMambaアーキテクチャに有効であることを示す最初の証拠を提供する。
How well will current interpretability techniques generalize to future models? A relevant case study is Mamba, a recent recurrent architecture with scaling comparable to Transformers. We adapt pre-Mamba techniques to Mamba and partially reverse-engineer the circuit responsible for the Indirect Object Identification (IOI) task. Our techniques provide evidence that 1) Layer 39 is a key bottleneck, 2) Convolutions in layer 39 shift names one position forward, and 3) The name entities are stored linearly in Layer 39's SSM. Finally, we adapt an automatic circuit discovery tool, positional Edge Attribution Patching, to identify a Mamba IOI circuit. Our contributions provide initial evidence that circuit-based mechanistic interpretability tools work well for the Mamba architecture. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# 360VFI: 全方向ビデオフレーム補間のためのデータセットとベンチマーク
360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation ( http://arxiv.org/abs/2407.14066v2 ) ライセンス: Link先を確認 | Wenxuan Lu, Mengshun Hu, Yansheng Qiu, Liang Liao, Zheng Wang, | (参考訳) VR関連技術の開発により、視聴者はヘッドマウントディスプレイを通じてリアルで没入感のある体験を楽しめる一方、フレームレートの低い全方位ビデオはユーザーのめまいにつながる。
しかし, 平面フレーム補間法は, 主に, 強い歪みを伴う映像に合わせたモデルが欠如していることから, 全方向ビデオフレーム補間のための貴重なデータセットが不足していることから, 全方向ビデオ補間には適していない。
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
特に,等角射影(ERP)形式の特徴を先行情報として用いたピラミッド歪み感性特徴抽出器を提案する。
さらに,アフィン変換を用いて中間フレームの合成を容易にするデコーダを考案した。
360VFIは、Omnidirectional Video Frame Interpolationの課題を探求する最初のデータセットとベンチマークである。
提案した360VFIデータセットに4つの異なる歪み条件を呈示し、補間時の歪みに起因する課題を評価する。
さらに, 全方向歪みのモデル化により, 全方向ビデオ補間を効果的に改善できることを示した。
With the development of VR-related techniques, viewers can enjoy a realistic and immersive experience through a head-mounted display, while omnidirectional video with a low frame rate can lead to user dizziness. However, the prevailing plane frame interpolation methodologies are unsuitable for Omnidirectional Video Interpolation, chiefly due to the lack of models tailored to such videos with strong distortion, compounded by the scarcity of valuable datasets for Omnidirectional Video Frame Interpolation. In this paper, we introduce the benchmark dataset, 360VFI, for Omnidirectional Video Frame Interpolation. We present a practical implementation that introduces a distortion prior from omnidirectional video into the network to modulate distortions. We especially propose a pyramid distortion-sensitive feature extractor that uses the unique characteristics of equirectangular projection (ERP) format as prior information. Moreover, we devise a decoder that uses an affine transformation to facilitate the synthesis of intermediate frames further. 360VFI is the first dataset and benchmark that explores the challenge of Omnidirectional Video Frame Interpolation. Through our benchmark analysis, we presented four different distortion conditions scenes in the proposed 360VFI dataset to evaluate the challenge triggered by distortion during interpolation. Besides, experimental results demonstrate that Omnidirectional Video Interpolation can be effectively improved by modeling for omnidirectional distortion. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# 顔認識におけるデモグラフィックフェアネスのためのスコア正規化
Score Normalization for Demographic Fairness in Face Recognition ( http://arxiv.org/abs/2407.14087v2 ) ライセンス: Link先を確認 | Yu Linghu, Tiago de Freitas Pereira, Christophe Ecabert, Sébastien Marcel, Manuel Günther, | (参考訳) 公平なバイオメトリックアルゴリズムは、一つの決定しきい値が与えられた異なる人口集団間で同様の検証性能を有する。
残念ながら、最先端の顔認識ネットワークでは、スコアの分布は人口統計によって異なる。
余分なトレーニングや微調整によってこれらの分散を調整しようとする作業とは対照的に、私たちは単にポストプロセッシングの方法のスコアに重点を置いています。
証明されたように、よく知られたサンプル中心のスコア正規化手法であるZノルムとTノルムは、高セキュリティ動作点の公平性を向上しない。
そこで我々は、標準Z/Tノルムを拡張して、正規化における人口統計情報を統合する。
さらに,各個体群ごとのコホート類似性を具現化して,異なる操作点間の公平性を向上する可能性についても検討した。
我々は、異なる人口層(性別と民族)を持つ2つのデータセットで実験を行い、我々の技術が一般的に、検証性能を低下させることなく、5つの最先端の顔認識ネットワークの全体的な公正性を改善することを示す。
また,FMR(False Match Rate)とFNMR(False Non-Match Rate)の等価寄与が,高い利得に対して必要であることを示す。
コードとプロトコルが利用可能である。
Fair biometric algorithms have similar verification performance across different demographic groups given a single decision threshold. Unfortunately, for state-of-the-art face recognition networks, score distributions differ between demographics. Contrary to work that tries to align those distributions by extra training or fine-tuning, we solely focus on score post-processing methods. As proved, well-known sample-centered score normalization techniques, Z-norm and T-norm, do not improve fairness for high-security operating points. Thus, we extend the standard Z/T-norm to integrate demographic information in normalization. Additionally, we investigate several possibilities to incorporate cohort similarities for both genuine and impostor pairs per demographic to improve fairness across different operating points. We run experiments on two datasets with different demographics (gender and ethnicity) and show that our techniques generally improve the overall fairness of five state-of-the-art pre-trained face recognition networks, without downgrading verification performance. We also indicate that an equal contribution of False Match Rate (FMR) and False Non-Match Rate (FNMR) in fairness evaluation is required for the highest gains. Code and protocols are available. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# 光行列乗算による量子コンピューティングのシミュレーション
Emulating quantum computing with optical matrix multiplication ( http://arxiv.org/abs/2407.14178v2 ) ライセンス: Link先を確認 | Mwezi Koni, Hadrian Bezuidenhout, Isaac Nape, | (参考訳) 光コンピューティングは光の速度を利用してベクトル行列演算を効率的に行う。
並列計算を可能にするために、量子コンピューティングアルゴリズムの基盤である干渉を利用する。
本研究では、状態重畳などの量子力学的原理を用いてフォトニック行列乗法(英語版)の過程を定式化し、量子コンピューティングと古典的構造光を織り交ぜ、次いでよく知られたアルゴリズム、すなわちDeutsch-Jozsaのアルゴリズムを実証する。
これは、光学ベクトル行列乗法の主要な資源である光の自由度(英語版)における固有のテンソル積構造を解明することで達成される。
この目的のために、格子状に配置された局所ガウスモードを用いて離散基底を確立し、アダマール門の動作を実証する。
空間光変調器の再生可能およびデジタル機能を活用し、レンズによるフーリエ変換と組み合わせることで、我々は様々なアルゴリズムに適応できることを証明した。
そこで本研究は,量子情報処理における構造化光の利用を推し進める。
Optical computing harnesses the speed of light to perform vector-matrix operations efficiently. It leverages interference, a cornerstone of quantum computing algorithms, to enable parallel computations. In this work, we interweave quantum computing with classical structured light by formulating the process of photonic matrix multiplication using quantum mechanical principles such as state superposition and subsequently demonstrate a well known algorithm, namely the Deutsch-Jozsa's algorithm. This is accomplished by elucidating the inherent tensor product structure within the Cartesian transverse degrees of freedom of light, which is the main resource for optical vector-matrix multiplication. To this end, we establish a discrete basis using localized Gaussian modes arranged in a lattice formation and demonstrate the operation of a Hadamard Gate. Leveraging the reprogrammable and digital capabilities of spatial light modulators, coupled with Fourier transforms by lenses, our approach proves adaptable to various algorithms. Therefore our work advances the use of structured light for quantum information processing. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# Unipa-GPT:イタリア語における大学向けQAのための大規模言語モデル
Unipa-GPT: Large Language Models for university-oriented QA in Italian ( http://arxiv.org/abs/2407.14246v2 ) ライセンス: Link先を確認 | Irene Siragusa, Roberto Pirrone, | (参考訳) 本稿では,パレルモ大学における学士課程選択を支援するために開発された,大規模言語モデルに基づくチャットボットUnipa-GPTのアーキテクチャと訓練について述べる。
Unipa-GPT は gpt-3.5-turbo に依存しており、ヨーロッパ研究者の夜 (SHARPER night) の文脈で提示された。
実験では,RAG(Retrieval Augmented Generation)アプローチと微調整を併用してシステムを開発した。
Unipa-GPTのアーキテクチャ全体を示し、RAGと微調整システムを比較し、その性能に関する簡単な議論を報告する。
その他の大規模言語モデルとの比較と,SHARPERの夜間実験結果について述べる。
This paper illustrates the architecture and training of Unipa-GPT, a chatbot relying on a Large Language Model, developed for assisting students in choosing a bachelor/master degree course at the University of Palermo. Unipa-GPT relies on gpt-3.5-turbo, it was presented in the context of the European Researchers' Night (SHARPER night). In our experiments we adopted both the Retrieval Augmented Generation (RAG) approach and fine-tuning to develop the system. The whole architecture of Unipa-GPT is presented, both the RAG and the fine-tuned systems are compared, and a brief discussion on their performance is reported. Further comparison with other Large Language Models and the experimental results during the SHARPER night are illustrated. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# アルツハイマー病分類のためのパッチベース直観型多型ネットワーク(PIMPNet)
Patch-based Intuitive Multimodal Prototypes Network (PIMPNet) for Alzheimer's Disease classification ( http://arxiv.org/abs/2407.14277v2 ) ライセンス: Link先を確認 | Lisa Anita De Santi, Jörg Schlötterer, Meike Nauta, Vincenzo Positano, Christin Seifert, | (参考訳) アルツハイマー病(AD)のような認知症の臨床診断を支援するために、構造的磁気共鳴画像(sMRI)のようなボリューム神経画像検査が日常的に適用されている。
神経放射線学者は3D sMRIを用いて、大域および局所脳萎縮や特徴構造の形状変化など、ADによる脳形態の異常を検出し、監視する。
深層学習(DL)モデルに基づく診断システムの開発には,ADのためのsMRIを解析する研究が盛んに行われている。
しかし, sMRI検査から抽出した解剖学的情報は, 正常な加齢によるADパターンと正常な変化とを区別するために, 患者の年齢とともに解釈する必要がある。
この文脈において、部分プロトタイプニューラルネットワークは、DLの計算上の利点を解釈可能な設計アーキテクチャに統合し、医療画像応用において有望な結果を示した。
PIMPNetは3次元画像と人口統計学のための最初の解釈可能なマルチモーダルモデルであり、3次元sMRIと患者の年齢からADのバイナリ分類に適用した。
老朽化プロトタイプは単一モダリティモデルと比較して予測性能を向上しないが、モデルの設計とマルチモーダルプロトタイプトレーニングプロセスの方向性における今後の研究の基盤となる。
Volumetric neuroimaging examinations like structural Magnetic Resonance Imaging (sMRI) are routinely applied to support the clinical diagnosis of dementia like Alzheimer's Disease (AD). Neuroradiologists examine 3D sMRI to detect and monitor abnormalities in brain morphology due to AD, like global and/or local brain atrophy and shape alteration of characteristic structures. There is a strong research interest in developing diagnostic systems based on Deep Learning (DL) models to analyse sMRI for AD. However, anatomical information extracted from an sMRI examination needs to be interpreted together with patient's age to distinguish AD patterns from the regular alteration due to a normal ageing process. In this context, part-prototype neural networks integrate the computational advantages of DL in an interpretable-by-design architecture and showed promising results in medical imaging applications. We present PIMPNet, the first interpretable multimodal model for 3D images and demographics applied to the binary classification of AD from 3D sMRI and patient's age. Despite age prototypes do not improve predictive performance compared to the single modality model, this lays the foundation for future work in the direction of the model's design and multimodal prototype training process | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# 非構造環境における自律ロボットの基礎モデル
Foundation Models for Autonomous Robots in Unstructured Environments ( http://arxiv.org/abs/2407.14296v2 ) ライセンス: Link先を確認 | Hossein Naderi, Alireza Shojaei, Lifu Huang, | (参考訳) 建設現場などの非構造環境におけるロボットによる作業の自動化は長年にわたって望まれてきた。
しかし、これらの設定における予測不可能なイベントの度合いは、製造のようなより構造化された設定よりもはるかに少ない。
近年,Large Language Models (LLMs) のような事前訓練された基礎モデルは,学習データに存在しない問題に対するゼロショットソリューションを提供することによって,非構造化環境にロボットを導入するための潜在的な解決策として提案されている。
そこで本研究では,多次元的観点から,事前学習した基礎モデルの潜在可能性と課題について検討する。
この研究は、ロボットと非構造環境の2つの分野における基礎モデルの応用を体系的にレビューし、それらを熟考的行動理論で合成した。
LLMの言語能力は、人間とロボットの相互作用の知覚を改善するために、他の特徴よりも利用されてきた。
一方, LLMの使用は, 建設におけるプロジェクト管理と安全, 災害管理における自然災害検出により多くの応用があることが示唆された。
これらの知見を合成し、この分野の最先端の技術を5段階の自動化スケールに配置し、条件付き自動化に配置した。
この評価は、自律的な安全な非構造環境に対する将来のシナリオ、課題、解決策を想定するために使用された。
私たちの研究は、その将来に向けての進捗を追跡するためのベンチマークと見なすことができます。
Automating activities through robots in unstructured environments, such as construction sites, has been a long-standing desire. However, the high degree of unpredictable events in these settings has resulted in far less adoption compared to more structured settings, such as manufacturing, where robots can be hard-coded or trained on narrowly defined datasets. Recently, pretrained foundation models, such as Large Language Models (LLMs), have demonstrated superior generalization capabilities by providing zero-shot solutions for problems do not present in the training data, proposing them as a potential solution for introducing robots to unstructured environments. To this end, this study investigates potential opportunities and challenges of pretrained foundation models from a multi-dimensional perspective. The study systematically reviews application of foundation models in two field of robotic and unstructured environment and then synthesized them with deliberative acting theory. Findings showed that linguistic capabilities of LLMs have been utilized more than other features for improving perception in human-robot interactions. On the other hand, findings showed that the use of LLMs demonstrated more applications in project management and safety in construction, and natural hazard detection in disaster management. Synthesizing these findings, we located the current state-of-the-art in this field on a five-level scale of automation, placing them at conditional automation. This assessment was then used to envision future scenarios, challenges, and solutions toward autonomous safe unstructured environments. Our study can be seen as a benchmark to track our progress toward that future. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# 低空飛行機用ビジョンベース電力線ケーブルとパイロン検出
Vision-Based Power Line Cables and Pylons Detection for Low Flying Aircrafts ( http://arxiv.org/abs/2407.14352v2 ) ライセンス: Link先を確認 | Jakub Gwizdała, Doruk Oner, Soumava Kumar Roy, Mian Akbar Shah, Ad Eberhard, Ivan Egorov, Philipp Krüsi, Grigory Yakushev, Pascal Fua, | (参考訳) 電力線は低空飛行機、特に低視認性条件下では危険である。
したがって、航空機の周囲を分析し、パイロットに「二対目の目」を提供することで安全性を高めることができる。
そこで我々は,航空機に搭載されたカメラで数百メートル離れた距離で撮影した画像から,電力線ケーブルとパイロンを共同で検出する深層学習手法を開発した。
そこで我々は,現代的畳み込み型アーキテクチャとトランスファーラーニング,カービリナー構造記述に適応した損失関数を組み合わせた。
我々は、両方の検出タスクに1つのネットワークを使用し、2つのベンチマークデータセットでその性能を実証した。
オンボードシステムに統合し、飛行中に実行し、実験により、両方のデータセット上で従来の遠隔ケーブル検出方法よりも優れており、また、アノテーションがデータに利用できるため、パイロンの検出にも成功していることを示した。
Power lines are dangerous for low-flying aircrafts, especially in low-visibility conditions. Thus, a vision-based system able to analyze the aircraft's surroundings and to provide the pilots with a "second pair of eyes" can contribute to enhancing their safety. To this end, we have developed a deep learning approach to jointly detect power line cables and pylons from images captured at distances of several hundred meters by aircraft-mounted cameras. In doing so, we have combined a modern convolutional architecture with transfer learning and a loss function adapted to curvilinear structure delineation. We use a single network for both detection tasks and demonstrated its performance on two benchmarking datasets. We have integrated it within an onboard system and run it in flight, and have demonstrated with our experiments that it outperforms the prior distant cable detection method on both datasets, while also successfully detecting pylons, given their annotations are available for the data. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |
# Red-QAOA:回路還元による効率的な変分最適化
Red-QAOA: Efficient Variational Optimization through Circuit Reduction ( http://arxiv.org/abs/2407.14490v2 ) ライセンス: Link先を確認 | Meng Wang, Bo Fang, Ang Li, Prashant Nair, | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、入力をグラフに変換することで組合せ最適化の課題に対処する。
しかし,QAOAの最適パラメータ探索は雑音の影響が大きい。
より大きな問題はより大きなグラフをもたらし、より多くの量子ビットを必要とし、その結果を非常にノイズに敏感にする。
本稿では, 模擬アニーリング法を用いて, エネルギーランドスケープ濃度を利用したRed-QAOAを提案する。
Red-QAOAは、元のグラフとほぼ同じパラメータを持つより小さな(蒸留された)グラフを生成する。
蒸留されたグラフは、より小さな量子回路を生成するため、ノイズの影響を低減する。
最適化の最後に、Red-QAOAは原グラフ上の蒸留グラフからパラメータを使用し、原グラフ上のパラメータ探索を継続する。
Red-QAOAは、3200の現実世界の問題に対して最先端のグラフニューラルネットワーク(GNN)ベースのプール技術より優れています。
Red-QAOAではノード数とエッジ数がそれぞれ28%、エッジ数が37%減少し、平均2乗誤差は2%に過ぎなかった。
The Quantum Approximate Optimization Algorithm (QAOA) addresses combinatorial optimization challenges by converting inputs to graphs. However, the optimal parameter searching process of QAOA is greatly affected by noise. Larger problems yield bigger graphs, requiring more qubits and making their outcomes highly noise-sensitive. This paper introduces Red-QAOA, leveraging energy landscape concentration via a simulated annealing-based graph reduction. Red-QAOA creates a smaller (distilled) graph with nearly identical parameters to the original graph. The distilled graph produces a smaller quantum circuit and thus reduces noise impact. At the end of the optimization, Red-QAOA employs the parameters from the distilled graph on the original graph and continues the parameter search on the original graph. Red-QAOA outperforms state-of-the-art Graph Neural Network (GNN)-based pooling techniques on 3200 real-world problems. Red-QAOA reduced node and edge counts by 28% and 37%, respectively, with a mean square error of only 2%. | 翻訳日:2024-07-23 13:31:17 公開日:2024-07-22 |