このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241021となっている論文です。

PDF登録状況(公開日: 20241021)

TitleAuthorsAbstract論文公表日・翻訳日
# 効率的なロボットマニピュレーションスキル獲得のためのヒューマンエージェント共同学習

Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition ( http://arxiv.org/abs/2407.00299v3 )

ライセンス: Link先を確認
Shengcheng Luo, Quanquan Peng, Jun Lv, Kaiwen Hong, Katherine Rose Driggs-Campbell, Cewu Lu, Yong-Lu Li, (参考訳) デモ収集のための遠隔操作システムを利用することで、ロボット操作をより効率的に学習することが可能になる。 しかし,手やグリップを備えたロボットアームを遠隔操作する遠隔操作システムでは,タスクの高次元性,動作の複雑さ,生理構造の違いによる固有の課題が提示される。 本研究では,人間の操作者とロボットの協調学習システムを紹介し,人間の操作者がロボットのエンドエフェクタの制御を学習支援エージェントと共有し,データ収集プロセスを簡素化し,人間によるデモンストレーション収集とロボット操作の同時訓練を容易にする。 データが蓄積されると、補助エージェントは徐々に学習する。 その結果、人的労力や注意力の削減が要求され、データ収集プロセスの効率が向上する。 また、人間の操作者は手動制御と自動制御のトレードオフを達成するために制御比率を調整できる。 実環境と実環境の両方で実験を行った。 ユーザスタディと定量的評価により,本システムはデータ収集効率を向上し,収集したデータが下流作業に十分な品質であることを保証するとともに,人的適応の必要性を低減できることが明らかとなった。 詳細については、私たちのWebページ https://norweig1an.github.io/HAJL.github.io/を参照してください。

Employing a teleoperation system for gathering demonstrations offers the potential for more efficient learning of robot manipulation. However, teleoperating a robot arm equipped with a dexterous hand or gripper, via a teleoperation system presents inherent challenges due to the task's high dimensionality, complexity of motion, and differences between physiological structures. In this study, we introduce a novel system for joint learning between human operators and robots, that enables human operators to share control of a robot end-effector with a learned assistive agent, simplifies the data collection process, and facilitates simultaneous human demonstration collection and robot manipulation training. As data accumulates, the assistive agent gradually learns. Consequently, less human effort and attention are required, enhancing the efficiency of the data collection process. It also allows the human operator to adjust the control ratio to achieve a trade-off between manual and automated control. We conducted experiments in both simulated environments and physical real-world settings. Through user studies and quantitative evaluations, it is evident that the proposed system could enhance data collection efficiency and reduce the need for human adaptation while ensuring the collected data is of sufficient quality for downstream tasks. \textit{For more details, please refer to our webpage https://norweig1an.github.io/HAJL.github.io/.
翻訳日:2024-11-09 00:59:29 公開日:2024-10-21
# モデルと脳の類似度スコアの微分可能最適化

Differentiable Optimization of Similarity Scores Between Models and Brains ( http://arxiv.org/abs/2407.07059v2 )

ライセンス: Link先を確認
Nathan Cloos, Moufan Li, Markus Siegel, Scott L. Brincat, Earl K. Miller, Guangyu Robert Yang, Christopher J. Cueva, (参考訳) 2つのシステム - 生物学的または人工的な - が同様の方法で情報を処理しているかどうかをどうやって知るのか? 線形回帰、CKA(Centered Kernel Alignment)、正規化バーレス類似度(NBS)、角状プロクリスト距離といった類似度は、この類似度を定量化するためにしばしば用いられる。 しかし、どの点が高い類似点と「良い」点を構成しているのかは現時点では不明である。 本稿では,これらの質問を類似度尺度で識別し,スコアを直接最大化する新しいツールを提案する。 驚くべきことに、高い類似度スコアは、ニューラルネットワークと整合した方法でタスク関連情報を符号化することを保証していない。 よい類似度スコアには一貫性のあるしきい値が見つからない - 測定値とデータセットの両方に依存します。 さらに、類似度スコアを最大化するために最適化された合成データセットは、まずターゲットデータセットの最も分散主成分を学習するが、角状プロクリストのようないくつかの手法は、CKAのような手法よりもはるかに早く、低分散次元をキャプチャする。 そこで本研究では,CKA,角状プロクリスト,NBSの感度を主成分の分散に対して数学的に導出し,高分散成分に重きを置くCKAについて説明する。 最後に、複数の類似度尺度を共同最適化することにより、許容範囲を特徴づけ、いくつかの類似度尺度が他のものよりもより制約的であることを明らかにする。 現在の測定基準は、ニューラルネットワーク間の類似性を定量化するための一見単純な方法であるが、我々の研究は、慎重に解釈する必要性を浮き彫りにしている。 私たちが開発したツールが,現在と将来の類似性対策をよりよく理解するために,実践者によって使用されることを期待しています。

How do we know if two systems - biological or artificial - process information in a similar way? Similarity measures such as linear regression, Centered Kernel Alignment (CKA), Normalized Bures Similarity (NBS), and angular Procrustes distance, are often used to quantify this similarity. However, it is currently unclear what drives high similarity scores and even what constitutes a "good" score. Here, we introduce a novel tool to investigate these questions by differentiating through similarity measures to directly maximize the score. Surprisingly, we find that high similarity scores do not guarantee encoding task-relevant information in a manner consistent with neural data; and this is particularly acute for CKA and even some variations of cross-validated and regularized linear regression. We find no consistent threshold for a good similarity score - it depends on both the measure and the dataset. In addition, synthetic datasets optimized to maximize similarity scores initially learn the highest variance principal component of the target dataset, but some methods like angular Procrustes capture lower variance dimensions much earlier than methods like CKA. To shed light on this, we mathematically derive the sensitivity of CKA, angular Procrustes, and NBS to the variance of principal component dimensions, and explain the emphasis CKA places on high variance components. Finally, by jointly optimizing multiple similarity measures, we characterize their allowable ranges and reveal that some similarity measures are more constraining than others. While current measures offer a seemingly straightforward way to quantify the similarity between neural systems, our work underscores the need for careful interpretation. We hope the tools we developed will be used by practitioners to better understand current and future similarity measures.
翻訳日:2024-11-08 22:51:19 公開日:2024-10-21
# 正当性と排他性:ソーシャルメディアアルゴリズムとてんかんコミュニティに属するダイナミックス

Authenticity and exclusion: social media algorithms and the dynamics of belonging in epistemic communities ( http://arxiv.org/abs/2407.08552v2 )

ライセンス: Link先を確認
Nil-Jana Akpinar, Sina Fazelpour, (参考訳) 近年の哲学的な研究は、知識人の社会的アイデンティティが貢献の受け取り、評価、評価にどのように影響するかを探求してきた。 しかし、今日のてんかんコミュニティにおけるコミュニケーションの仲介・実現における技術の役割について、重要なギャップが残っている。 本稿では,ソーシャルメディアプラットフォームとその推薦アルゴリズムが,少数派の研究者の専門的視認性と機会をいかに形成するかを検討することで,このギャップに対処する。 まず、これらのアルゴリズムは少数派の研究者の専門的な視認性を損なうことなく、排除の体系的なパターンを創出する。 第二に、これらの少数派グループの中では、アルゴリズムは多数派に近づき、プロの可視性を犠牲にして同化を動機付ける。 第3に、少数派の研究者が作成したコンテンツは、少数派のユーザーが作成した類似のコンテンツよりも、多数派にはあまり見えない。 重要なことは、プロのコンテンツに対する個人的関与がグループアイデンティティとは無関係であるにもかかわらず、これらのパターンが出現する。 これらの知見は、疫学的不正と排除に関する哲学的議論や、これらの害に対処するための政策提案に重要な意味を持つ。 より広い範囲で、彼らは広範に広まるものの、今日のてんかんのコミュニティを形成する上でのAIとデータ駆動技術の役割を無視することが多い。

Recent philosophical work has explored how the social identity of knowers influences how their contributions are received, assessed, and credited. However, a critical gap remains regarding the role of technology in mediating and enabling communication within today's epistemic communities. This paper addresses this gap by examining how social media platforms and their recommendation algorithms shape the professional visibility and opportunities of researchers from minority groups. Using agent-based simulations, we investigate this question with respect to components of a widely used recommendation algorithm, and uncover three key patterns: First, these algorithms disproportionately harm the professional visibility of researchers from minority groups, creating systemic patterns of exclusion. Second, within these minority groups, the algorithms result in greater visibility for users who more closely resemble the majority group, incentivizing assimilation at the cost of professional invisibility. Third, even for topics that strongly align with minority identities, content created by minority researchers is less visible to the majority than similar content produced by majority users. Importantly, these patterns emerge, even though individual engagement with professional content is independent of group identity. These findings have significant implications for philosophical discussions on epistemic injustice and exclusion, and for policy proposals aimed at addressing these harms. More broadly, they call for a closer examination of the pervasive, but often neglected role of AI and data-driven technologies in shaping today's epistemic communities.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-21
# DisQ: 量子分散システムのためのマルコフ決定プロセスに基づく言語

DisQ: A Markov Decision Process Based Language for Quantum Distributed Systems ( http://arxiv.org/abs/2407.09710v2 )

ライセンス: Link先を確認
Le Chang, Saitej Yavvari, Rance Cleaveland, Samik Basu, Liyi Li, (参考訳) 量子コンピュータの開発は、重要な量子資源の制限にもかかわらず、大きなマイルストーンに達している。 近年、単一位置量子コンピューティングと量子ネットワーク技術を組み合わせて、遠隔プロセッサで大きな絡み合った量子ビット群を構築できるような分散量子システムの開発が試みられ、量子アルゴリズムを分散的に実行できるようになった。 本研究では,分散バージョンへの量子アルゴリズムの書き直しを容易にするフレームワークとしてDisQを提案する。 DisQの中核は分散量子プログラミング言語であり、化学抽象機械(CHAM)とマルコフ決定プロセス(MDP)の概念と、明確に区別された量子並列性と分散挙動を提供することを目的としている。 本研究では,DisQ言語に基づいて,量子アルゴリズムの等価性とその分散バージョンを検証するシミュレーション関係を構築した。 分散バージョンに等価な書き直しを示すために、量子加算やショアのアルゴリズムなどのいくつかのケーススタディを示す。

The development of quantum computers has reached a great milestone, in spite of restrictions on important quantum resources: the number of qubits being entangled at a single-location quantum computer. Recently, there has been some work to combine single-location quantum computing and quantum networking techniques to develop distributed quantum systems such that large entangled qubit groups can be established through remote processors, and quantum algorithms can be executed distributively. We present DisQ as a framework to facilitate the rewrites of quantum algorithms to their distributed versions. The core of DisQ is a distributed quantum programming language that combines the concepts of Chemical Abstract Machine (CHAM) and Markov Decision Processes (MDP) with the objective of providing a clearly distinguishing quantum concurrent and distributed behaviors. Based on the DisQ language, we develop a simulation relation for verifying the equivalence of a quantum algorithm and its distributed versions. We present several case studies, such as quantum addition and Shor's algorithm, to demonstrate their equivalent rewrites to distributed versions.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-21
# SPINACH: SPARQLによるリアルタイム質問のマッチングのための情報ナビゲーション

SPINACH: SPARQL-Based Information Navigation for Challenging Real-World Questions ( http://arxiv.org/abs/2407.11417v2 )

ライセンス: Link先を確認
Shicheng Liu, Sina J. Semnani, Harold Triedman, Jialiang Xu, Isaac Dan Zhao, Monica S. Lam, (参考訳) 大きな言語モデル(LLM)は知識ベース質問回答(KBQA)タスクを大幅に改善した。 しかし、KBQA研究で使用されるデータセットは、KBQAタスクの真の複雑さを捉えていない。 単純な質問や、合成的に生成された論理形式、あるいは小さな知識ベース(KB)スキーマに基づいている。 本稿では,Wikidata の "Request a Query" フォーラムでの議論から収集した KBQA データセットである SPINACH データセットについて紹介する。 これらの内部クエリの複雑さはKBQAシステムと呼ばれるもので、大規模で多くの場合不完全なスキーマを動的に探索し、それらについて推論することができるため、包括的なトレーニングデータセットを作成することは不可能である。 また、人間の専門家が難解な問題に対処するためにどのようにSPARQLを書くかを模倣する、SPINACHとも呼ばれる、コンテキスト内学習KBQAエージェントも導入しています。 SPINACHは、QALD-7、QALD-9 Plus、QALD-10データセットのそれぞれ31.0%、27.0%、および10.0%の$F_1$を達成し、WikiWebQuestions上で微調整されたLLaMA SOTAモデルの1.6%以内となる。 我々の新しいSPINACHデータセットでは、SPINACHエージェントは、最高のGPT-4ベースのKBQAエージェントを含む全てのベースラインを少なくとも38.1%上回る。

Large Language Models (LLMs) have led to significant improvements in the Knowledge Base Question Answering (KBQA) task. However, datasets used in KBQA studies do not capture the true complexity of KBQA tasks. They either have simple questions, use synthetically generated logical forms, or are based on small knowledge base (KB) schemas. We introduce the SPINACH dataset, an expert-annotated KBQA dataset collected from discussions on Wikidata's "Request a Query" forum with 320 decontextualized question-SPARQL pairs. The complexity of these in-the-wild queries calls for a KBQA system that can dynamically explore large and often incomplete schemas and reason about them, as it is infeasible to create a comprehensive training dataset. We also introduce an in-context learning KBQA agent, also called SPINACH, that mimics how a human expert would write SPARQLs to handle challenging questions. SPINACH achieves a new state of the art on the QALD-7, QALD-9 Plus and QALD-10 datasets by 31.0%, 27.0%, and 10.0% in $F_1$, respectively, and coming within 1.6% of the fine-tuned LLaMA SOTA model on WikiWebQuestions. On our new SPINACH dataset, the SPINACH agent outperforms all baselines, including the best GPT-4-based KBQA agent, by at least 38.1% in $F_1$.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-21
# 真実は普遍である: LLMにおける嘘のロバスト検出

Truth is Universal: Robust Detection of Lies in LLMs ( http://arxiv.org/abs/2407.12831v2 )

ライセンス: Link先を確認
Lennart Bürger, Fred A. Hamprecht, Boaz Nadler, (参考訳) 大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。 特にLLMは、意図的に偽の文を出力する"lying"能力を持つ。 したがって、LSMがいつあるかを検出する手法を開発することが重要かつ重要である。 実際、いくつかの著者はLPMを検出するための分類器を内部モデルアクティベーションに基づいて訓練した。 しかし、他の研究者はこれらの分類器が一般化に失敗する可能性があることを示した。 本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。 この目的のために、我々は以下の重要な貢献をしている。 i) 真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。 特に、この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。 我々の分析は、過去の研究で見られた一般化の失敗を説明し、より堅牢な嘘検出のステージを設定します。 (二)造営 i) 正確なLLM嘘検出装置を構築した。 実証的に,提案した分類器は,虚偽の事実文と偽の事実文を区別し,実世界のシナリオで生成した嘘を検出することにより,94%の精度を達成できる。

Large Language Models (LLMs) have revolutionised natural language processing, exhibiting impressive human-like capabilities. In particular, LLMs are capable of "lying", knowingly outputting false statements. Hence, it is of interest and importance to develop methods to detect when LLMs lie. Indeed, several authors trained classifiers to detect LLM lies based on their internal model activations. However, other researchers showed that these classifiers may fail to generalise, for example to negated statements. In this work, we aim to develop a robust method to detect when an LLM is lying. To this end, we make the following key contributions: (i) We demonstrate the existence of a two-dimensional subspace, along which the activation vectors of true and false statements can be separated. Notably, this finding is universal and holds for various LLMs, including Gemma-7B, LLaMA2-13B, Mistral-7B and LLaMA3-8B. Our analysis explains the generalisation failures observed in previous studies and sets the stage for more robust lie detection; (ii) Building upon (i), we construct an accurate LLM lie detector. Empirically, our proposed classifier achieves state-of-the-art performance, attaining 94% accuracy in both distinguishing true from false factual statements and detecting lies generated in real-world scenarios.
翻訳日:2024-11-08 20:25:29 公開日:2024-10-21
# バック・イン・タイム拡散:医療用ディープフェイクの教師なし検出

Back-in-Time Diffusion: Unsupervised Detection of Medical Deepfakes ( http://arxiv.org/abs/2407.15169v2 )

ライセンス: Link先を確認
Fred Grabovski, Lior Yasur, Guy Amit, Yisroel Mirsky, (参考訳) 近年の生成モデルの発展により、画像コンテンツの編集や作成が容易になり、特に医療におけるディープフェイクの拡散への懸念が高まっている。 従来のカメラで捉えた操作画像を検出する技術が多数存在するが、医療画像への適用性は限られている。 この制限は、医用画像の特徴的な法医学的特徴、すなわち画像処理の結果に由来する。 本研究では拡散モデルに基づく医用画像のための新しい異常検出法を提案する。 通常、拡散モデルを用いて画像を生成する。 しかし、モデルに疑似画像上の拡散を逆転させることにより、類似したプロセスを用いて合成内容を検出する方法を示す。 われわれはCTおよびMRIで偽腫瘍を検出・除去する作業について検討した。 我々の手法は、他の最先端の非監視検出器よりはるかに優れており、AUCは0.79から0.9、除去は0.91から0.96から平均して0.9である。 また、AI説明可能性ツールを使用して仮説を探求し、コードと新しい医療用ディープフェイクデータセットを公開し、この領域のさらなる研究を奨励します。

Recent progress in generative models has made it easier for a wide audience to edit and create image content, raising concerns about the proliferation of deepfakes, especially in healthcare. Despite the availability of numerous techniques for detecting manipulated images captured by conventional cameras, their applicability to medical images is limited. This limitation stems from the distinctive forensic characteristics of medical images, a result of their imaging process. In this work we propose a novel anomaly detector for medical imagery based on diffusion models. Normally, diffusion models are used to generate images. However, we show how a similar process can be used to detect synthetic content by making a model reverse the diffusion on a suspected image. We evaluate our method on the task of detecting fake tumors injected and removed from CT and MRI scans. Our method significantly outperforms other state of the art unsupervised detectors with an increased AUC of 0.9 from 0.79 for injection and of 0.96 from 0.91 for removal on average. We also explore our hypothesis using AI explainability tools and publish our code and new medical deepfake datasets to encourage further research into this domain.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-21
# 階層的・プログレッシブトレーニングによる資源効率の良いフェデレーション・マルチモーダル学習

Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training ( http://arxiv.org/abs/2407.15426v2 )

ライセンス: Link先を確認
Ye Lin Tun, Chu Myaet Thwal, Minh N. H. Nguyen, Choong Seon Hong, (参考訳) 異なるデータモダリティを組み合わせることで、ディープニューラルネットワークは複雑なタスクにより効果的に取り組むことができ、マルチモーダル学習がますます人気になる。 エンドユーザに近いマルチモーダルデータを活用するためには,多モーダル学習と,フェデレートラーニング(FL)のようなプライバシ保護アプローチを統合することが不可欠である。 しかし、従来の単モーダル学習と比較して、多モーダル設定では各モーダルに対して専用エンコーダが必要であり、その結果、より大きくより複雑なモデルが得られる。 これらのモデルのトレーニングにはかなりのリソースが必要であり、限られた計算と通信資源で動くFLクライアントにとって大きな課題となる。 これらの課題に対処するため,レイヤワイドなマルチモーダル学習アプローチであるLW-FedMMLを導入し,学習プロセスを複数の段階に分割する。 各ステージはモデルの一部のみをトレーニングすることに集中し、それによってメモリと計算要求を大幅に削減する。 さらに、FLクライアントはトレーニング済みのモデル部分と中央サーバを交換するだけで、結果として発生する通信コストを削減できる。 提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。 その結果、LW-FedMMLは、FLクライアントのリソース負担を大幅に軽減しつつ、従来のエンドツーエンドのマルチモーダル学習(FedMML)と競合することを示した。 具体的には、LW-FedMMLはメモリ使用量を最大2.7\times$、計算演算(FLOP)を2.4\times$、通信総コストを2.3\times$に下げる。 プログレッシブトレーニングアプローチであるProg-FedMMLについても検討する。 リソース効率はLW-FedMMLより低いが、Prog-FedMMLはエンドツーエンドのFedMMLのパフォーマンスを上回る可能性があり、リソース制約が少ないシナリオでは実行可能な選択肢である。

Combining different data modalities enables deep neural networks to tackle complex tasks more effectively, making multimodal learning increasingly popular. To harness multimodal data closer to end users, it is essential to integrate multimodal learning with privacy-preserving approaches like federated learning (FL). However, compared to conventional unimodal learning, multimodal setting requires dedicated encoders for each modality, resulting in larger and more complex models. Training these models requires significant resources, presenting a substantial challenge for FL clients operating with limited computation and communication resources. To address these challenges, we introduce LW-FedMML, a layer-wise federated multimodal learning approach which decomposes the training process into multiple stages. Each stage focuses on training only a portion of the model, thereby significantly reducing the memory and computational requirements. Moreover, FL clients only need to exchange the trained model portion with the central server, lowering the resulting communication cost. We conduct extensive experiments across various FL and multimodal learning settings to validate the effectiveness of our proposed method. The results demonstrate that LW-FedMML can compete with conventional end-to-end federated multimodal learning (FedMML) while significantly reducing the resource burden on FL clients. Specifically, LW-FedMML reduces memory usage by up to $2.7\times$, computational operations (FLOPs) by $2.4\times$, and total communication cost by $2.3\times$. We also explore a progressive training approach called Prog-FedMML. While it offers lesser resource efficiency than LW-FedMML, Prog-FedMML has the potential to surpass the performance of end-to-end FedMML, making it a viable option for scenarios with fewer resource constraints.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-21
# AssistantBench: Webエージェントは現実的および時間消費的なタスクを解決できるか?

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? ( http://arxiv.org/abs/2407.15711v2 )

ライセンス: Link先を確認
Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant, (参考訳) 言語エージェント(Language agent)は、言語モデル(LM)上に構築され、オープンウェブのような複雑な環境と対話できるシステムである。 本研究では,そのようなエージェントがWeb上で現実的かつ時間を要するタスクをこなせるか,例えば不動産市場をモニタリングしたり,関連するビジネスを探索したりすることができるかを検討する。 AssistantBenchは、214の現実的なタスクからなる挑戦的な新しいベンチマークで、さまざまなシナリオやドメインをカバーして、自動的に評価できる。 また,AssistantBenchは,26点以上の精度を達成できないため,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにする。 クローズドブックのLMは精度が良いが、精度は低く、事実を幻覚させる傾向がある。 最先端のWebエージェントはスコアがゼロに近い。 さらに、SeePlanAct(SPA)を導入し、従来のエージェントを著しく上回り、SPAとクローズドブックモデルのアンサンブルが全体的なパフォーマンスに最高のものになった。 さらに、現在のシステムの障害を分析し、オープンなWebナビゲーションが大きな課題であることを強調します。

Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 26 points. While closed-book LMs perform well in terms of accuracy, they exhibit low precision and tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that open web navigation remains a major challenge.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-21
# 配向平均の数値計算と分子物理学への応用

Numerical evaluation of orientation averages and its application to molecular physics ( http://arxiv.org/abs/2407.17434v2 )

ライセンス: Link先を確認
Alexander Blech, Raoul M. M. Ebeling, Marec Heger, Christiane P. Koch, Daniel M. Reich, (参考訳) 分子物理学では、可観測物質を計算する場合、特に液体または気体相の実験をモデル化する場合、分子の配向を平均的に計算する必要があることが多い。 オイラー角の観点から評価すると、これは2次元または3次元の単位球体上の積分と密接に関連している。 積分の計算コストは二次法に大きく依存しており、シミュレーションの実現に不可欠な方法の選択が可能である。 数種類の球状二次法を効率と誤差分布の観点から再検討した後, 配向平均の最良の二次法を選択するためのガイドラインを導出し, キラル分子物理の3つの例で概説する。 ガウス二次法は、広範囲のアプリケーションに対して数値的に正確な積分を実現することができるが、他の方法は特定の状況において有利である。 また, このガイドラインは, 高次元球面領域や他の測地にも適用することができる。 また、様々な二次メソッドに柔軟なインターフェースを提供するPythonパッケージも提示する。

In molecular physics, it is often necessary to average over the orientation of molecules when calculating observables, in particular when modelling experiments in the liquid or gas phase. Evaluated in terms of Euler angles, this is closely related to integration over two- or three-dimensional unit spheres, a common problem discussed in numerical analysis. The computational cost of the integration depends significantly on the quadrature method, making the selection of an appropriate method crucial for the feasibility of simulations. After reviewing several classes of spherical quadrature methods in terms of their efficiency and error distribution, we derive guidelines for choosing the best quadrature method for orientation averages and illustrate these with three examples from chiral molecule physics. While Gauss quadratures allow for achieving numerically exact integration for a wide range of applications, other methods offer advantages in specific circumstances. Our guidelines can also by applied to higher-dimensional spherical domains and other geometries. We also present a Python package providing a flexible interface to a variety of quadrature methods.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-21
# Adaptive Contrastive Search: オープンエンディングテキスト生成のための不確実なガイド付きデコード

Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation ( http://arxiv.org/abs/2407.18698v2 )

ライセンス: Link先を確認
Esteban Garces Arias, Julian Rodemann, Meimingwei Li, Christian Heumann, Matthias Aßenmacher, (参考訳) 大規模言語モデルの出力分布から高品質なテキストを生成するための復号化は、言語モデリングにおける複雑な課題である。 ビームサーチ、温度によるサンプリング、$k-$sampling、core $p-$sampling、典型的復号化、コントラスト的復号化、コントラスト的探索といった様々な手法が提案されている。 本研究では,適応的退化ペナルティを取り入れた新しい復号法であるアダプティブ・コントラッシブ・サーチを導入する。 この戦略は、言語モデリングプロセスの創造性と多様性を両立させると同時に、一貫性と高品質なテキスト出力を生成するように設計されている。 本研究は,異なるモデルアーキテクチャとデータセットの両面での性能向上を示し,テキスト生成タスクにおける本手法の有効性を裏付けるものである。 コードベース、データセット、モデルが公開されています。

Decoding from the output distributions of large language models to produce high-quality text is a complex challenge in language modeling. Various approaches, such as beam search, sampling with temperature, $k-$sampling, nucleus $p-$sampling, typical decoding, contrastive decoding, and contrastive search, have been proposed to address this problem, aiming to improve coherence, diversity, as well as resemblance to human-generated text. In this study, we introduce adaptive contrastive search, a novel decoding strategy extending contrastive search by incorporating an adaptive degeneration penalty, guided by the estimated uncertainty of the model at each generation step. This strategy is designed to enhance both the creativity and diversity of the language modeling process while at the same time producing coherent and high-quality generated text output. Our findings indicate performance enhancement in both aspects, across different model architectures and datasets, underscoring the effectiveness of our method in text generation tasks. Our code base, datasets, and models are publicly available.
翻訳日:2024-11-08 14:50:05 公開日:2024-10-21
# Actor-Criticアプローチによる平均逆強化学習における順序最適大域収束

Order-Optimal Global Convergence for Average Reward Reinforcement Learning via Actor-Critic Approach ( http://arxiv.org/abs/2407.18878v2 )

ライセンス: Link先を確認
Swetha Ganesh, Washim Uddin Mondal, Vaneet Aggarwal, (参考訳) 本研究は,一般パラメトリゼーションによる平均回帰強化学習を解析する。 現在のSOTA (State-of-the-art) では、この問題に対する保証は、マルコフ過程の混合時間に関する、最適か要求事前の知識のいずれかであり、ほとんどの現実的なシナリオでは利用できない。 これらの問題に対処するために,マルチレベルモンテカルロのNatural Actor-Critic (MLMC-NAC)アルゴリズムを導入する。 我々のアプローチは、混合時間の知識を必要とせず、初めて$\tilde{\mathcal{O}}(1/\sqrt{T})$のグローバル収束率を達成したものである。 これは、$T$が地平線長であるような$\tilde{\mathcal{O}}(T^{-1/4})$のSOTA境界を大幅に上回る。

This work analyzes average-reward reinforcement learning with general parametrization. Current state-of-the-art (SOTA) guarantees for this problem are either suboptimal or demand prior knowledge of the mixing time of the underlying Markov process, which is unavailable in most practical scenarios. We introduce a Multi-level Monte Carlo-based Natural Actor-Critic (MLMC-NAC) algorithm to address these issues. Our approach is the first to achieve a global convergence rate of $\tilde{\mathcal{O}}(1/\sqrt{T})$ without needing the knowledge of mixing time. It significantly surpasses the SOTA bound of $\tilde{\mathcal{O}}(T^{-1/4})$ where $T$ is the horizon length.
翻訳日:2024-11-08 14:50:05 公開日:2024-10-21
# スピン格子密度に関する幾何学的視点-Functional Theory

Geometrical Perspective on Spin-Lattice Density-Functional Theory ( http://arxiv.org/abs/2407.20260v2 )

ライセンス: Link先を確認
Markus Penz, Robert van Leeuwen, (参考訳) 縮退領域の概念を中心とした有限相互作用スピン格子系に対する密度汎関数理論の基礎に関する最近の見解を述べる。 これはホヘンベルク・コーンの定理と v-表現可能性を完全に幾何学的に記述することができる。 この現象はアンダーソン不純物モデルやその他の小さな格子の例によって例示される。 断熱的変化の事例と時間依存性の設定についても検討した。

A recently developed viewpoint on the fundamentals of density-functional theory for finite interacting spin-lattice systems that centers around the notion of degeneracy regions is presented. It allows for an entirely geometrical description of the Hohenberg-Kohn theorem and v-representability. The phenomena receive exemplification by an Anderson impurity model and other small-lattice examples. The case of adiabatic change and the time-dependent setting are examined as well.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-21
# セグメントレベルのデータを用いた車線レベル舗装性能予測のためのマルチタスク深層学習手法

A multi-task deep learning approach for lane-level pavement performance prediction with segment-level data ( http://arxiv.org/abs/2408.01967v2 )

ライセンス: Link先を確認
Bo Wang, Wenbo Zhang, Yunpeng LI, (参考訳) 精巧な舗装性能予測は、予防的メンテナンスを実装するための重要な前提である。 調査の結果, 舗装性能は, 通常, セグメントレベルで測定され, 全車線が1kmの区間内において一意な性能値が得られることがわかった。 コストのかかるデータ収集と予測モデリングの難しさのため、レーンレベルでのより精巧なパフォーマンス分析はいまだに欠けている。 そこで本研究では,多数の歴史的セグメントレベルの性能測定データを用いて,レーンレベルの舗装性能を予測するためのマルチタスク深層学習手法を開発した。 統一予測フレームワークは、車線間の固有の相関と差異を効果的に解決することができる。 具体的には、予測フレームワークはまずLong Short-Term Memory (LSTM) レイヤを使用して、セグメントレベルの舗装劣化パターンをキャプチャした。 その後、舗装性能のレーンレベル差を捉えるために、複数のタスク固有LSTM層をレーン数に基づいて設計した。 最後に,複数のタスク固有LSTM出力と補助的特徴を連結し,完全連結層後のレーンレベルの予測値を得た。 上記の予測フレームワークは、中国の実例で検証された。 片道2車線、3車線、4車線のシナリオによらず、平均絶対パーセンテージ誤差で10%未満のモデル性能を示した。 提案した予測フレームワークは、他のアンサンブル学習や浅い機械学習手法をほぼすべての車線で上回っている。

The elaborate pavement performance prediction is an important premise of implementing preventive maintenance. Our survey reveals that in practice, the pavement performance is usually measured at segment-level, where an unique performance value is obtained for all lanes within one segment of 1km length. It still lacks more elaborate performance analysis at lane-level due to costly data collection and difficulty in prediction modeling. Therefore, this study developed a multi-task deep learning approach to predict the lane-level pavement performance with a large amount of historical segment-level performance measurement data. The unified prediction framework can effectively address inherent correlation and differences across lanes. In specific, the prediction framework firstly employed an Long Short-Term Memory (LSTM) layer to capture the segment-level pavement deterioration pattern. Then multiple task-specific LSTM layers were designed based on number of lanes to capture lane-level differences in pavement performance. Finally, we concatenated multiple task-specific LSTM outputs with auxiliary features for further training and obtained the lane-level predictions after fully connected layer. The aforementioned prediction framework was validated with a real case in China. It revealed a better model performance regardless of one-way 2-lane, 3-lane, and 4-lane scenarios, all lower than 10% in terms of mean absolute percentage error. The proposed prediction framework also outperforms other ensemble learning and shallow machine learning methods in almost every lane.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-21
# GMAI-MMBench:汎用医療AIに向けた総合的マルチモーダル評価ベンチマーク

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI ( http://arxiv.org/abs/2408.03361v4 )

ライセンス: Link先を確認
Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao, (参考訳) LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができ、様々な分野に適用できる。 医学分野では、LVLMは診断と治療に相当な補助を提供する可能性がある。 それ以前には、様々な医療応用においてLVLMの有効性を評価するためのベンチマークを開発することが不可欠である。 現在のベンチマークは特定の学術文献に基づいて構築されることが多く、主に単一の領域に焦点を当てており、知覚の粒度が異なる。 そのため、臨床関係の限定、不完全評価、インタラクティブなLVLMのガイダンス不足など、特定の課題に直面している。 これらの制約に対処するため,GMAI-MMBenchを開発した。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。 さらに、ユーザーが評価タスクをカスタマイズし、様々な評価ニーズを調整し、医療AIの研究や応用を効果的に支援できる語彙木構造を実装した。 我々は50LVLMを評価し,GPT-4oでも53.96%の精度しか得られず,改善の余地があることが示唆された。 さらに,医療応用の進展に対処する必要のある,現在最先端のLVLMにおいて,5つの重要な欠陥を同定した。 GMAI-MMBenchは,次世代のLVLMをGMAIに向けて構築するよう,コミュニティに刺激を与えるものと信じている。

Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 284 datasets across 38 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 53.96%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-21
# GMAI-MMBench:汎用医療AIに向けた総合的マルチモーダル評価ベンチマーク

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI ( http://arxiv.org/abs/2408.03361v5 )

ライセンス: Link先を確認
Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao, (参考訳) LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができ、様々な分野に適用できる。 医学分野では、LVLMは診断と治療に相当な補助を提供する可能性がある。 それ以前には、様々な医療応用においてLVLMの有効性を評価するためのベンチマークを開発することが不可欠である。 現在のベンチマークは特定の学術文献に基づいて構築されることが多く、主に単一の領域に焦点を当てており、知覚の粒度が異なる。 そのため、臨床関係の限定、不完全評価、インタラクティブなLVLMのガイダンス不足など、特定の課題に直面している。 これらの制約に対処するため,GMAI-MMBenchを開発した。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。 さらに、ユーザーが評価タスクをカスタマイズし、様々な評価ニーズを調整し、医療AIの研究や応用を効果的に支援できる語彙木構造を実装した。 我々は50LVLMを評価し,GPT-4oでも53.96%の精度しか得られず,改善の余地があることが示唆された。 さらに,医療応用の進展に対処する必要のある,現在最先端のLVLMにおいて,5つの重要な欠陥を同定した。 GMAI-MMBenchは,次世代のLVLMをGMAIに向けて構築するよう,コミュニティに刺激を与えるものと信じている。

Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 284 datasets across 38 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 53.96%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-21
# GMAI-MMBench:汎用医療AIに向けた総合的マルチモーダル評価ベンチマーク

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI ( http://arxiv.org/abs/2408.03361v6 )

ライセンス: Link先を確認
Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao, (参考訳) LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができ、様々な分野に適用できる。 医学分野では、LVLMは診断と治療に相当な補助を提供する可能性がある。 それ以前には、様々な医療応用においてLVLMの有効性を評価するためのベンチマークを開発することが不可欠である。 現在のベンチマークは特定の学術文献に基づいて構築されることが多く、主に単一の領域に焦点を当てており、知覚の粒度が異なる。 そのため、臨床関係の限定、不完全評価、インタラクティブなLVLMのガイダンス不足など、特定の課題に直面している。 これらの制約に対処するため,GMAI-MMBenchを開発した。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。 さらに、ユーザーが評価タスクをカスタマイズし、様々な評価ニーズを調整し、医療AIの研究や応用を効果的に支援できる語彙木構造を実装した。 我々は50LVLMを評価し,GPT-4oでも53.96%の精度しか得られず,改善の余地があることが示唆された。 さらに,医療応用の進展に対処する必要のある,現在最先端のLVLMにおいて,5つの重要な欠陥を同定した。 GMAI-MMBenchは,次世代のLVLMをGMAIに向けて構築するよう,コミュニティに刺激を与えるものと信じている。

Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 284 datasets across 38 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 53.96%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-21
# GMAI-MMBench:汎用医療AIに向けた総合的マルチモーダル評価ベンチマーク

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI ( http://arxiv.org/abs/2408.03361v7 )

ライセンス: Link先を確認
Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao, (参考訳) LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができ、様々な分野に適用できる。 医学分野では、LVLMは診断と治療に相当な補助を提供する可能性がある。 それ以前には、様々な医療応用においてLVLMの有効性を評価するためのベンチマークを開発することが不可欠である。 現在のベンチマークは特定の学術文献に基づいて構築されることが多く、主に単一の領域に焦点を当てており、知覚の粒度が異なる。 そのため、臨床関係の限定、不完全評価、インタラクティブなLVLMのガイダンス不足など、特定の課題に直面している。 これらの制約に対処するため,GMAI-MMBenchを開発した。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。 さらに、ユーザーが評価タスクをカスタマイズし、様々な評価ニーズを調整し、医療AIの研究や応用を効果的に支援できる語彙木構造を実装した。 我々は50LVLMを評価し,GPT-4oでも53.96%の精度しか得られず,改善の余地があることが示唆された。 さらに,医療応用の進展に対処する必要のある,現在最先端のLVLMにおいて,5つの重要な欠陥を同定した。 GMAI-MMBenchは,次世代のLVLMをGMAIに向けて構築するよう,コミュニティに刺激を与えるものと信じている。

Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 284 datasets across 38 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 53.96%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-21
# Optimus-1: 長距離タスクにおけるハイブリッドマルチモーダルメモリ駆動エージェントExcel

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks ( http://arxiv.org/abs/2408.03615v2 )

ライセンス: Link先を確認
Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie, (参考訳) 汎用エージェントの構築は、人工知能分野における長年のビジョンである。 既存のエージェントは多くのドメインで顕著な進歩を遂げてきたが、オープンな世界での長期のタスクを完了させるのに苦戦している。 これは,様々な長期的タスクを通じてエージェントを誘導できる,必要な世界知識とマルチモーダル体験の欠如によるものである。 本稿では,上記の課題に対処するハイブリッドマルチモーダルメモリモジュールを提案する。 それ 1)知識を階層的指向知識グラフに変換し、エージェントが明示的に世界知識を表現し学習できるようにする。 2) 歴史的情報を抽象化したマルチモーダル体験プールに要約し, エージェントに文脈内学習のための豊富な参照を提供する。 マルチモーダルエージェントであるOptimus-1は、Hybrid Multimodal Memoryモジュールの上に、知識誘導型プランナーとエクスペリエンス駆動リフレクタで構築されており、Minecraftの長期タスクの面における計画とリフレクションの改善に貢献している。 大規模な実験結果から,Optimus-1は長期タスクベンチマークにおいて既存のエージェントを著しく上回り,多くのタスクにおいて人間レベルに近い性能を示すことがわかった。 さらに,オプティマス1のバックボーンとして,MLLM(Multimodal Large Language Models)を導入する。 実験の結果,Optimus-1はHybrid Multimodal Memoryモジュールの助けを借りて強力な一般化を示し,多くのタスクにおいてGPT-4Vベースラインを上回った。

Building a general-purpose agent is a long-standing vision in the field of artificial intelligence. Existing agents have made remarkable progress in many domains, yet they still struggle to complete long-horizon tasks in an open world. We attribute this to the lack of necessary world knowledge and multimodal experience that can guide agents through a variety of long-horizon tasks. In this paper, we propose a Hybrid Multimodal Memory module to address the above challenges. It 1) transforms knowledge into Hierarchical Directed Knowledge Graph that allows agents to explicitly represent and learn world knowledge, and 2) summarises historical information into Abstracted Multimodal Experience Pool that provide agents with rich references for in-context learning. On top of the Hybrid Multimodal Memory module, a multimodal agent, Optimus-1, is constructed with dedicated Knowledge-guided Planner and Experience-Driven Reflector, contributing to a better planning and reflection in the face of long-horizon tasks in Minecraft. Extensive experimental results show that Optimus-1 significantly outperforms all existing agents on challenging long-horizon task benchmarks, and exhibits near human-level performance on many tasks. In addition, we introduce various Multimodal Large Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show that Optimus-1 exhibits strong generalization with the help of the Hybrid Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-21
# mbrs: 最小ベイズリスクデコードのためのライブラリ

mbrs: A Library for Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2408.04167v2 )

ライセンス: Link先を確認
Hiroyuki Deguchi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 最小ベイズリスク(MBR)復号法(英: Minimum Bayes risk, MBR)とは、テキスト生成タスクにおいて、高確率ではなく実用機能に基づいて高品質な出力を選択することで、ビームサーチによる従来の最大値(MAP)復号法よりも優れた結果を生成する決定規則である。 典型的には、サンプル化された擬似参照の下で仮説の集合から最も適切な仮説を見つける。 mbrsはMBRデコーディングのライブラリで、様々なメトリクス、代替期待推定、アルゴリズムの変種を柔軟に組み合わせることができる。 速度測定とコードブロックの呼び出し数、透明性、再現性、拡張性に重点を置いて設計されており、研究者や開発者にとって不可欠である。 私たちはMITライセンスのオープンソースプロジェクトとしてmbrsを公開しました。 GitHub: https://github.com/naist-nlp/mbrs

Minimum Bayes risk (MBR) decoding is a decision rule of text generation tasks that outperforms conventional maximum a posterior (MAP) decoding using beam search by selecting high-quality outputs based on a utility function rather than those with high-probability. Typically, it finds the most suitable hypothesis from the set of hypotheses under the sampled pseudo-references. mbrs is a library of MBR decoding, which can flexibly combine various metrics, alternative expectation estimations, and algorithmic variants. It is designed with a focus on speed measurement and calling count of code blocks, transparency, reproducibility, and extensibility, which are essential for researchers and developers. We published our mbrs as an MIT-licensed open-source project, and the code is available on GitHub. GitHub: https://github.com/naist-nlp/mbrs
翻訳日:2024-11-08 12:22:45 公開日:2024-10-21
# LLM-DetectAIve:微細加工によるテキスト検出ツール

LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection ( http://arxiv.org/abs/2408.04284v2 )

ライセンス: Link先を確認
Mervat Abassy, Kareem Elozeiri, Alexander Aziz, Minh Ngoc Ta, Raj Vardhan Tomar, Bimarsha Adhikari, Saad El Dine Ahmed, Yuxia Wang, Osama Mohammed Afzal, Zhuohan Xie, Jonibek Mansurov, Ekaterina Artemova, Vladislav Mikhailov, Rui Xing, Jiahui Geng, Hasan Iqbal, Zain Muhammad Mujahid, Tarek Mahmoud, Akim Tsvigun, Alham Fikri Aji, Artem Shelmanov, Nizar Habash, Iryna Gurevych, Preslav Nakov, (参考訳) 大規模言語モデル(LLM)へのアクセスの容易さにより、機械が生成したテキストが広く利用できるようになった。 これは潜在的な誤用、特に教育や学術分野における懸念を引き起こす。 したがって、プロセスの自動化が可能な実用的なシステムを開発することが重要である。 そこで本研究では, 微細な検出が可能なLLM-DetectAIveを提案する。 LLM-DetectAIveは、バイナリ分類に焦点を当てたマシン生成テキスト検出に関するこれまでのほとんどの研究とは異なり、以下の4つのカテゴリをサポートしている。 (i)人書き (ii)機械生成 三 機械書記し、次いで機械人文化し、 (四) 人書き、次いで機械処理。 カテゴリー 三 テキストが機械生成されたという事実を難読化しようとする試みを検出すること。 (iv) LLM が人文テキストの研磨に使用された事例を, 学術書記では通用するが, 教育では認められない。 LLM-DetectAIveは上記の4つのカテゴリを効果的に識別し,教育,アカデミック,その他の領域において有用なツールである可能性が示唆された。 LLM-DetectAIveはhttps://github.com/mbzuai-nlp/LLM-DetectAIveで公開されている。 私たちのシステムを説明するビデオはhttps://youtu.be/E8eT_bE7k8cで公開されている。

The ease of access to large language models (LLMs) has enabled a widespread of machine-generated texts, and now it is often hard to tell whether a piece of text was human-written or machine-generated. This raises concerns about potential misuse, particularly within educational and academic domains. Thus, it is important to develop practical systems that can automate the process. Here, we present one such system, LLM-DetectAIve, designed for fine-grained detection. Unlike most previous work on machine-generated text detection, which focused on binary classification, LLM-DetectAIve supports four categories: (i) human-written, (ii) machine-generated, (iii) machine-written, then machine-humanized, and (iv) human-written, then machine-polished. Category (iii) aims to detect attempts to obfuscate the fact that a text was machine-generated, while category (iv) looks for cases where the LLM was used to polish a human-written text, which is typically acceptable in academic writing, but not in education. Our experiments show that LLM-DetectAIve can effectively identify the above four categories, which makes it a potentially useful tool in education, academia, and other domains. LLM-DetectAIve is publicly accessible at https://github.com/mbzuai-nlp/LLM-DetectAIve. The video describing our system is available at https://youtu.be/E8eT_bE7k8c.
翻訳日:2024-11-08 12:22:45 公開日:2024-10-21
# ShiELD: 電気自動車のバッテリサプライチェーン破壊における予測分析のためのLCM駆動型スキーマ誘導

SHIELD: LLM-Driven Schema Induction for Predictive Analytics in EV Battery Supply Chain Disruptions ( http://arxiv.org/abs/2408.05357v2 )

ライセンス: Link先を確認
Zhi-Qi Cheng, Yifei Dong, Aike Shi, Wei Liu, Yuzhi Hu, Jason O'Connor, Alexander G. Hauptmann, Kate S. Whitefoot, (参考訳) 電気自動車(EV)バッテリーサプライチェーンの破壊に対する脆弱性は、高度な予測分析を必要とする。 本稿では,大言語モデル(LLM)とEVバッテリサプライチェーンリスク評価分野の専門知識を統合するシステムであるShiELD(Schema-based Hierarchical induction for EV supply chain Disruption)を紹介する。 ShiELD は,(1) 総合的な知識ライブラリを構築するための LLM 駆動型スキーマ学習,(2) イベント抽出のための微調整言語モデル,スキーママッチングのための多次元類似性マッチング,およびグラフ畳み込みネットワーク(GCN) を論理的制約付きで組み合わせ,(3) 結果を可視化し,専門家のフィードバックを取り入れて意思決定を強化する,インタラクティブなインタフェースを備える。 365の資料(2022-2023)から12,070段落を評価したところ、ShiELDは破壊予測においてベースラインGCNとLLM+prompt法(例:GPT-4o)より優れていた。 これらの結果は,LLM能力とドメイン知識を併用したサプライチェーンリスク評価の有効性を示すものである。

The electric vehicle (EV) battery supply chain's vulnerability to disruptions necessitates advanced predictive analytics. We present SHIELD (Schema-based Hierarchical Induction for EV supply chain Disruption), a system integrating Large Language Models (LLMs) with domain expertise for EV battery supply chain risk assessment. SHIELD combines: (1) LLM-driven schema learning to construct a comprehensive knowledge library, (2) a disruption analysis system utilizing fine-tuned language models for event extraction, multi-dimensional similarity matching for schema matching, and Graph Convolutional Networks (GCNs) with logical constraints for prediction, and (3) an interactive interface for visualizing results and incorporating expert feedback to enhance decision-making. Evaluated on 12,070 paragraphs from 365 sources (2022-2023), SHIELD outperforms baseline GCNs and LLM+prompt methods (e.g., GPT-4o) in disruption prediction. These results demonstrate SHIELD's effectiveness in combining LLM capabilities with domain expertise for enhanced supply chain risk assessment.
翻訳日:2024-11-08 12:00:35 公開日:2024-10-21
# 選択的測定によるコヒーレント状態からのフォック状態重畳の生成

Generating Fock-state superpositions from coherent states by selective measurement ( http://arxiv.org/abs/2408.07403v2 )

ライセンス: Link先を確認
Chen-yi Zhang, Jun Jing, (参考訳) フォック状態とその重畳は非古典物理学のためのエキゾチックなテストベッドであり、量子技術のための貴重な資源である。 我々は、ターゲット共振器のコヒーレント状態から任意のフォック状態と特定の重畳されたフォック状態を生成するための量子測定のための簡単なプロトコルを提供する。 この条件付きプロトコルは、Jaynes-Cummings相互作用を介して結合された共振器とAcillary qubitの連成自由進化シーケンスと、qubit上の射影測定によって効率的に構築することができる。 各展開測定サイクルと共振器の初期状態の期間を適切に選択することにより、所望のフォック状態 $|n\rangle$ と重畳されたフォック状態 $(|0\rangle+|n\rangle)/\sqrt{2}$, $n\sim10$ を30ドル未満で生成できる。 さらに、このプロトコルは、二重共振器系において複数の励起を持つベル型状態 $(|00\rangle+|nn\rangle)/\sqrt{2}$ に簡単に拡張できる。 また、デコヒーレンスが存在する場合のプロトコルの結果の忠実度と成功確率も計算する。

Fock states and their superpositions are exotic testbeds for nonclassical physics and valuable resources for quantum technologies. We provide a simple protocol for the quantum measurement to generate an arbitrary Fock state and certain superposed Fock states from a coherent state of a target resonator, without any carefully tailored driving. This conditional protocol can be efficiently constructed by a sequence of joint free evolution of the resonator and an ancillary qubit, which are coupled via a Jaynes-Cummings interaction, and projective measurements on the qubit. By properly choosing the duration of each evolution-measurement cycle and the initial state of the resonator, we can generate a desired Fock state $|n\rangle$ and a superposed Fock state $(|0\rangle+|n\rangle)/\sqrt{2}$, $n\sim10$, with a fidelity over $99\%$ in less than $30$ measurements. Moreover, our protocol can be extended straightforwardly to the generation of a Bell-like state $(|00\rangle+|nn\rangle)/\sqrt{2}$ with multiple excitations in a double-resonator system. We also calculate the outcome fidelity and the success probability of our protocol in the presence of decoherence.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-21
# 円偏光場における異常放射反応

Anomalous radiation reaction in a circularly polarized field ( http://arxiv.org/abs/2408.07664v3 )

ライセンス: Link先を確認
O. V. Kibis, (参考訳) 周期的に駆動される量子系のフロケ理論には、円偏極電磁場における電子力学に対する量子補正がある。 磁場下で回転する電子による光子の放出は、その前方運動の速度に垂直に作用する量子反動力に繋がることを示した。 物理的には、そのような異常な放射線反応は1ループのQED補正から光子放出に生じ、古典的な電気力学には類似しない。 強いレーザー場における電子について、この現象の可能性が議論されている。

Quantum corrections to electron dynamics in a circularly polarized electromagnetic field are found within the Floquet theory of periodically driven quantum systems. It is demonstrated that emission of photons by an electron rotating under the field leads to the quantum recoil force acting on the electron perpendicularly to the velocity of its forward movement, which differs crucially from the known classical recoil force directed oppositely to the velocity. Physically, such an anomalous radiation reaction arises from the one-loop QED correction to the photon emission and has no analogue within the classical electrodynamics. Possible manifestations of this phenomenon are discussed for electrons in strong laser fields.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-21
# プレプロセッシングと圧縮:内在次元を通した画像領域における隠れ表現再構成の理解

Pre-processing and Compression: Understanding Hidden Representation Refinement Across Imaging Domains via Intrinsic Dimension ( http://arxiv.org/abs/2408.08381v4 )

ライセンス: Link先を確認
Nicholas Konz, Maciej A. Mazurowski, (参考訳) 近年,ニューラルネットワークの隠蔽表現の内在次元(ID)などの幾何学的特性が層を通してどのように変化するか,一般化能力などの重要なモデル行動を予測する方法が注目されている。 しかし、このような行動が自然画像や医用画像などのネットワークのトレーニングデータの領域によって大きく変化するという証拠が浮上し始めた。 ここでは,ネットワークの学習した表現のIDが階層を通してどのように変化するのかを,本質的には,ネットワークが予測に使用する入力データの情報内容を連続的に洗練するかを特徴付けることによって,この調査をさらに進める。 6つのネットワークアーキテクチャにまたがる11の自然画像と医療画像のデータセットを分析し、ネットワークを通してのIDの変化が、自然画像と医療画像のモデルとで顕著に異なることを発見した。 具体的には、医用画像モデルは、ネットワークの初期に表現IDがピークに達し、これらの領域の下流タスクに一般的に使用される画像特徴とそれらの抽象性の違いが示唆される。 さらに,このピーク表現IDと入力空間内のデータのIDとの強い相関関係を見出した。 全体として、本研究は、隠れ表現情報の内容に関する自然画像領域と非自然画像領域のネットワーク行動の顕著な相違を強調し、ネットワークの学習した特徴がトレーニングデータによってどのように形成されるかについて、さらなる知見を提供する。

In recent years, there has been interest in how geometric properties such as intrinsic dimension (ID) of a neural network's hidden representations change through its layers, and how such properties are predictive of important model behavior such as generalization ability. However, evidence has begun to emerge that such behavior can change significantly depending on the domain of the network's training data, such as natural versus medical images. Here, we further this inquiry by exploring how the ID of a network's learned representations changes through its layers, in essence, characterizing how the network successively refines the information content of input data to be used for predictions. Analyzing eleven natural and medical image datasets across six network architectures, we find that how ID changes through the network differs noticeably between natural and medical image models. Specifically, medical image models peak in representation ID earlier in the network, implying a difference in the image features and their abstractness that are typically used for downstream tasks in these domains. Additionally, we discover a strong correlation of this peak representation ID with the ID of the data in its input space, implying that the intrinsic information content of a model's learned representations is guided by that of the data it was trained on. Overall, our findings emphasize notable discrepancies in network behavior between natural and non-natural imaging domains regarding hidden representation information content, and provide further insights into how a network's learned features are shaped by its training data.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-21
# SoK: 実行時統合性

SoK: Runtime Integrity ( http://arxiv.org/abs/2408.10200v3 )

ライセンス: Link先を確認
Mahmoud Ammar, Adam Caulfield, Ivan De Oliveira Nunes, (参考訳) 本稿では,制御フローの整合性(CFI)と制御フロー検証(CFA)のメカニズムを体系的に検討し,それらの相違点と関係について検討する。 これは、CFIとCFAの目標、仮定、特徴、設計空間に関する重要な問題に対処する。 本稿では,既存の防衛の総合的な見直しを通じて,CFIとCFAをランタイム防衛の広い視野に位置づけ,その強み,限界,トレードオフを批判的に評価する。 この発見は、CFIとCFAのギャップを埋め、ランタイム防衛の分野を前進させるためのさらなる研究の重要性を強調している。

This paper provides a systematic exploration of Control Flow Integrity (CFI) and Control Flow Attestation (CFA) mechanisms, examining their differences and relationships. It addresses crucial questions about the goals, assumptions, features, and design spaces of CFI and CFA, including their potential coexistence on the same platform. Through a comprehensive review of existing defenses, this paper positions CFI and CFA within the broader landscape of runtime defenses, critically evaluating their strengths, limitations, and trade-offs. The findings emphasize the importance of further research to bridge the gaps in CFI and CFA and thus advance the field of runtime defenses.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-21
# NutrifyAI: リアルタイム食品検出、栄養分析、パーソナライズされた食事レコメンデーションのためのAIを利用したシステム

NutrifyAI: An AI-Powered System for Real-Time Food Detection, Nutritional Analysis, and Personalized Meal Recommendations ( http://arxiv.org/abs/2408.10532v2 )

ライセンス: Link先を確認
Michelle Han, Junyao Chen, Zhengyuan Zhou, (参考訳) 2022年にはダイエットと栄養のアプリが14億人に達したので、人気の健康アプリMyFitnessPal、Noom、Calorie Counterなどが人気を集めています。 しかし、ほぼ全ての栄養学応用の大きな欠点は、ユーザが手動で食品データを入力する必要があることである。 このように、食品を正確に識別し、栄養内容を分析し、リアルタイムに食事推奨を提供するアプリケーションへの需要が高まっている。 本稿では,先進的なコンピュータビジョン技術と栄養分析を組み合わせた総合システムを提案する。 システムは3つの重要な概念に分けられる。 1) YOLOv8モデルを用いた食品検出 2)エダマム栄養分析APIによる栄養分析,及び 3)Edamam Meal Planning and Recipe Search APIを用いたパーソナライズされた食事レコメンデーション。 予備的な結果は、即時かつ正確な食事の洞察を提供することによってシステムの有効性を示し、食品認識精度を80%近く向上させ、ユーザが食事の判断をインフォームドするための貴重なツールとなった。

With diet and nutrition apps reaching 1.4 billion users in 2022 [1], it's not surprise that popular health apps, MyFitnessPal, Noom, and Calorie Counter, are surging in popularity. However, one major setback [2] of nearly all nutrition applications is that users must enter food data manually, which is time-consuming and tedious. Thus, there has been an increasing demand for applications that can accurately identify food items, analyze their nutritional content, and offer dietary recommendations in real-time. This paper introduces a comprehensive system that combines advanced computer vision techniques with nutritional analysis, implemented in a versatile mobile and web application. The system is divided into three key concepts: 1) food detection using the YOLOv8 model, 2) nutrient analysis via the Edamam Nutrition Analysis API, and 3) personalized meal recommendations using the Edamam Meal Planning and Recipe Search APIs. Preliminary results showcase the system's effectiveness by providing immediate, accurate dietary insights, with a demonstrated food recognition accuracy of nearly 80%, making it a valuable tool for users to make informed dietary decisions.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-21
# UNetMamba:高解像度リモートセンシング画像のセマンティックセグメンテーションのための効率的なUNetライクなマンバ

UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2408.11545v3 )

ライセンス: Link先を確認
Enze Zhu, Zhan Chen, Dingkai Wang, Hanru Shi, Xiaoxuan Liu, Lei Wang, (参考訳) 高解像度リモートセンシング画像のセマンティックセグメンテーションは、土地被覆マッピング、都市計画、災害評価といった下流の応用において不可欠であり、既存のトランスフォーマー方式は精度と効率の制約に悩まされ、最近提案されたマンバは効率的であることが知られている。 そこで我々は,このジレンマを克服するために,UNetに似たセマンティックセマンティックセマンティクスモデルであるUNetMambaを提案する。 これは、高解像度画像内の複雑な情報を効率的に復号できるmba segmentation decoder (MSD) と、列車専用だがローカルコンテンツの知覚を著しく向上させるローカル監視モジュール (LSM) を組み込んでいる。 UNetMambaはLoveDAで0.87%、ISPRS Vaihingenで0.39%増加し、軽量な設計で高効率を実現し、メモリフットプリントを小さくし、計算コストを削減した。 ソースコードはhttps://github.com/EnzeZhu 2001/UNetMamba.comで入手できる。

Semantic segmentation of high-resolution remote sensing images is vital in downstream applications such as land-cover mapping, urban planning and disaster assessment.Existing Transformer-based methods suffer from the constraint between accuracy and efficiency, while the recently proposed Mamba is renowned for being efficient. Therefore, to overcome the dilemma, we propose UNetMamba, a UNet-like semantic segmentation model based on Mamba. It incorporates a mamba segmentation decoder (MSD) that can efficiently decode the complex information within high-resolution images, and a local supervision module (LSM), which is train-only but can significantly enhance the perception of local contents. Extensive experiments demonstrate that UNetMamba outperforms the state-of-the-art methods with mIoU increased by 0.87% on LoveDA and 0.39% on ISPRS Vaihingen, while achieving high efficiency through the lightweight design, less memory footprint and reduced computational cost. The source code is available at https://github.com/EnzeZhu2001/UNetMamba.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-21
# CARLAドローン:異なる視点から単眼で3D物体を検出する

CARLA Drone: Monocular 3D Object Detection from a Different Perspective ( http://arxiv.org/abs/2408.11958v2 )

ライセンス: Link先を確認
Johannes Meier, Luca Scalerandi, Oussema Dhaouadi, Jacques Kaiser, Nikita Araslanov, Daniel Cremers, (参考訳) 既存のモノクル3D検出技術には深刻な制約がある。 それらは限られたベンチマークでしかうまく機能せず、エゴ中心のカービューやトラフィックカメラビューでうまく機能するが、両方ではあまり機能しない。 進歩を促すために、この研究は異なるカメラ視点で3D検出フレームワークを拡張評価することを提唱している。 私たちは2つの重要な貢献をします。 まず、CARLA Drone data, CDroneを紹介する。 ドローンのビューをシミュレートすることで、既存のベンチマークにおけるカメラの視点の多様性を大幅に拡大する。 合成性にもかかわらず、CDroneは現実世界の挑戦である。 これを示すために、従来の手法がCDroneと現実世界の3Dドローンデータセットの両方でうまく機能することが困難であったことを確認した。 第2に、GroundMixと呼ばれる効果的なデータ拡張パイプラインを開発する。 その特徴的要素は、トレーニング画像の3D一貫性増強のためのグラウンドの使用である。 GroundMixは軽量の1段検出器の検出精度を大幅に向上させる。 拡張された評価では、テスト対象のデータセットの平均精度は、テスト対象のデータセットの平均値と同等か、それよりもかなり高い。

Existing techniques for monocular 3D detection have a serious restriction. They tend to perform well only on a limited set of benchmarks, faring well either on ego-centric car views or on traffic camera views, but rarely on both. To encourage progress, this work advocates for an extended evaluation of 3D detection frameworks across different camera perspectives. We make two key contributions. First, we introduce the CARLA Drone dataset, CDrone. Simulating drone views, it substantially expands the diversity of camera perspectives in existing benchmarks. Despite its synthetic nature, CDrone represents a real-world challenge. To show this, we confirm that previous techniques struggle to perform well both on CDrone and a real-world 3D drone dataset. Second, we develop an effective data augmentation pipeline called GroundMix. Its distinguishing element is the use of the ground for creating 3D-consistent augmentation of a training image. GroundMix significantly boosts the detection accuracy of a lightweight one-stage detector. In our expanded evaluation, we achieve the average precision on par with or substantially higher than the previous state of the art across all tested datasets.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-21
# Show-o:マルチモーダル理解と生成を統一するシングルトランス

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation ( http://arxiv.org/abs/2408.12528v5 )

ライセンス: Link先を確認
Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou, (参考訳) マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。 完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。 統一されたモデルは、視覚的質問応答、テキスト・ツー・イメージ生成、テキスト誘導インペイント/抽出、混合モダリティ生成など、幅広い視覚言語タスクを柔軟にサポートする。 様々なベンチマークで、既存の個々のモデルに匹敵する、あるいは優れたパフォーマンスを示しており、同じまたは多くのパラメータが理解や生成用に調整されている。 これは次世代のファウンデーションモデルとしての可能性を著しく強調している。 コードとモデルはhttps://github.com/showlab/Show-o.comで公開されている。

We present a unified transformer, i.e., Show-o, that unifies multimodal understanding and generation. Unlike fully autoregressive models, Show-o unifies autoregressive and (discrete) diffusion modeling to adaptively handle inputs and outputs of various and mixed modalities. The unified model flexibly supports a wide range of vision-language tasks including visual question-answering, text-to-image generation, text-guided inpainting/extrapolation, and mixed-modality generation. Across various benchmarks, it demonstrates comparable or superior performance to existing individual models with an equivalent or larger number of parameters tailored for understanding or generation. This significantly highlights its potential as a next-generation foundation model. Code and models are released at https://github.com/showlab/Show-o.
翻訳日:2024-11-08 05:37:29 公開日:2024-10-21
# Show-o:マルチモーダル理解と生成を統一するシングルトランス

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation ( http://arxiv.org/abs/2408.12528v6 )

ライセンス: Link先を確認
Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou, (参考訳) マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。 完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。 統一されたモデルは、視覚的質問応答、テキスト・ツー・イメージ生成、テキスト誘導インペイント/抽出、混合モダリティ生成など、幅広い視覚言語タスクを柔軟にサポートする。 様々なベンチマークで、既存の個々のモデルに匹敵する、あるいは優れたパフォーマンスを示しており、同じまたは多くのパラメータが理解や生成用に調整されている。 これは次世代のファウンデーションモデルとしての可能性を著しく強調している。 コードとモデルはhttps://github.com/showlab/Show-o.comで公開されている。

We present a unified transformer, i.e., Show-o, that unifies multimodal understanding and generation. Unlike fully autoregressive models, Show-o unifies autoregressive and (discrete) diffusion modeling to adaptively handle inputs and outputs of various and mixed modalities. The unified model flexibly supports a wide range of vision-language tasks including visual question-answering, text-to-image generation, text-guided inpainting/extrapolation, and mixed-modality generation. Across various benchmarks, it demonstrates comparable or superior performance to existing individual models with an equivalent or larger number of parameters tailored for understanding or generation. This significantly highlights its potential as a next-generation foundation model. Code and models are released at https://github.com/showlab/Show-o.
翻訳日:2024-11-08 05:37:29 公開日:2024-10-21
# ヘテロ親和性グラフのための大規模言語モデルの可能性を探る

Exploring the Potential of Large Language Models for Heterophilic Graphs ( http://arxiv.org/abs/2408.14134v2 )

ライセンス: Link先を確認
Yuxia Wu, Shujie Li, Yuan Fang, Chuan Shi, (参考訳) 大規模言語モデル(LLM)は、グラフニューラルネットワーク(GNN)など、さまざまな機械学習アプリケーションを強化する重要な機会を提供する。 LLM内の膨大なオープンワールド知識を活用することで、テキストデータをより効果的に解釈して、近隣ノードがしばしば異なるラベルを持つヘテロ親和性グラフのキャラクタリゼーションを改善することができる。 しかし、ヘテロ親和性グラフに対する既存のアプローチは、ノードに関連するリッチなテキストデータを見落とし、ヘテロ親和性のあるコンテキストに関する深い洞察を解き放つ可能性がある。 本研究では、異種グラフをモデル化するためのLLMの可能性を探り、LLM強化エッジ判別器とLLM誘導エッジ再重み付けという、2段階の新たなフレームワークを提案する。 第1段階では、LLMを微調整して、ノードのテキスト内容に基づいて、同好および異好のエッジをより正確に識別する。 第2段階では,ノードの特徴,構造,ヘテロ親和性,ホモ親和性といった特徴に基づいて,異なるエッジタイプに対するGNNのメッセージ伝搬を適応的に管理する。 実用シナリオにおけるLCMの展開における計算要求に対処するため,より小型で効率のよいモデルを微調整し,競争性能を維持するための蒸留技術について検討する。 本フレームワークの有効性を検証し,LLMを用いて異種グラフ上のノード分類を強化することの実現可能性を示す。

Large language models (LLMs) have presented significant opportunities to enhance various machine learning applications, including graph neural networks (GNNs). By leveraging the vast open-world knowledge within LLMs, we can more effectively interpret and utilize textual data to better characterize heterophilic graphs, where neighboring nodes often have different labels. However, existing approaches for heterophilic graphs overlook the rich textual data associated with nodes, which could unlock deeper insights into their heterophilic contexts. In this work, we explore the potential of LLMs for modeling heterophilic graphs and propose a novel two-stage framework: LLM-enhanced edge discriminator and LLM-guided edge reweighting. In the first stage, we fine-tune the LLM to better identify homophilic and heterophilic edges based on the textual content of their nodes. In the second stage, we adaptively manage message propagation in GNNs for different edge types based on node features, structures, and heterophilic or homophilic characteristics. To cope with the computational demands when deploying LLMs in practical scenarios, we further explore model distillation techniques to fine-tune smaller, more efficient models that maintain competitive performance. Extensive experiments validate the effectiveness of our framework, demonstrating the feasibility of using LLMs to enhance node classification on heterophilic graphs.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-21
# エントロピーからの重力

Gravity from entropy ( http://arxiv.org/abs/2408.14391v3 )

ライセンス: Link先を確認
Ginestra Bianconi, (参考訳) 重力はエントロピー作用結合物質場と幾何学から導かれる。 基本的な考え方は、ローレンツ時空の計量を密度行列に関連付けることである。 物質場は時空を曲線とし、物質場によって誘導される計量を定義する。 エントロピー作用は、時空の計量と物質場によって誘導される計量の間の量子相対エントロピーである。 修正されたアインシュタイン方程式は、低結合状態のアインシュタイン方程式に還元された。 理論を単純化するために、専らスカラー物質場を考える。 この理論的な枠組みは、例えばフェルミオン性物質場とゲージ場を含めることで、異なる方向に拡張することができる。 この場の理論の正準量子化は、量子重力に対する新たな洞察をもたらす可能性がある。

Gravity is derived from an entropic action coupling matter fields with geometry. The fundamental idea is to relate the metric of Lorentzian spacetime to a density matrix. The matter fields curve spacetime, defining a metric induced by the matter fields. The entropic action is the quantum relative entropy between the metric of spacetime and the metric induced by the matter fields. The modified Einstein equations obtained reduce to the Einstein equations in the regime of low coupling. To simplify the theory, exclusively scalar matter fields are considered. This theoretical framework can be extended in different directions, for instance by including fermionic matter fields and gauge fields. A canonical quantization of this field theory could bring new insights into quantum gravity.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-21
# ヒルベルト・ポリア・ハミルトニアンの固有値の現実性

Reality of the Eigenvalues of the Hilbert-Pólya Hamiltonian ( http://arxiv.org/abs/2408.15135v3 )

ライセンス: Link先を確認
Enderalp Yakaboylu, (参考訳) 最近の写本~[J. Phys. A: Math. Theor. 57 235204 (2024)]では、ヒルベルト=ピオリア説のハミルトニアン候補が紹介されている。 ここでは、固有函数が二乗可積分であり、決定的に、固有値が実数である候補ハミルトニアンのよく定義された類似性変換の存在をエレガントに示す。 これはリーマン仮説を証明するための重要なステップである。

In a recent manuscript~[J. Phys. A: Math. Theor. 57 235204 (2024)], a candidate Hamiltonian for the Hilbert-P\'olya Conjecture was introduced. Here, we elegantly demonstrate the existence of a well-defined similarity transformation of the candidate Hamiltonian, whose eigenfunctions are square-integrable and, crucially, whose eigenvalues are real. This represents a significant step toward proving the Riemann Hypothesis.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-21
# ヒルベルト・ポリア・ハミルトニアンの固有値の現実性

Reality of the Eigenvalues of the Hilbert-Pólya Hamiltonian ( http://arxiv.org/abs/2408.15135v4 )

ライセンス: Link先を確認
Enderalp Yakaboylu, (参考訳) J. Phys. A: Math. Theor. 57, 235204 (2024)] の最近の研究に基づいて、Hilbert-P'olya Conjecture に対するハミルトニアンを提案する。 我々は、非自明なリーマン零点に対するこのハミルトン自己共役を表現したよく定義された類似性変換の存在を実証する。 具体的には、変換作用素の固有関数は直交的かつ二乗可積分であり、決定的に、固有値が実であることを示す。 これはリーマン仮説を証明するための重要なステップである。

Building on the recent work in~[J. Phys. A: Math. Theor. 57, 235204 (2024)], we propose a Hamiltonian for the Hilbert-P\'olya Conjecture. We demonstrate the existence of a well-defined similarity transformation that renders this Hamiltonian self-adjoint for the nontrivial Riemann zeros. Specifically, we show that the eigenfunctions of the transformed operator are orthogonal and square-integrable, and crucially, that the eigenvalues are real. This represents a significant step toward proving the Riemann Hypothesis.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-21
# TrafficGamer: ゲーム理論のOracleによる安全批判シナリオのための信頼性とフレキシブルなトラフィックシミュレーション

TrafficGamer: Reliable and Flexible Traffic Simulation for Safety-Critical Scenarios with Game-Theoretic Oracles ( http://arxiv.org/abs/2408.15538v2 )

ライセンス: Link先を確認
Guanren Qiao, Guorui Quan, Jiawei Yu, Shujun Jia, Guiliang Liu, (参考訳) 現代の自律走行車(AV)システムは、通常の交通条件下で信頼性の高い運転ポリシーを開発することができるが、安全上重要な交通シナリオとしばしば競合する。 この難しさは主に、データセットの駆動におけるそのようなシナリオの希少さと、複数の車両間の予測モデリングに関連する複雑さから生じる。 AVポリシーのテストと改善を支援するためには、安全クリティカルな交通イベントをシミュレートすることが不可欠である。 本研究では,一般的な道路運転をマルチエージェントゲームとして見ることにより,ゲーム理論的な交通シミュレーションを容易にするTrafficGamerを紹介する。 さまざまな実世界のデータセットにおける経験的パフォーマンスの評価において、TrafficGamerは、シミュレーションシナリオの忠実性と悪用性の両方を保証し、実世界のトラフィック分布に静的に整合するだけでなく、複数のエージェントを含む安全クリティカルなシナリオを表現するための均衡を効率的に取得する。 さらに、TrafficGamerは様々なコンテキストで非常に柔軟なシミュレーションを行うことを示した。 具体的には、最適化中にリスクに敏感な制約を設定することにより、生成したシナリオが様々な厳密性の均衡に動的に適応できることを実証する。 我々の知る限り、TrafficGamerは、複数のエージェントを含む多様なトラフィックシナリオを生成することができる最初のシミュレータです。 プロジェクトのデモWebページはhttps://qiaoguanren.github.io/trafficgamer-demo/にある。

While modern Autonomous Vehicle (AV) systems can develop reliable driving policies under regular traffic conditions, they frequently struggle with safety-critical traffic scenarios. This difficulty primarily arises from the rarity of such scenarios in driving datasets and the complexities associated with predictive modeling among multiple vehicles. To support the testing and refinement of AV policies, simulating safety-critical traffic events is an essential challenge to be addressed. In this work, we introduce TrafficGamer, which facilitates game-theoretic traffic simulation by viewing common road driving as a multi-agent game. In evaluating the empirical performance across various real-world datasets, TrafficGamer ensures both fidelity and exploitability of the simulated scenarios, guaranteeing that they not only statically align with real-world traffic distribution but also efficiently capture equilibriums for representing safety-critical scenarios involving multiple agents. Additionally, the results demonstrate that TrafficGamer exhibits highly flexible simulation across various contexts. Specifically, we demonstrate that the generated scenarios can dynamically adapt to equilibriums of varying tightness by configuring risk-sensitive constraints during optimization. To the best of our knowledge, TrafficGamer is the first simulator capable of generating diverse traffic scenarios involving multiple agents. We have provided a demo webpage for the project at https://qiaoguanren.github.io/trafficgamer-demo/.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-21
# HYGENE:拡散型ハイパーグラフ生成法

HYGENE: A Diffusion-based Hypergraph Generation Method ( http://arxiv.org/abs/2408.16457v2 )

ライセンス: Link先を確認
Dorian Gailhard, Enzo Tartaglione, Lirida Naviner, Jhony H. Giraldo, (参考訳) ハイパーグラフは、ソーシャルネットワーク、バイオインフォマティクス、レコメンデーションシステムなど、様々な領域における複雑な高次関係をモデル化できる強力な数学的構造である。 しかし、本質的な複雑さと効果的な生成モデルがないため、現実的で多様なハイパーグラフを生成することは依然として困難である。 本稿では,これらの課題に対処する拡散型ハイパーグラフ生成(HYGENE)手法を提案する。 HYGENEはハイパーグラフの2部表現に取り組み、1対の接続ノードから始まり、それを反復的に拡張してターゲットハイパーグラフを形成する。 各ステップにおいて、ノードとハイパーエッジは局所的な方法でデノナイジング拡散プロセスによって追加され、局所的な詳細を精製する前にグローバル構造を構築することができる。 実験ではハイジェネの有効性を実証し、ハイパーグラフの様々な特性を忠実に模倣する能力を示した。 我々の知る限りでは、これはハイパーグラフ生成にディープラーニングモデルを採用する最初の試みであり、我々の研究はこの分野における将来の研究の基盤となることを目的としている。

Hypergraphs are powerful mathematical structures that can model complex, high-order relationships in various domains, including social networks, bioinformatics, and recommender systems. However, generating realistic and diverse hypergraphs remains challenging due to their inherent complexity and lack of effective generative models. In this paper, we introduce a diffusion-based Hypergraph Generation (HYGENE) method that addresses these challenges through a progressive local expansion approach. HYGENE works on the bipartite representation of hypergraphs, starting with a single pair of connected nodes and iteratively expanding it to form the target hypergraph. At each step, nodes and hyperedges are added in a localized manner using a denoising diffusion process, which allows for the construction of the global structure before refining local details. Our experiments demonstrated the effectiveness of HYGENE, proving its ability to closely mimic a variety of properties in hypergraphs. To the best of our knowledge, this is the first attempt to employ deep learning models for hypergraph generation, and our work aims to lay the groundwork for future research in this area.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-21
# LLMはカントンをうまく扱えるか? 大規模言語モデルのカントン能力のベンチマーク

How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models ( http://arxiv.org/abs/2408.16756v2 )

ライセンス: Link先を確認
Jiyue Jiang, Pengan Chen, Liheng Chen, Sheng Wang, Qinghang Bao, Lingpeng Kong, Yu Li, Chuan Wu, (参考訳) 大規模言語モデル(LLM)の急速な進化は、自然言語処理(NLP)の競争環境、特に英語や他のデータ豊富な言語に変化をもたらした。 しかし、広東-香港-マカオ大都市圏の経済的重要性や、シンガポールや北アメリカなどの地域ではカントン語を話す住民が相当に多いことから、カントン語は8500万人以上の人々が話していた。 広範に使われているにもかかわらず、カントン語はNLP研究において、特に同様の発展途上国の他の言語と比較して、スカンプト表現を持っている。 これらのギャップを埋めるために、我々は、現在のCandonese NLP法の概要と、オープンソースのCandonese LLM技術の進歩を目的とした、実数生成、数学的論理、複雑な推論、およびカントンにおける一般的な知識におけるLLMのパフォーマンスを評価するために設計された新しいベンチマークを導入する。 また,今後の研究の方向性や,Candonese LLM開発を促進するための推奨モデルも提案する。

The rapid evolution of large language models (LLMs) has transformed the competitive landscape in natural language processing (NLP), particularly for English and other data-rich languages. However, underrepresented languages like Cantonese, spoken by over 85 million people, face significant development gaps, which is particularly concerning given the economic significance of the Guangdong-Hong Kong-Macau Greater Bay Area, and in substantial Cantonese-speaking populations in places like Singapore and North America. Despite its wide use, Cantonese has scant representation in NLP research, especially compared to other languages from similarly developed regions. To bridge these gaps, we outline current Cantonese NLP methods and introduce new benchmarks designed to evaluate LLM performance in factual generation, mathematical logic, complex reasoning, and general knowledge in Cantonese, which aim to advance open-source Cantonese LLM technology. We also propose future research directions and recommended models to enhance Cantonese LLM development.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-21
# 双方向デコーディング:クローズドループ再サンプリングによるアクションチャンキングの改善

Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling ( http://arxiv.org/abs/2408.17355v2 )

ライセンス: Link先を確認
Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Maximilian Du, Chelsea Finn, (参考訳) アクションチャンキング(英: action chunking)は、人間のデモからロボット学習において、中間的なリプランなしに一連のアクションを予測および実行することである。 しかし、学習方針に対する報告された影響は矛盾している。強い結果を達成するのに不可欠であるとする研究もある一方で、性能の低下を観察する研究もある。 本稿では,まず,アクションチャンキングが学習者と実証者の間の分岐にどのように影響するかを明らかにする。 アクションチャンキングにより、学習者は実演における時間的依存をよりよく把握できるが、確率的環境における反応性の低下を犠牲にすることができる。 このトレードオフに対処するために,動作チャンキングをクローズドループ操作でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。 BIDは、各ステップで複数の予測をサンプリングし、2つの基準に基づいて最適な予測を探索する。 一 過去の決定に沿うサンプルを好む後方整合性 (二)今後の計画に高い可能性のサンプルを求める前方コントラスト。 アクションチャンク内の意思決定を結合することにより、BIDは予期しない変更に対する反応性を維持しながら、時間の経過とともに一貫性を促進する。 実験結果から,BIDは7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって,最先端の2つの生成ポリシーの性能を向上させることが示された。 コードとビデオはhttps://bid-robot.github.io.comで公開されている。

Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. Yet, its reported effects on the learned policy are inconsistent: some studies find it crucial for achieving strong results, while others observe decreased performance. In this paper, we first dissect how action chunking impacts the divergence between a learner and a demonstrator. We find that action chunking allows the learner to better capture the temporal dependencies in demonstrations but at the cost of reduced reactivity in stochastic environments. To address this tradeoff, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples that align with previous decisions; (ii) forward contrast, which seeks samples of high likelihood for future plans. By coupling decisions within and across action chunks, BID promotes consistency over time while maintaining reactivity to unexpected changes. Experimental results show that BID boosts the performance of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks. Code and videos are available at https://bid-robot.github.io.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-21
# DARES:基礎モデルの自己監督型ベクトルロラを用いた内視鏡手術の深さ

DARES: Depth Anything in Robotic Endoscopic Surgery with Self-supervised Vector-LoRA of the Foundation Model ( http://arxiv.org/abs/2408.17433v2 )

ライセンス: Link先を確認
Mona Sheikh Zeinoddin, Chiara Lena, Jiongqi Qu, Luca Carlini, Mattia Magro, Seunghoi Kim, Elena De Momi, Sophia Bano, Matthew Grech-Sollars, Evangelos Mazomenos, Daniel C. Alexander, Danail Stoyanov, Matthew J. Clarkson, Mobarakol Islam, (参考訳) ロボット支援手術(RAS)は3次元再構成と可視化のための正確な深度推定に頼っている。 Depth Anything Models (DAM)のような基礎モデルは有望であるが、手術に直接適用することで、しばしば準最適結果が得られる。 限られた外科的データに対する完全な微調整は、過度な適合と破滅的な忘れ込み、モデルの堅牢性と一般化を引き起こす可能性がある。 Low-Rank Adaptation (LoRA)はいくつかの適応問題に対処するが、その一様パラメータ分布は固有の特徴階層を無視している。 そこで本研究では,DAM V2上のベクトルローランク適応(Vector-LoRA)を用いて,RASシーンにおける自己教師型単眼深度推定を行う新しいアプローチであるDepth Anything in Robotic Endoscopic Surgery (DARES)を紹介した。 学習効率を向上させるため,Vector-LoRAを導入した。 また,手術環境の具体的要件に合わせて基礎モデルを改善することにより,多スケールのSSIM誤差に基づく再投射損失を設計し,深度知覚を高める。 提案手法はSCAREDデータセット上で検証され,最近の最先端の自己教師型単分子深度推定技術よりも優れた性能を示し,絶対相対誤差測定で13.3%向上した。 コードとトレーニング済みのウェイトはhttps://github.com/mobarakol/DARESで公開されている。

Robotic-assisted surgery (RAS) relies on accurate depth estimation for 3D reconstruction and visualization. While foundation models like Depth Anything Models (DAM) show promise, directly applying them to surgery often yields suboptimal results. Fully fine-tuning on limited surgical data can cause overfitting and catastrophic forgetting, compromising model robustness and generalization. Although Low-Rank Adaptation (LoRA) addresses some adaptation issues, its uniform parameter distribution neglects the inherent feature hierarchy, where earlier layers, learning more general features, require more parameters than later ones. To tackle this issue, we introduce Depth Anything in Robotic Endoscopic Surgery (DARES), a novel approach that employs a new adaptation technique, Vector Low-Rank Adaptation (Vector-LoRA) on the DAM V2 to perform self-supervised monocular depth estimation in RAS scenes. To enhance learning efficiency, we introduce Vector-LoRA by integrating more parameters in earlier layers and gradually decreasing parameters in later layers. We also design a reprojection loss based on the multi-scale SSIM error to enhance depth perception by better tailoring the foundation model to the specific requirements of the surgical environment. The proposed method is validated on the SCARED dataset and demonstrates superior performance over recent state-of-the-art self-supervised monocular depth estimation techniques, achieving an improvement of 13.3% in the absolute relative error metric. The code and pre-trained weights are available at https://github.com/mobarakol/DARES.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-21
# Pairing Analogy-Augmented Generation with Procedural Memory for Procedural Q&A

Pairing Analogy-Augmented Generation with Procedural Memory for Procedural Q&A ( http://arxiv.org/abs/2409.01344v2 )

ライセンス: Link先を確認
K Roth, Rushil Gupta, Simon Halle, Bang Liu, (参考訳) 大規模言語モデルは、複雑な手続き的タスクに近づく際に、異なる情報の断片を一貫性のある計画に合成するのに苦労する。 本稿では,このような手続き的知識のための新しい形式と構造を導入する。 このフォーマリズムに基づいて、LangChainチュートリアルから作成したLCStepと呼ばれる新しい手続き的知識データセットを提示する。 この手続き的知識を活用して新しい課題を解くために、過去の経験を模倣して不慣れな問題を解く人間の能力からインスピレーションを得るアナログ強化世代(AAG)を提案する。 AAGはカスタムプロシージャメモリストアを使用して、特別なドメイン知識を取得し、適応し、新しい手続き的タスクに答える。 AAGはLCStep,RecipeNLG,CHAMPデータセットにおいて,LCStep,RecipeNLG,ChAMPの2方向LCMに基づく評価において,撮影時のRAGベースラインよりも優れており,RecipeNLGの場合は人間による評価で相関することを示した。

Large language models struggle to synthesize disparate pieces of information into a coherent plan when approaching a complex procedural task. In this work, we introduce a novel formalism and structure for such procedural knowledge. Based on this formalism, we present a novel procedural knowledge dataset called LCStep, which we created from LangChain tutorials. To leverage this procedural knowledge to solve new tasks, we propose analogy-augmented generation (AAG), which draws inspiration from the human ability to assimilate past experiences to solve unfamiliar problems. AAG uses a custom procedure memory store to retrieve and adapt specialized domain knowledge to answer new procedural tasks. We demonstrate that AAG outperforms few-shot and RAG baselines on LCStep, RecipeNLG, and CHAMP datasets under a pairwise LLM-based evaluation, corroborated by human evaluation in the case of RecipeNLG.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-21
# 衛星画像を用いた地球観測のための衛星画像分類 : ViTモデルの比較検討

Onboard Satellite Image Classification for Earth Observation: A Comparative Study of ViT Models ( http://arxiv.org/abs/2409.03901v2 )

ライセンス: Link先を確認
Thanh-Dung Le, Vu Nguyen Ha, Ti Ti Nguyen, Geoffrey Eappen, Prabhu Thiruvasagam, Luis M. Garces-Socarras, Hong-fu Chou, Jorge L. Gonzalez-Rios, Juan Carlos Merlano-Duncan, Symeon Chatzinotas, (参考訳) 本研究は、衛星データ処理における土地利用分類における最も効果的な事前学習モデルを特定することに焦点を当て、衛星ベースの推論でよく見られるノイズの多いデータ条件に対して高い精度、計算効率、ロバスト性を実現することを強調する。 広汎な実験により、従来のCNNベース、ResNetベース、および様々な事前学習された視覚変換器モデルの性能を比較した。 特にMobileViTV2とEfficientViT-M2は,スクラッチからトレーニングしたモデルよりも精度と効率が優れていた。 これらのモデルは計算要求を減らして高い性能を達成し、雑音条件下での推論においてより高いレジリエンスを示す。 MobileViTV2はクリーンな検証データに優れていたが、EfficientViT-M2はノイズを扱う際により堅牢であることが証明され、衛星EOタスクに最も適したモデルとなった。 実験の結果,衛星操作における信頼性と効率的なRS-ICの選択には,効率の高いViT-M2が最適であり,精度,精度,リコールの98.76%を達成できることがわかった。 正確には、EfficientViT-M2はすべてのメトリクスで最高のパフォーマンスを提供し、トレーニング効率(1,000秒)と推論時間(10秒)に優れ、より堅牢性(全ロバストネススコア0.79)を示す。 その結果、EfficientViT-M2はMobileViTV2 (79.23 W)よりも63.93 %電力を消費し、SwinTransformer (108.90 W)より73.26 %電力を消費する。 これはエネルギー効率における大きな優位性を強調している。

This study focuses on identifying the most effective pre-trained model for land use classification in onboard satellite processing, emphasizing achieving high accuracy, computational efficiency, and robustness against noisy data conditions commonly encountered during satellite-based inference. Through extensive experimentation, we compare the performance of traditional CNN-based, ResNet-based, and various pre-trained vision Transformer models. Our findings demonstrate that pre-trained Vision Transformer (ViT) models, particularly MobileViTV2 and EfficientViT-M2, outperform models trained from scratch in terms of accuracy and efficiency. These models achieve high performance with reduced computational requirements and exhibit greater resilience during inference under noisy conditions. While MobileViTV2 has excelled on clean validation data, EfficientViT-M2 has proved more robust when handling noise, making it the most suitable model for onboard satellite EO tasks. Our experimental results demonstrate that EfficientViT-M2 is the optimal choice for reliable and efficient RS-IC in satellite operations, achieving 98.76 % of accuracy, precision, and recall. Precisely, EfficientViT-M2 delivers the highest performance across all metrics, excels in training efficiency (1,000s) and inference time (10s), and demonstrates greater robustness (overall robustness score of 0.79). Consequently, EfficientViT-M2 consumes 63.93 % less power than MobileViTV2 (79.23 W) and 73.26 % less power than SwinTransformer (108.90 W). This highlights its significant advantage in energy efficiency.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-21
# 認識不確かさ下での確率論的安全なナビゲーションのための能力意識計画

Competency-Aware Planning for Probabilistically Safe Navigation Under Perception Uncertainty ( http://arxiv.org/abs/2409.06111v2 )

ライセンス: Link先を確認
Sara Pohland, Claire Tomlin, (参考訳) 知覚に基づくナビゲーションシステムは、従来の深度に基づくナビゲーションスキームが不十分な複雑な地形における無人地上車両(UGV)ナビゲーションに有用である。 しかし、これらのデータ駆動手法はトレーニングデータに大きく依存しており、驚くべき、劇的な方法で失敗する可能性がある。 車両及び周辺環境の安全性を確保するため、ナビゲーションシステムは、認識モデルの予測的不確実性を認識でき、不確実性に直面して安全かつ効果的に応答できることが不可欠である。 認識の不確実性の下で安全なナビゲーションを可能にするため,確率的・再構成型能力推定法(PaRCE)を開発し,入力画像全体と画像内の特定領域との親しみ度を推定する。 総合能力スコアは, 正しく分類され, 誤分類され, アウト・オブ・ディストリビューション (OOD) のサンプルを正確に予測できることがわかった。 また,地域能力マップは画像間で親しみやすい地域と不慣れな地域を正確に区別できることを確認した。 次に、この能力情報を用いて、エラーの確率を低く保ちながら効果的なナビゲーションを可能にする計画制御方式を開発する。 能力認識方式は,能力意識のないベースラインコントローラに比べて,不慣れな障害物と衝突する回数を大幅に減少させることがわかった。 さらに、地域能力情報は、効率的なナビゲーションを可能にする上で非常に貴重である。

Perception-based navigation systems are useful for unmanned ground vehicle (UGV) navigation in complex terrains, where traditional depth-based navigation schemes are insufficient. However, these data-driven methods are highly dependent on their training data and can fail in surprising and dramatic ways with little warning. To ensure the safety of the vehicle and the surrounding environment, it is imperative that the navigation system is able to recognize the predictive uncertainty of the perception model and respond safely and effectively in the face of uncertainty. In an effort to enable safe navigation under perception uncertainty, we develop a probabilistic and reconstruction-based competency estimation (PaRCE) method to estimate the model's level of familiarity with an input image as a whole and with specific regions in the image. We find that the overall competency score can correctly predict correctly classified, misclassified, and out-of-distribution (OOD) samples. We also confirm that the regional competency maps can accurately distinguish between familiar and unfamiliar regions across images. We then use this competency information to develop a planning and control scheme that enables effective navigation while maintaining a low probability of error. We find that the competency-aware scheme greatly reduces the number of collisions with unfamiliar obstacles, compared to a baseline controller with no competency awareness. Furthermore, the regional competency information is very valuable in enabling efficient navigation.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-21
# ヘテロフォリーなグラフニューラルネットワークのためのパーソナライズされたスコーピングの学習

Learning Personalized Scoping for Graph Neural Networks under Heterophily ( http://arxiv.org/abs/2409.06998v2 )

ライセンス: Link先を確認
Gangda Deng, Hongkuan Zhou, Rajgopal Kannan, Viktor Prasanna, (参考訳) 異種ノードが接続するヘテロ親和性グラフは、グラフニューラルネットワーク(GNN)において、その優れた性能が相同性情報の集約から得られるため、課題となる。 GNN深度の増加は、スコープ(すなわち受容場)を拡大し、高次近傍からホモフィリーを見つける可能性がある。 しかし、実世界のWebグラフはノード間のホモフィラリティを示すことが多いため、スコープを均一に拡張するとサブパー性能が向上する。 理想的な方法はパーソナライズされたスコープであり、ノードはさまざまなスコープサイズを持つことができる。 既存のメソッドは通常、ホップ毎にノード適応重みを追加します。 表現力はあるものの、必然的に過度なオーバーフィッティングに悩まされる。 この問題に対処するため、我々は、ノード分類におけるGNN過剰適合を克服する、個別のスコープ分類問題としてパーソナライズされたスコーピングを形式化する。 具体的には,各ノードの最適GNN深さを予測する。 我々の理論的および実証的な分析は、正確な深さ予測が一般化を著しく促進できることを示唆している。 さらに、GNN推論にのみ参加する軽量なアプローチであるAdaptive Scope (AS)を提案する。 ASは構造パターンを符号化し、各ノードの予測に最適なモデルを選択する深さを予測する。 実験の結果,ASは広範囲のデータセットにまたがる様々なGNNアーキテクチャで高い柔軟性を示し,精度は著しく向上した。

Heterophilous graphs, where dissimilar nodes tend to connect, pose a challenge for graph neural networks (GNNs) as their superior performance typically comes from aggregating homophilous information. Increasing the GNN depth can expand the scope (i.e., receptive field), potentially finding homophily from the higher-order neighborhoods. However, uniformly expanding the scope results in subpar performance since real-world web graphs often exhibit homophily disparity between nodes. An ideal way is personalized scopes, allowing nodes to have varying scope sizes. Existing methods typically add node-adaptive weights for each hop. Although expressive, they inevitably suffer from severe overfitting. To address this issue, we formalize personalized scoping as a separate scope classification problem that overcomes GNN overfitting in node classification. Specifically, we predict the optimal GNN depth for each node. Our theoretical and empirical analysis suggests that accurately predicting the depth can significantly enhance generalization. We further propose Adaptive Scope (AS), a lightweight approach that only participates in GNN inference. AS encodes structural patterns and predicts the depth to select the best model for each node's prediction. Experimental results show that AS is highly flexible with various GNN architectures across a wide range of datasets while significantly improving accuracy.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-21
# モダリティを欠くディープマルチモーダル学習:サーベイ

Deep Multimodal Learning with Missing Modality: A Survey ( http://arxiv.org/abs/2409.07825v3 )

ライセンス: Link先を確認
Renjie Wu, Hu Wang, Hsiang-Ting Chen, Gustavo Carneiro, (参考訳) マルチモーダルモデルトレーニングとテストの間、センサーの制限、コスト制限、プライバシの懸念、データ損失により、特定のデータモダリティが欠落し、パフォーマンスに悪影響を及ぼす可能性がある。 モダリティの欠如に対処するために設計されたマルチモーダル学習技術は、いくつかのモダリティが利用できない場合でも、モデルロバスト性を確保することでこれを緩和することができる。 本調査は, 深層学習に着目したMLMM(Multimodal Learning with Missing Modality)の最近の進歩を概観する。 MLMMと標準マルチモーダル学習セットアップのモチベーションと区別をカバーした最初の総合的な調査を行い、続いて現在の方法、アプリケーション、データセットの詳細な分析を行い、課題と今後の方向性を結論付けている。

During multimodal model training and testing, certain data modalities may be absent due to sensor limitations, cost constraints, privacy concerns, or data loss, negatively affecting performance. Multimodal learning techniques designed to handle missing modalities can mitigate this by ensuring model robustness even when some modalities are unavailable. This survey reviews recent progress in Multimodal Learning with Missing Modality (MLMM), focusing on deep learning methods. It provides the first comprehensive survey that covers the motivation and distinctions between MLMM and standard multimodal learning setups, followed by a detailed analysis of current methods, applications, and datasets, concluding with challenges and future directions.
翻訳日:2024-11-07 21:42:46 公開日:2024-10-21
# 読解時間予測における文脈の役割について

On the Role of Context in Reading Time Prediction ( http://arxiv.org/abs/2409.08160v2 )

ライセンス: Link先を確認
Andreas Opedal, Eleanor Chodroff, Ryan Cotterell, Ethan Gotlieb Wilcox, (参考訳) 我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。 提案手法は,言語単位(例えば,単語)の処理作業が,文脈内情報の内容のアフィン関数であることを示す。 まず,文脈予測器が言語モデルから導出できる可能性の多さのうちの1つであることを考察する。 もう一つは、単位とその文脈の間のポイントワイド相互情報(PMI)であり、これは一グラムの周波数を制御しているときに、素数と同じ予測力が得られる。 さらに、PMIとサブプライサルは周波数と相関する。 これは PMI も sprisal もコンテキストのみに関する情報を含まないことを意味する。 これに対応して、周波数の直交補体に仮定を投影し、周波数とは無関係な新しい文脈予測器を生成する手法を提案する。 本実験は, 文脈が直交予測器で表される場合, 文脈によって説明される読解時間のばらつきの割合がはるかに小さいことを示す。 解釈可能性の観点からは、過去の研究が読解時間の予測において文脈が果たす役割を過大評価していた可能性があることを示している。

We present a new perspective on how readers integrate context during real-time language comprehension. Our proposals build on surprisal theory, which posits that the processing effort of a linguistic unit (e.g., a word) is an affine function of its in-context information content. We first observe that surprisal is only one out of many potential ways that a contextual predictor can be derived from a language model. Another one is the pointwise mutual information (PMI) between a unit and its context, which turns out to yield the same predictive power as surprisal when controlling for unigram frequency. Moreover, both PMI and surprisal are correlated with frequency. This means that neither PMI nor surprisal contains information about context alone. In response to this, we propose a technique where we project surprisal onto the orthogonal complement of frequency, yielding a new contextual predictor that is uncorrelated with frequency. Our experiments show that the proportion of variance in reading times explained by context is a lot smaller when context is represented by the orthogonalized predictor. From an interpretability standpoint, this indicates that previous studies may have overstated the role that context has in predicting reading times.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-21
# 読解時間予測における文脈の役割について

On the Role of Context in Reading Time Prediction ( http://arxiv.org/abs/2409.08160v3 )

ライセンス: Link先を確認
Andreas Opedal, Eleanor Chodroff, Ryan Cotterell, Ethan Gotlieb Wilcox, (参考訳) 我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。 提案手法は,言語単位(例えば,単語)の処理作業が,文脈内情報の内容のアフィン関数であることを示す。 まず,文脈予測器が言語モデルから導出できる可能性の多さのうちの1つであることを考察する。 もう一つは、単位とその文脈の間のポイントワイド相互情報(PMI)であり、これは一グラムの周波数を制御しているときに、素数と同じ予測力が得られる。 さらに、PMIとサブプライサルは周波数と相関する。 これは PMI も sprisal もコンテキストのみに関する情報を含まないことを意味する。 これに対応して、周波数の直交補体に仮定を投影し、周波数とは無関係な新しい文脈予測器を生成する手法を提案する。 本実験は, 文脈が直交予測器で表される場合, 文脈によって説明される読解時間のばらつきの割合がはるかに小さいことを示す。 解釈可能性の観点からは、過去の研究が読解時間の予測において文脈が果たす役割を過大評価していた可能性があることを示している。

We present a new perspective on how readers integrate context during real-time language comprehension. Our proposals build on surprisal theory, which posits that the processing effort of a linguistic unit (e.g., a word) is an affine function of its in-context information content. We first observe that surprisal is only one out of many potential ways that a contextual predictor can be derived from a language model. Another one is the pointwise mutual information (PMI) between a unit and its context, which turns out to yield the same predictive power as surprisal when controlling for unigram frequency. Moreover, both PMI and surprisal are correlated with frequency. This means that neither PMI nor surprisal contains information about context alone. In response to this, we propose a technique where we project surprisal onto the orthogonal complement of frequency, yielding a new contextual predictor that is uncorrelated with frequency. Our experiments show that the proportion of variance in reading times explained by context is a lot smaller when context is represented by the orthogonalized predictor. From an interpretability standpoint, this indicates that previous studies may have overstated the role that context has in predicting reading times.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-21
# FDGからPSMAへ:PET/CT画像におけるHitchhiker's Guide to Multitracer, Multicentersion Segmentation

From FDG to PSMA: A Hitchhiker's Guide to Multitracer, Multicenter Lesion Segmentation in PET/CT Imaging ( http://arxiv.org/abs/2409.09478v2 )

ライセンス: Link先を確認
Maximilian Rokuss, Balint Kovacs, Yannick Kirchhoff, Shuhan Xiao, Constantin Ulrich, Klaus H. Maier-Hein, Fabian Isensee, (参考訳) PET/CTスキャンにおける病変分割の自動化は、臨床ワークフローの改善とがん診断の進展に不可欠である。 しかし、この課題は生理的多様性、PETイメージングで使用される異なるトレーサ、医療センター全体での多様なイメージングプロトコルによって困難である。 これを解決するために、AutoPETシリーズは、さまざまなPET/CT環境にまたがるアルゴリズムを開発するために研究者に挑戦するために作られた。 本稿では,ResEncL アーキテクチャを用いた nnU-Net フレームワークを用いたマルチトラス,マルチセンタの一般化を目的とした AutoPET III チャレンジの解決策を提案する。 主なテクニックには、CT、MR、PETデータセットをまたいだ誤調整データ拡張とマルチモーダル事前トレーニングがあり、最初の解剖学的理解を提供する。 臓器管理をマルチタスクアプローチとして取り入れることで,生理的摂取とトレーサー特異的パターンの区別が可能となり,病変が存在しない場合に特に有用である。 Diceスコアが57.61、ResEncL(65.31)を達成したデフォルトのnnU-Netと比較して、Diceスコアが68.40、偽陽性(FPvol: 7.82)と偽陰性(FNvol: 10.35)が減少し、パフォーマンスが大幅に向上した。 これらの結果から, PET/CT領域におけるネットワーク設計, 拡張, 事前訓練, マルチタスク学習の併用の有効性が示唆された。 テストセットの評価の後、我々のアプローチはモデル中心のカテゴリ(Team LesionTracer)で第1位を獲得しました。 コードはhttps://github.com/MIC-DKFZ/autopet-3-submission.comで公開されている。

Automated lesion segmentation in PET/CT scans is crucial for improving clinical workflows and advancing cancer diagnostics. However, the task is challenging due to physiological variability, different tracers used in PET imaging, and diverse imaging protocols across medical centers. To address this, the autoPET series was created to challenge researchers to develop algorithms that generalize across diverse PET/CT environments. This paper presents our solution for the autoPET III challenge, targeting multitracer, multicenter generalization using the nnU-Net framework with the ResEncL architecture. Key techniques include misalignment data augmentation and multi-modal pretraining across CT, MR, and PET datasets to provide an initial anatomical understanding. We incorporate organ supervision as a multitask approach, enabling the model to distinguish between physiological uptake and tracer-specific patterns, which is particularly beneficial in cases where no lesions are present. Compared to the default nnU-Net, which achieved a Dice score of 57.61, or the larger ResEncL (65.31) our model significantly improved performance with a Dice score of 68.40, alongside a reduction in false positive (FPvol: 7.82) and false negative (FNvol: 10.35) volumes. These results underscore the effectiveness of combining advanced network design, augmentation, pretraining, and multitask learning for PET/CT lesion segmentation. After evaluation on the test set, our approach was awarded the first place in the model-centric category (Team LesionTracer). Code is publicly available at https://github.com/MIC-DKFZ/autopet-3-submission.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-21
# 複素値データのためのシュタインメッツニューラルネットワーク

Steinmetz Neural Networks for Complex-Valued Data ( http://arxiv.org/abs/2409.10075v2 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Ali Pezeshki, Vahid Tarokh, (参考訳) 本研究では、並列実数値サブネットと結合出力からなるDNNを用いて、複素数値データを処理するための新しいアプローチを提案する。 提案するアーキテクチャのクラスはSteinmetz Neural Networksと呼ばれ、多視点学習を利用して、潜在空間内でより解釈可能な表現を構築する。 さらに、Steinmetzニューラルネットワークの潜伏空間における解析信号表現を促進する一貫性ペナルティを組み込んだ分析ニューラルネットワークを提案する。 この罰は、実数成分と虚数成分の間の決定論的、直交的な関係を強制する。 情報理論的な構成を用いることで、解析的ニューラルネットワークによって仮定された一般化誤差上限が、スタインメッツニューラルネットワークの一般クラスよりも低いことを示す。 筆者らの数値実験では、これらのネットワークがベンチマークデータセットや合成例で得る付加雑音に対する性能改善と堅牢性について記述した。

In this work, we introduce a new approach to processing complex-valued data using DNNs consisting of parallel real-valued subnetworks with coupled outputs. Our proposed class of architectures, referred to as Steinmetz Neural Networks, leverages multi-view learning to construct more interpretable representations within the latent space. Moreover, we present the Analytic Neural Network, which incorporates a consistency penalty that encourages analytic signal representations in the latent space of the Steinmetz neural network. This penalty enforces a deterministic and orthogonal relationship between the real and imaginary components. Utilizing an information-theoretic construction, we demonstrate that the generalization error upper bound posited by the analytic neural network is lower than that of the general class of Steinmetz neural networks. Our numerical experiments depict the improved performance and robustness to additive noise, afforded by these networks on benchmark datasets and synthetic examples.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-21
# Playground v3: 大規模言語モデルによるテキストと画像のアライメントの改善

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models ( http://arxiv.org/abs/2409.10695v2 )

ライセンス: Link先を確認
Bingchen Liu, Ehsan Akhgari, Alexander Visheratin, Aleks Kamko, Linmiao Xu, Shivam Shrirao, Chase Lambert, Joao Souza, Suhail Doshi, Daiqing Li, (参考訳) Playground v3(PGv3)は、複数のテストベンチマークにまたがって最先端(SoTA)のパフォーマンスを実現し、グラフィック設計能力に優れ、新しい機能を導入しています。 T5やCLIPテキストエンコーダのような事前訓練された言語モデルに依存する従来のテキスト・ツー・イメージ生成モデルとは異なり、我々のアプローチは大規模言語モデル(LLM)をデコーダのみのLLMからのみテキスト条件を活用する新しい構造と完全に統合する。 さらに、画像キャプションの質を高めるために、様々なレベルの詳細でキャプションを生成し、テキスト構造の多様性を豊かにする社内キャプションキャプタを開発した。 また、画像キャプションの詳細な性能を評価するために、新しいベンチマークCapsBenchを導入する。 実験の結果,PGv3はテキストのアペンデンス,複雑な推論,正確なテキストレンダリングに優れていた。 ユーザの嗜好調査は、ステッカー、ポスター、ロゴデザインなど、一般的なデザイン応用のための、我々のモデルの超人的なグラフィックデザイン能力を示している。 さらにPGv3では、正確なRGB色制御や堅牢な多言語理解など、新しい機能が導入されている。

We introduce Playground v3 (PGv3), our latest text-to-image model that achieves state-of-the-art (SoTA) performance across multiple testing benchmarks, excels in graphic design abilities and introduces new capabilities. Unlike traditional text-to-image generative models that rely on pre-trained language models like T5 or CLIP text encoders, our approach fully integrates Large Language Models (LLMs) with a novel structure that leverages text conditions exclusively from a decoder-only LLM. Additionally, to enhance image captioning quality-we developed an in-house captioner, capable of generating captions with varying levels of detail, enriching the diversity of text structures. We also introduce a new benchmark CapsBench to evaluate detailed image captioning performance. Experimental results demonstrate that PGv3 excels in text prompt adherence, complex reasoning, and accurate text rendering. User preference studies indicate the super-human graphic design ability of our model for common design applications, such as stickers, posters, and logo designs. Furthermore, PGv3 introduces new capabilities, including precise RGB color control and robust multilingual understanding.
翻訳日:2024-11-07 20:24:11 公開日:2024-10-21
# 大規模言語モデルはコンテンツ配信ネットワークを必要とするか?

Do Large Language Models Need a Content Delivery Network? ( http://arxiv.org/abs/2409.13761v1 )

ライセンス: Link先を確認
Yihua Cheng, Kuntai Du, Jiayi Yao, Junchen Jiang, (参考訳) 大規模言語モデル(LLM)の使用が急速に拡大するにつれて、様々なLLMクエリを補完するために必要な知識の範囲も拡大する。 したがって、LLM推論における新しい知識の柔軟かつ効率的な注入を可能にすることが重要である。 上位3つの選択肢がある。 一 LLMの重み(微調整)に知識を埋め込むこと。 (二) LLMのテキスト入力(インテキスト学習)の一部としての知識を含むこと、又は 3) プリフィル中に新たな知識のKVキャッシュをLSMに注入すること。 本稿では、微調整と文脈内学習が一般的であるが、知識の媒体としてKVキャッシュを使用することで、よりモジュール化された知識注入とより効率的なLLMを低コストかつ高速な応答で実現することができると論じる。 これらの利点を実現するため,LLM サービスにおける新しいシステムコンポーネントである知識配信ネットワーク (KDN) を構想し,LLM エンジンや他の計算・記憶資源間でのKV キャッシュのストレージ,転送,構成を動的に最適化する。 私たちは、Akamaiのようなコンテンツ配信ネットワーク(CDN)が、効率的なデータ配信を通じてインターネットエコシステムの成功を可能にしたのと同じように、KDNは、効率的な知識配信を通じてLLMアプリケーションの成功に不可欠であると考えています。 我々は、KDNプロトタイプをhttps://github.com/LMCache/LMCacheでオープンソース化しました。

As the use of large language models (LLMs) expands rapidly, so does the range of knowledge needed to supplement various LLM queries. Thus, enabling flexible and efficient injection of new knowledge in LLM inference is critical. Three high-level options exist: (i) embedding the knowledge in LLM's weights (i.e., fine-tuning), (ii) including the knowledge as a part of LLM's text input (i.e., in-context learning), or (iii) injecting the KV caches of the new knowledge to LLM during prefill. This paper argues that, although fine-tuning and in-context learning are popular, using KV caches as the medium of knowledge could simultaneously enable more modular management of knowledge injection and more efficient LLM serving with low cost and fast response. To realize these benefits, we envision a Knowledge Delivery Network (KDN), a new system component in LLM services that dynamically optimizes the storage, transfer, and composition of KV cache across LLM engines and other compute and storage resources. We believe that, just like content delivery networks (CDNs), such as Akamai, enabled the success of the Internet ecosystem through their efficient data delivery, KDNs will be critical to the success of LLM applications through their efficient knowledge delivery. We have open-sourced a KDN prototype at https://github.com/LMCache/LMCache.
翻訳日:2024-11-07 05:24:17 公開日:2024-10-21
# 大規模言語モデルはコンテンツ配信ネットワークを必要とするか?

Do Large Language Models Need a Content Delivery Network? ( http://arxiv.org/abs/2409.13761v2 )

ライセンス: Link先を確認
Yihua Cheng, Kuntai Du, Jiayi Yao, Junchen Jiang, (参考訳) 大規模言語モデル(LLM)の使用が急速に拡大するにつれて、様々なLLMクエリを補完するために必要な知識の範囲も拡大する。 したがって、LLM推論における新しい知識の柔軟かつ効率的な注入を可能にすることが重要である。 上位3つの選択肢がある。 一 LLMの重み(微調整)に知識を埋め込むこと。 (二) LLMのテキスト入力(インテキスト学習)の一部としての知識を含むこと、又は 3) プリフィル中に新たな知識のKVキャッシュをLSMに注入すること。 本稿では、微調整と文脈内学習が一般的であるが、知識の媒体としてKVキャッシュを使用することで、よりモジュール化された知識注入とより効率的なLLMを低コストかつ高速な応答で実現することができると論じる。 これらの利点を実現するため,LLM サービスにおける新しいシステムコンポーネントである知識配信ネットワーク (KDN) を構想し,LLM エンジンや他の計算・記憶資源間でのKV キャッシュのストレージ,転送,構成を動的に最適化する。 私たちは、Akamaiのようなコンテンツ配信ネットワーク(CDN)が、効率的なデータ配信を通じてインターネットエコシステムの成功を可能にしたのと同じように、KDNは、効率的な知識配信を通じてLLMアプリケーションの成功に不可欠であると考えています。 我々は、KDNプロトタイプをhttps://github.com/LMCache/LMCacheでオープンソース化しました。

As the use of large language models (LLMs) expands rapidly, so does the range of knowledge needed to supplement various LLM queries. Thus, enabling flexible and efficient injection of new knowledge in LLM inference is critical. Three high-level options exist: (i) embedding the knowledge in LLM's weights (i.e., fine-tuning), (ii) including the knowledge as a part of LLM's text input (i.e., in-context learning), or (iii) injecting the KV caches of the new knowledge to LLM during prefill. This paper argues that, although fine-tuning and in-context learning are popular, using KV caches as the medium of knowledge could simultaneously enable more modular management of knowledge injection and more efficient LLM serving with low cost and fast response. To realize these benefits, we envision a Knowledge Delivery Network (KDN), a new system component in LLM services that dynamically optimizes the storage, transfer, and composition of KV cache across LLM engines and other compute and storage resources. We believe that, just like content delivery networks (CDNs), such as Akamai, enabled the success of the Internet ecosystem through their efficient data delivery, KDNs will be critical to the success of LLM applications through their efficient knowledge delivery. We have open-sourced a KDN prototype at https://github.com/LMCache/LMCache.
翻訳日:2024-11-07 05:24:17 公開日:2024-10-21
# FAMOUS:UltraScale+FPGA上での変圧器のアテンション機構のためのフレキシブル加速器

FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs ( http://arxiv.org/abs/2409.14023v1 )

ライセンス: Link先を確認
Ehsan Kabir, Md. Arafat Kabir, Austin R. J. Downey, Jason D. Bakos, David Andrews, Miaoqing Huang, (参考訳) トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に適用されている。 それらの人気は、シーケンシャルなデータを分析し、特徴を抽出する際の、マルチヘッドの自己注意ブロックの例外的なパフォーマンスに起因する。 これまでのところ、このメカニズムに適したハードウェアアクセラレータは限られており、これは完全なモデルのためにアクセラレータを設計する最初のステップである。 本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの高密度マルチヘッドアテンション(MHA)計算のためのフレキシブルハードウェアアクセラレータである「textit{Famous}」を提案する。 並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。 大規模行列の効率的なタイリングは、様々なFPGAプラットフォーム上の異なるモジュール間でメモリと計算資源を分散するために使われてきた。 この設計は Xilinx Alveo U55C と Ultrascale+FPGA を含む U200 データセンターカードで評価される。 U55Cでは,最大スループット,並列アテンションヘッド数,埋め込み寸法,タイルサイズが328(giga Operation/second (GOPS)),8,768,64となることを示す実験結果が得られた。 さらに、Intel Xeon Gold 5220R CPUとNVIDIA V100 GPUより3.28$\times$と2.6$\times$が速い。 また、1.3$\times$は最先端のFPGAベースのアクセラレータよりも高速である。

Transformer neural networks (TNNs) are being applied across a widening range of application domains, including natural language processing (NLP), machine translation, and computer vision (CV). Their popularity is largely attributed to the exceptional performance of their multi-head self-attention blocks when analyzing sequential data and extracting features. To date, there are limited hardware accelerators tailored for this mechanism, which is the first step before designing an accelerator for a complete model. This paper proposes \textit{FAMOUS}, a flexible hardware accelerator for dense multi-head attention (MHA) computation of TNNs on field-programmable gate arrays (FPGAs). It is optimized for high utilization of processing elements and on-chip memories to improve parallelism and reduce latency. An efficient tiling of large matrices has been employed to distribute memory and computing resources across different modules on various FPGA platforms. The design is evaluated on Xilinx Alveo U55C and U200 data center cards containing Ultrascale+ FPGAs. Experimental results are presented that show that it can attain a maximum throughput, number of parallel attention heads, embedding dimension and tile size of 328 (giga operations/second (GOPS)), 8, 768 and 64 respectively on the U55C. Furthermore, it is 3.28$\times$ and 2.6$\times$ faster than the Intel Xeon Gold 5220R CPU and NVIDIA V100 GPU respectively. It is also 1.3$\times$ faster than the fastest state-of-the-art FPGA-based accelerator.
翻訳日:2024-11-07 04:06:38 公開日:2024-10-21
# FAMOUS:UltraScale+FPGA上での変圧器のアテンション機構のためのフレキシブル加速器

FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs ( http://arxiv.org/abs/2409.14023v2 )

ライセンス: Link先を確認
Ehsan Kabir, Md. Arafat Kabir, Austin R. J. Downey, Jason D. Bakos, David Andrews, Miaoqing Huang, (参考訳) トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に適用されている。 それらの人気は、シーケンシャルなデータを分析し、特徴を抽出する際の、マルチヘッドの自己注意ブロックの例外的なパフォーマンスに起因する。 これまでのところ、このメカニズムに適したハードウェアアクセラレータは限られており、これは完全なモデルのためにアクセラレータを設計する最初のステップである。 本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの高密度マルチヘッドアテンション(MHA)計算のためのフレキシブルハードウェアアクセラレータである「textit{Famous}」を提案する。 並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。 大規模行列の効率的なタイリングは、様々なFPGAプラットフォーム上の異なるモジュール間でメモリと計算資源を分散するために使われてきた。 この設計は Xilinx Alveo U55C と Ultrascale+FPGA を含む U200 データセンターカードで評価される。 U55Cでは,最大スループット,並列アテンションヘッド数,埋め込み寸法,タイルサイズが328(giga Operation/second (GOPS)),8,768,64となることを示す実験結果が得られた。 さらに、Intel Xeon Gold 5220R CPUとNVIDIA V100 GPUより3.28$\times$と2.6$\times$が速い。 また、1.3$\times$は最先端のFPGAベースのアクセラレータよりも高速である。

Transformer neural networks (TNNs) are being applied across a widening range of application domains, including natural language processing (NLP), machine translation, and computer vision (CV). Their popularity is largely attributed to the exceptional performance of their multi-head self-attention blocks when analyzing sequential data and extracting features. To date, there are limited hardware accelerators tailored for this mechanism, which is the first step before designing an accelerator for a complete model. This paper proposes \textit{FAMOUS}, a flexible hardware accelerator for dense multi-head attention (MHA) computation of TNNs on field-programmable gate arrays (FPGAs). It is optimized for high utilization of processing elements and on-chip memories to improve parallelism and reduce latency. An efficient tiling of large matrices has been employed to distribute memory and computing resources across different modules on various FPGA platforms. The design is evaluated on Xilinx Alveo U55C and U200 data center cards containing Ultrascale+ FPGAs. Experimental results are presented that show that it can attain a maximum throughput, number of parallel attention heads, embedding dimension and tile size of 328 (giga operations/second (GOPS)), 8, 768 and 64 respectively on the U55C. Furthermore, it is 3.28$\times$ and 2.6$\times$ faster than the Intel Xeon Gold 5220R CPU and NVIDIA V100 GPU respectively. It is also 1.3$\times$ faster than the fastest state-of-the-art FPGA-based accelerator.
翻訳日:2024-11-07 04:06:38 公開日:2024-10-21
# OAEI-LLM:オントロジーマッチングにおける大規模言語モデル幻覚理解のためのベンチマークデータセット

OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching ( http://arxiv.org/abs/2409.14038v1 )

ライセンス: Link先を確認
Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang, (参考訳) 大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。 LLMをOMに使用する頻度は、LLM幻覚をよりよく理解するためのベンチマークの必要性を高める。 OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。 データセットの構築とスキーマ拡張で使用される方法論を概説し、潜在的なユースケースの例を示す。

Hallucinations of large language models (LLMs) commonly occur in domain-specific downstream tasks, with no exception in ontology matching (OM). The prevalence of using LLMs for OM raises the need for benchmarks to better understand LLM hallucinations. The OAEI-LLM dataset is an extended version of the Ontology Alignment Evaluation Initiative (OAEI) datasets that evaluate LLM-specific hallucinations in OM tasks. We outline the methodology used in dataset construction and schema extension, and provide examples of potential use cases.
翻訳日:2024-11-07 03:55:36 公開日:2024-10-21
# OAEI-LLM:オントロジーマッチングにおける大規模言語モデル幻覚理解のためのベンチマークデータセット

OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching ( http://arxiv.org/abs/2409.14038v2 )

ライセンス: Link先を確認
Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang, (参考訳) 大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。 LLMをOMに使用する頻度は、LLM幻覚をよりよく理解するためのベンチマークの必要性を高める。 OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。 データセットの構築とスキーマ拡張で使用される方法論を概説し、潜在的なユースケースの例を示す。

Hallucinations of large language models (LLMs) commonly occur in domain-specific downstream tasks, with no exception in ontology matching (OM). The prevalence of using LLMs for OM raises the need for benchmarks to better understand LLM hallucinations. The OAEI-LLM dataset is an extended version of the Ontology Alignment Evaluation Initiative (OAEI) datasets that evaluate LLM-specific hallucinations in OM tasks. We outline the methodology used in dataset construction and schema extension, and provide examples of potential use cases.
翻訳日:2024-11-07 03:55:36 公開日:2024-10-21
# OAEI-LLM:オントロジーマッチングにおける大規模言語モデル幻覚理解のためのベンチマークデータセット

OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching ( http://arxiv.org/abs/2409.14038v3 )

ライセンス: Link先を確認
Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang, (参考訳) 大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。 LLMをOMに使用する頻度は、LLM幻覚をよりよく理解するためのベンチマークの必要性を高める。 OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。 データセットの構築とスキーマ拡張で使用される方法論を概説し、潜在的なユースケースの例を示す。

Hallucinations of large language models (LLMs) commonly occur in domain-specific downstream tasks, with no exception in ontology matching (OM). The prevalence of using LLMs for OM raises the need for benchmarks to better understand LLM hallucinations. The OAEI-LLM dataset is an extended version of the Ontology Alignment Evaluation Initiative (OAEI) datasets that evaluate LLM-specific hallucinations in OM tasks. We outline the methodology used in dataset construction and schema extension, and provide examples of potential use cases.
翻訳日:2024-11-07 03:55:36 公開日:2024-10-21
# 量子ドットスピン鎖におけるフォノンデファス、エンタングル、交換オンリートフォリゲート配列

Phonon Dephasing, Entanglement and Exchange-Only Toffoli Gate Sequence in Quantum Dot Spin Chains ( http://arxiv.org/abs/2409.14735v1 )

ライセンス: Link先を確認
Guanjie He, (参考訳) 量子ドットスピンチェインシステムは、量子シミュレーションや集合電子の挙動の研究に不可欠であり、その機構や制御プロトコルを理解する必要がある。 第1章では、拡張されたハバードモデル、二重量子ドットシステム、電子-フォノンカップリングに焦点を当てた重要な概念を紹介している。 第2章では、多電子二重量子ドットにおける電子-フォノンカップリングについて、偏りのない、偏りのないシナリオ下での研究を行っている。 偏りのない場合、電子-フォノンカップリングによる強調は、一般的に右点のより多くの電子で増加するが、この傾向は偏りのない場合と矛盾し、特定の条件下での多電子量子ドットの潜在的な利点を示唆している。 第3章では、拡張ハバードモデルによって記述された多電子量子ドットスピンチェーンの絡み合いエントロピーについて検討する。 局所的および対的絡み合いはクーロン相互作用、トンネル強度、電子配置、サイトポテンシャルエネルギーの影響を受けている。 エンタングルメント図は、結合強度比とポテンシャルエネルギーの変動によって著しく影響を受ける相転移を明らかにし、特定の点のポテンシャルエネルギーを調整することは、基底状態の配置とエンタングルメントのエントロピーに重大な影響を及ぼす。 第4章は、非コヒーレンスな部分空間の概念に触発され、ハイゼンベルクモデルによって定義される9スピン9量子ドット系の演算列を、全角運動量量子数で決定される基底で探索する。 量子最適制御のクロトフ法を用いて、交換のみの量子ドットスピンチェーンに対するより効率的なパルスレベル演算シーケンスを特定し、従来の量子ゲート分解よりも優れた代替手段を提供し、より簡潔な量子アルゴリズム表現の開発を促進する可能性がある。

The quantum dot spin chain system is vital for quantum simulation and studying collective electron behaviors, necessitating an understanding of its mechanisms and control protocols. Chapter 1 introduces key concepts, focusing on the extended Hubbard model, double quantum dot systems, and electron-phonon coupling. Chapter 2 explores electron-phonon coupling in multielectron double quantum dots under unbiased and biased scenarios via detuning variations. In the unbiased case, dephasing due to electron-phonon coupling generally increases with more electrons in the right dot; this trend is inconsistent in the biased case, suggesting potential advantages of multielectron quantum dots under certain conditions. Chapter 3 investigates entanglement entropy in a multielectron quantum dot spin chain described by the extended Hubbard model. Local and pairwise entanglement are influenced by Coulomb interactions, tunneling strengths, electronic configurations, and site potential energies. The entanglement diagram reveals phase transitions significantly impacted by coupling strength ratios and potential energy variations; adjusting the potential energy of a specific dot critically influences ground state configurations and entanglement entropy. Chapter 4, inspired by the decoherence-free subspace concept, explores operation sequences in a nine-spin, nine-quantum-dot system defined by the Heisenberg model, with bases determined by total angular momentum quantum numbers. Employing the Krotov method of quantum optimal control, we identify a more efficient pulse-level operation sequence for an exchange-only quantum dot spin chain, offering a superior alternative to conventional quantum gate decomposition and potentially enhancing the development of more concise quantum algorithm representations.
翻訳日:2024-11-06 21:23:54 公開日:2024-10-21
# 量子ドットスピン鎖におけるフォノンデファス、エンタングル、交換オンリートフォリゲート配列

Phonon Dephasing, Entanglement and Exchange-Only Toffoli Gate Sequence in Quantum Dot Spin Chains ( http://arxiv.org/abs/2409.14735v2 )

ライセンス: Link先を確認
Guanjie He, (参考訳) 量子ドットスピンチェインシステムは、量子シミュレーションや集合電子の挙動の研究に不可欠であり、その機構や制御プロトコルを理解する必要がある。 第1章では、拡張されたハバードモデル、二重量子ドットシステム、電子-フォノンカップリングに焦点を当てた重要な概念を紹介している。 第2章では、多電子二重量子ドットにおける電子-フォノンカップリングについて、偏りのない、偏りのないシナリオ下での研究を行っている。 偏りのない場合、電子-フォノンカップリングによる強調は、一般的に右点のより多くの電子で増加するが、この傾向は偏りのない場合と矛盾し、特定の条件下での多電子量子ドットの潜在的な利点を示唆している。 第3章では、拡張ハバードモデルによって記述された多電子量子ドットスピンチェーンの絡み合いエントロピーについて検討する。 局所的および対的絡み合いはクーロン相互作用、トンネル強度、電子配置、サイトポテンシャルエネルギーの影響を受けている。 エンタングルメント図は、結合強度比とポテンシャルエネルギーの変動によって著しく影響を受ける相転移を明らかにし、特定の点のポテンシャルエネルギーを調整することは、基底状態の配置とエンタングルメントのエントロピーに重大な影響を及ぼす。 第4章は、非コヒーレンスな部分空間の概念に触発され、ハイゼンベルクモデルによって定義される9スピン9量子ドット系の演算列を、全角運動量量子数で決定される基底で探索する。 量子最適制御のクロトフ法を用いて、交換のみの量子ドットスピンチェーンに対するより効率的なパルスレベル演算シーケンスを特定し、従来の量子ゲート分解よりも優れた代替手段を提供し、より簡潔な量子アルゴリズム表現の開発を促進する可能性がある。

The quantum dot spin chain system is vital for quantum simulation and studying collective electron behaviors, necessitating an understanding of its mechanisms and control protocols. Chapter 1 introduces key concepts, focusing on the extended Hubbard model, double quantum dot systems, and electron-phonon coupling. Chapter 2 explores electron-phonon coupling in multielectron double quantum dots under unbiased and biased scenarios via detuning variations. In the unbiased case, dephasing due to electron-phonon coupling generally increases with more electrons in the right dot; this trend is inconsistent in the biased case, suggesting potential advantages of multielectron quantum dots under certain conditions. Chapter 3 investigates entanglement entropy in a multielectron quantum dot spin chain described by the extended Hubbard model. Local and pairwise entanglement are influenced by Coulomb interactions, tunneling strengths, electronic configurations, and site potential energies. The entanglement diagram reveals phase transitions significantly impacted by coupling strength ratios and potential energy variations; adjusting the potential energy of a specific dot critically influences ground state configurations and entanglement entropy. Chapter 4, inspired by the decoherence-free subspace concept, explores operation sequences in a nine-spin, nine-quantum-dot system defined by the Heisenberg model, with bases determined by total angular momentum quantum numbers. Employing the Krotov method of quantum optimal control, we identify a more efficient pulse-level operation sequence for an exchange-only quantum dot spin chain, offering a superior alternative to conventional quantum gate decomposition and potentially enhancing the development of more concise quantum algorithm representations.
翻訳日:2024-11-06 21:12:18 公開日:2024-10-21
# 符号付きマックスカット問題に対するパリティQAOAの性能評価

Performance of Parity QAOA for the Signed Max-Cut Problem ( http://arxiv.org/abs/2409.14786v1 )

ライセンス: Link先を確認
Anita Weidinger, Glen Bigan Mbeng, Michael Fellner, Davit Khachatryan, Wolfgang Lechner, (参考訳) ノイズの多い中間スケールの量子デバイス上での量子最適化アルゴリズムの実践的な実装は、その限られた接続性を考慮している必要がある。 そのため、平面量子チップにバイナリ最適化問題を符号化することで、この制限を克服するためにParityアーキテクチャが導入された。 完全および正規グラフ上で符号付きMax-Cut問題を解くために,Parityアーキテクチャ(Parity QAOA)における量子近似最適化アルゴリズムの性能について検討する。 固定回路深さでのアルゴリズムの比較により、Parity QAOAはSWAPネットワークに基づく従来のQAOA実装よりも優れていることを示す。 解析ではクリフォード回路を用いて、古典的コンピュータではアクセスできない問題サイズに対するParity QAOAの低い性能境界を推定する。 単層回路では、2つのアルゴリズムの再帰的変形をベンチマークし、その性能が等しいことを示す。

The practical implementation of quantum optimization algorithms on noisy intermediate-scale quantum devices requires accounting for their limited connectivity. As such, the Parity architecture was introduced to overcome this limitation by encoding binary optimization problems onto planar quantum chips. We investigate the performance of the Quantum Approximate Optimization Algorithm on the Parity architecture (Parity QAOA) for solving instances of the signed Max-Cut problem on complete and regular graphs. By comparing the algorithms at fixed circuit depth, we demonstrate that Parity QAOA outperforms conventional QAOA implementations based on SWAP networks. Our analysis utilizes Clifford circuits to estimate lower performance bounds for Parity QAOA for problem sizes that would be otherwise inaccessible on classical computers. For single layer circuits we additionally benchmark the recursive variant of the two algorithms, showing that their performance is equal.
翻訳日:2024-11-06 21:01:15 公開日:2024-10-21
# 符号付きマックスカット問題に対するパリティQAOAの性能評価

Performance of Parity QAOA for the Signed Max-Cut Problem ( http://arxiv.org/abs/2409.14786v2 )

ライセンス: Link先を確認
Anita Weidinger, Glen Bigan Mbeng, Michael Fellner, Davit Khachatryan, Wolfgang Lechner, (参考訳) ノイズの多い中間スケールの量子デバイス上での量子最適化アルゴリズムの実践的な実装は、その限られた接続性を考慮している必要がある。 そのため、平面量子チップにバイナリ最適化問題を符号化することで、この制限を克服するためにParityアーキテクチャが導入された。 完全および正規グラフ上で符号付きMax-Cut問題を解くために,Parityアーキテクチャ(Parity QAOA)における量子近似最適化アルゴリズムの性能について検討する。 固定回路深さでのアルゴリズムの比較により、Parity QAOAはSWAPネットワークに基づく従来のQAOA実装よりも優れていることを示す。 解析ではクリフォード回路を用いて、古典的コンピュータではアクセスできない問題サイズに対するParity QAOAの低い性能境界を推定する。 単層回路では、2つのアルゴリズムの再帰的変形をベンチマークし、その性能が等しいことを示す。

The practical implementation of quantum optimization algorithms on noisy intermediate-scale quantum devices requires accounting for their limited connectivity. As such, the Parity architecture was introduced to overcome this limitation by encoding binary optimization problems onto planar quantum chips. We investigate the performance of the Quantum Approximate Optimization Algorithm on the Parity architecture (Parity QAOA) for solving instances of the signed Max-Cut problem on complete and regular graphs. By comparing the algorithms at fixed circuit depth, we demonstrate that Parity QAOA outperforms conventional QAOA implementations based on SWAP networks. Our analysis utilizes Clifford circuits to estimate lower performance bounds for Parity QAOA for problem sizes that would be otherwise inaccessible on classical computers. For single layer circuits we additionally benchmark the recursive variant of the two algorithms, showing that their performance is equal.
翻訳日:2024-11-06 21:01:15 公開日:2024-10-21
# PixelBytes:マルチモーダル生成のための統一埋め込み

PixelBytes: Catching Unified Embedding for Multimodal Generation ( http://arxiv.org/abs/2409.15512v1 )

ライセンス: Link先を確認
Fabien Furfaro, (参考訳) 本報告では,PixelBytes Embeddingを紹介した。 本手法は,複数モーダルシーケンス生成,特にテキストおよび画素画像に対する創発的特性を実現するために,単一の凝集表現で多様な入力をキャプチャする。 Image Transformers、PixelCNN、Mamba-Bytesといった最先端のシーケンスモデルにインスパイアされたPixelBytesは、さまざまなデータ型を統合するという課題に対処することを目指している。 我々は、リカレントニューラルネットワーク(RNN)、ステートスペースモデル(SSM)、アテンションベースのモデルなど、さまざまなモデルアーキテクチャを探求し、双方向処理と革新的なPxBy埋め込み技術に注目した。 特殊なPixelBytes Pok{\'e}monデータセットを用いて実験を行い、PxBy埋め込みと畳み込み層を用いた双方向シーケンスモデルがコヒーレントなマルチモーダルシーケンスを生成することを示した。 この研究は、統合された方法でマルチモーダルデータの理解と生成が可能な統合AIモデルの進歩に寄与する。

This report introduces PixelBytes Embedding, a novel approach for unified multimodal representation learning. Our method captures diverse inputs in a single, cohesive representation, enabling emergent properties for multimodal sequence generation, particularly for text and pixelated images. Inspired by state-of-the-art sequence models such as Image Transformers, PixelCNN, and Mamba-Bytes, PixelBytes aims to address the challenges of integrating different data types. We explore various model architectures, including Recurrent Neural Networks (RNNs), State Space Models (SSMs), and Attention-based models, focusing on bidirectional processing and our innovative PxBy embedding technique. Our experiments, conducted on a specialized PixelBytes Pok{\'e}mon dataset, demonstrate that bidirectional sequence models with PxBy embedding and convolutional layers can generate coherent multimodal sequences. This work contributes to the advancement of integrated AI models capable of understanding and generating multimodal data in a unified manner.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-21
# PixelBytes:マルチモーダル生成のための統一埋め込み

PixelBytes: Catching Unified Embedding for Multimodal Generation ( http://arxiv.org/abs/2409.15512v2 )

ライセンス: Link先を確認
Fabien Furfaro, (参考訳) 本報告では,PixelBytes Embeddingを紹介した。 本手法は,複数モーダルシーケンス生成,特にテキストおよび画素画像に対する創発的特性を実現するために,単一の凝集表現で多様な入力をキャプチャする。 Image Transformers、PixelCNN、Mamba-Bytesといった最先端のシーケンスモデルにインスパイアされたPixelBytesは、さまざまなデータ型を統合するという課題に対処することを目指している。 我々は、リカレントニューラルネットワーク(RNN)、ステートスペースモデル(SSM)、アテンションベースのモデルなど、さまざまなモデルアーキテクチャを探求し、双方向処理と革新的なPxBy埋め込み技術に注目した。 特殊なPixelBytes Pok{\'e}monデータセットを用いて実験を行い、PxBy埋め込みと畳み込み層を用いた双方向シーケンスモデルがコヒーレントなマルチモーダルシーケンスを生成することを示した。 この研究は、統合された方法でマルチモーダルデータの理解と生成が可能な統合AIモデルの進歩に寄与する。

This report introduces PixelBytes Embedding, a novel approach for unified multimodal representation learning. Our method captures diverse inputs in a single, cohesive representation, enabling emergent properties for multimodal sequence generation, particularly for text and pixelated images. Inspired by state-of-the-art sequence models such as Image Transformers, PixelCNN, and Mamba-Bytes, PixelBytes aims to address the challenges of integrating different data types. We explore various model architectures, including Recurrent Neural Networks (RNNs), State Space Models (SSMs), and Attention-based models, focusing on bidirectional processing and our innovative PxBy embedding technique. Our experiments, conducted on a specialized PixelBytes Pok{\'e}mon dataset, demonstrate that bidirectional sequence models with PxBy embedding and convolutional layers can generate coherent multimodal sequences. This work contributes to the advancement of integrated AI models capable of understanding and generating multimodal data in a unified manner.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-21
# HAICOSYSTEM:人間-AIインタラクションにおけるサンドボックス安全リスクの生態系

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions ( http://arxiv.org/abs/2409.16427v2 )

ライセンス: Link先を確認
Xuhui Zhou, Hyunwoo Kim, Faeze Brahman, Liwei Jiang, Hao Zhu, Ximing Lu, Frank Xu, Bill Yuchen Lin, Yejin Choi, Niloofar Mireshghallah, Ronan Le Bras, Maarten Sap, (参考訳) AIエージェントは、人間のユーザやツールとのインタラクションにおいて、ますます自律的になり、インタラクションの安全性のリスクが高まる。 本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 HAICOSYSTEMは、人間のユーザとAIエージェント間のマルチターンインタラクションをシミュレートするモジュール型のサンドボックス環境を備えており、AIエージェントにはさまざまなシナリオ(例えば、他の患者のプロファイルにアクセスしようとするユーザ)をナビゲートするためのさまざまなツール(例えば、患者管理プラットフォーム)が備わっている。 これらの相互作用におけるAIエージェントの安全性を検討するために、運用、コンテンツ関連、社会的、法的リスクをカバーするメトリクスを用いた総合的な多次元評価フレームワークを開発する。 7つのドメイン(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行することで、HAICOSYSTEMが現実的なユーザ-AIインタラクションやAIエージェントによる複雑なツール使用をエミュレートできることを実証する。 我々の実験によると、現在最先端のLSMは、プロプライエタリでもオープンソースでも、50%以上のケースで安全リスクを示しており、シミュレーションされた悪意のあるユーザと対話する際には、モデルが一般的に高いリスクを示す。 我々の発見は、複雑なインタラクションを安全にナビゲートできるエージェントを構築することの課題、特に悪意のあるユーザに直面している場合の課題を浮き彫りにしている。 AIエージェントの安全性エコシステムを育むために、私たちは、実践者がカスタムシナリオを作成し、インタラクションをシミュレートし、エージェントの安全性とパフォーマンスを評価することができるコードプラットフォームをリリースしました。

AI agents are increasingly autonomous in their interactions with human users and tools, leading to increased interactional safety risks. We present HAICOSYSTEM, a framework examining AI agent safety within diverse and complex social interactions. HAICOSYSTEM features a modular sandbox environment that simulates multi-turn interactions between human users and AI agents, where the AI agents are equipped with a variety of tools (e.g., patient management platforms) to navigate diverse scenarios (e.g., a user attempting to access other patients' profiles). To examine the safety of AI agents in these interactions, we develop a comprehensive multi-dimensional evaluation framework that uses metrics covering operational, content-related, societal, and legal risks. Through running 1840 simulations based on 92 scenarios across seven domains (e.g., healthcare, finance, education), we demonstrate that HAICOSYSTEM can emulate realistic user-AI interactions and complex tool use by AI agents. Our experiments show that state-of-the-art LLMs, both proprietary and open-sourced, exhibit safety risks in over 50\% cases, with models generally showing higher risks when interacting with simulated malicious users. Our findings highlight the ongoing challenge of building agents that can safely navigate complex interactions, particularly when faced with malicious users. To foster the AI agent safety ecosystem, we release a code platform that allows practitioners to create custom scenarios, simulate interactions, and evaluate the safety and performance of their agents.
翻訳日:2024-11-06 17:30:16 公開日:2024-10-21
# HAICOSYSTEM:人間-AIインタラクションにおけるサンドボックス安全リスクの生態系

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions ( http://arxiv.org/abs/2409.16427v3 )

ライセンス: Link先を確認
Xuhui Zhou, Hyunwoo Kim, Faeze Brahman, Liwei Jiang, Hao Zhu, Ximing Lu, Frank Xu, Bill Yuchen Lin, Yejin Choi, Niloofar Mireshghallah, Ronan Le Bras, Maarten Sap, (参考訳) AIエージェントは、人間のユーザやツールとのインタラクションにおいて、ますます自律的になり、インタラクションの安全性のリスクが高まる。 本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 HAICOSYSTEMは、人間のユーザとAIエージェント間のマルチターンインタラクションをシミュレートするモジュール型のサンドボックス環境を備えており、AIエージェントにはさまざまなシナリオ(例えば、他の患者のプロファイルにアクセスしようとするユーザ)をナビゲートするためのさまざまなツール(例えば、患者管理プラットフォーム)が備わっている。 これらの相互作用におけるAIエージェントの安全性を検討するために、運用、コンテンツ関連、社会的、法的リスクをカバーするメトリクスを用いた総合的な多次元評価フレームワークを開発する。 7つのドメイン(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行することで、HAICOSYSTEMが現実的なユーザ-AIインタラクションやAIエージェントによる複雑なツール使用をエミュレートできることを実証する。 我々の実験によると、現在最先端のLSMは、プロプライエタリでもオープンソースでも、50%以上のケースで安全リスクを示しており、シミュレーションされた悪意のあるユーザと対話する際には、モデルが一般的に高いリスクを示す。 我々の発見は、複雑なインタラクションを安全にナビゲートできるエージェントを構築することの課題、特に悪意のあるユーザに直面している場合の課題を浮き彫りにしている。 AIエージェントの安全性エコシステムを育むために、私たちは、実践者がカスタムシナリオを作成し、インタラクションをシミュレートし、エージェントの安全性とパフォーマンスを評価することができるコードプラットフォームをリリースしました。

AI agents are increasingly autonomous in their interactions with human users and tools, leading to increased interactional safety risks. We present HAICOSYSTEM, a framework examining AI agent safety within diverse and complex social interactions. HAICOSYSTEM features a modular sandbox environment that simulates multi-turn interactions between human users and AI agents, where the AI agents are equipped with a variety of tools (e.g., patient management platforms) to navigate diverse scenarios (e.g., a user attempting to access other patients' profiles). To examine the safety of AI agents in these interactions, we develop a comprehensive multi-dimensional evaluation framework that uses metrics covering operational, content-related, societal, and legal risks. Through running 1840 simulations based on 92 scenarios across seven domains (e.g., healthcare, finance, education), we demonstrate that HAICOSYSTEM can emulate realistic user-AI interactions and complex tool use by AI agents. Our experiments show that state-of-the-art LLMs, both proprietary and open-sourced, exhibit safety risks in over 50\% cases, with models generally showing higher risks when interacting with simulated malicious users. Our findings highlight the ongoing challenge of building agents that can safely navigate complex interactions, particularly when faced with malicious users. To foster the AI agent safety ecosystem, we release a code platform that allows practitioners to create custom scenarios, simulate interactions, and evaluate the safety and performance of their agents.
翻訳日:2024-11-06 17:30:16 公開日:2024-10-21
# AlignedKV: 高精度量子化によるKVキャッシュのメモリアクセス削減

AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization ( http://arxiv.org/abs/2409.16546v2 )

ライセンス: Link先を確認
Yifan Tan, Haoze Wang, Chao Yan, Yangdong Deng, (参考訳) モデル量子化は、LLMに関連する大きなメモリ消費と長い推論時間の問題に対処する重要な技術となっている。 重要なパラメータと重要でないパラメータを区別する混合精度量子化は、精度と圧縮速度のバランスをとるため、多くの量子化スキームの中で際立っている。 しかし、既存の手法では、その重要度を定量的に分析することなく、定性的分析や手動実験によって重要なパラメータを特定できるのみである。 そこで我々は,混合精度量子化におけるパラメータの重要性を均一に評価する定量的枠組みを構築するために,いわゆる「精密アライメント」という新しい基準を提案する。 実世界の様々なシナリオ下での浮動小数点加算に関する観測は、2つの加算が同一の精度を持つべきであることを示唆している。 このような観察は、行列乗算演算において各パラメータの精度を決定するために必須の原理を提供する。 以上の発見を大規模モデル推論に適用する第一歩として,メモリアクセス遅延を効果的に低減する動的KVキャッシュ量子化技術を開発した。 メモリ節約に重点を置く既存の量子化アプローチとは異なり、本研究は浮動小数点数の定量化を通じてLSM推論を加速することを目的としている。 提案手法はメモリアクセスの25%の節約を実現し,LCMの復号フェーズにおける注目度計算において最大1.3倍の高速化を実現する。

Model quantization has become a crucial technique to address the issues of large memory consumption and long inference times associated with LLMs. Mixed-precision quantization, which distinguishes between important and unimportant parameters, stands out among numerous quantization schemes as it achieves a balance between precision and compression rate. However, existing approaches can only identify important parameters through qualitative analysis and manual experiments without quantitatively analyzing how their importance is determined. We propose a new criterion, so-called 'precision alignment', to build a quantitative framework to holistically evaluate the importance of parameters in mixed-precision quantization. Our observations on floating point addition under various real-world scenarios suggest that two addends should have identical precision, otherwise the information in the higher-precision number will be wasted. Such an observation offers an essential principle to determine the precision of each parameter in matrix multiplication operation. As the first step towards applying the above discovery to large model inference, we develop a dynamic KV-Cache quantization technique to effectively reduce memory access latency. Different from existing quantization approaches that focus on memory saving, this work directly aims to accelerate LLM inference through quantifying floating numbers. The proposed technique attains a 25% saving of memory access and delivers up to 1.3x speedup in the computation of attention in the decoding phase of LLM, with almost no loss of precision.
翻訳日:2024-11-06 17:30:16 公開日:2024-10-21
# ABCFair:フェアネス法の比較のための適応型ベンチマークアプローチ

ABCFair: an Adaptable Benchmark approach for Comparing Fairness Methods ( http://arxiv.org/abs/2409.16965v2 )

ライセンス: Link先を確認
MaryBeth Defrance, Maarten Buyl, Tijl De Bie, (参考訳) 機械学習におけるバイアスを緩和することにより、繊細な特徴に対する公平性を追求する多くの手法が実装されている。 しかし、各手法が取り組む問題設定は、介入の段階、繊細な特徴の構成、公平性の概念、出力の分布など、大きく異なる。 バイナリ分類においても、これらの微妙な違いは、偏差緩和問題はもともとどのようにフレーム化されていたかに強く依存するため、フェアネス法をベンチマークするのに非常に複雑である。 したがって、ABCFairは実世界の問題設定のデシラタに適応し、あらゆるユースケースにおけるメソッド間の適切なコンパビリティを実現するためのベンチマーク手法である。 我々はABCFairを、大規模、伝統的両方のデータセットと二重ラベル(バイアス付き、非バイアス付き)データセットの事前、内、および後処理の方法に適用し、フェアネスと精度のトレードオフを横取りする。

Numerous methods have been implemented that pursue fairness with respect to sensitive features by mitigating biases in machine learning. Yet, the problem settings that each method tackles vary significantly, including the stage of intervention, the composition of sensitive features, the fairness notion, and the distribution of the output. Even in binary classification, these subtle differences make it highly complicated to benchmark fairness methods, as their performance can strongly depend on exactly how the bias mitigation problem was originally framed. Hence, we introduce ABCFair, a benchmark approach which allows adapting to the desiderata of the real-world problem setting, enabling proper comparability between methods for any use case. We apply ABCFair to a range of pre-, in-, and postprocessing methods on both large-scale, traditional datasets and on a dual label (biased and unbiased) dataset to sidestep the fairness-accuracy trade-off.
翻訳日:2024-11-06 17:10:14 公開日:2024-10-21
# 相互作用するフェルミオン系における絡み合いエントロピー抽出のための高速量子モンテカルロアルゴリズム

High-efficiency quantum Monte Carlo algorithm for extracting entanglement entropy in interacting fermion systems ( http://arxiv.org/abs/2409.20009v1 )

ライセンス: Link先を確認
Weilun Jiang, Gaopei Pan, Zhe Wang, Bin-Bin Mao, Heng Shen, Zheng Yan, (参考訳) 量子モンテカルロによる新しい位相と相転移を数値的に求める絡み合いエントロピーは、大規模相互作用するスピン/ボソン系において大きな成果を上げている。 対照的に、相互作用するフェルミオン系における数値的な探索は、凝縮物質により多くの注目が集まるにもかかわらず、まれである。 基本的な制限はフェルミオン量子モンテカルロ(英語版)(\sim \beta N^3$)の計算コストがスピン/ボソン(英語版)(\sim \beta N$)の計算コストよりもはるかに高いことである。 そこで本研究では, エンタングルメントエントロピーの抽出効率を大幅に向上させる, 物理パラメータに沿ったインクリメンタル手法に基づくフェルミオン量子モンテカルロアルゴリズムを提案する。 2次元2乗格子Hubbardモデルを例として、アルゴリズムの有効性を実証し、高い計算精度を示す。 このシミュレーションでは、エントロピーのエントロピーの計算されたスケーリング挙動は、フェルミ面とゴールドストーンモードの異なる位相を解明する。

The entanglement entropy probing novel phases and phase transitions numerically via quantum Monte Carlo has made great achievements in large-scale interacting spin/boson systems. In contrast, the numerical exploration in interacting fermion systems is rare, even though fermion systems attract more attentions in condensed matter. The fundamental restrictions is that the computational cost of fermion quantum Monte Carlo ($\sim \beta N^3$) is much higher than that of spin/boson ($\sim \beta N$). To tackle the problem cumbersome existent methods of eantanglement entropy calculation, we propose a fermionic quantum Monte Carlo algorithm based on the incremental technique along physical parameters, which greatly improves the efficiency of extracting entanglement entropy. Taking a two-dimensional square lattice Hubbard model as an example, we demonstrate the effectiveness of the algorithm and show the high computation precision. In this simulation, the calculated scaling behavior of the entanglement entropy elucidates the different phases of the Fermi surface and Goldstone modes.
翻訳日:2024-11-05 16:18:02 公開日:2024-10-21
# 相互作用するフェルミオン系における絡み合いエントロピー抽出のための高速量子モンテカルロアルゴリズム

High-efficiency quantum Monte Carlo algorithm for extracting entanglement entropy in interacting fermion systems ( http://arxiv.org/abs/2409.20009v2 )

ライセンス: Link先を確認
Weilun Jiang, Gaopei Pan, Zhe Wang, Bin-Bin Mao, Heng Shen, Zheng Yan, (参考訳) 量子モンテカルロによる新しい位相と相転移を数値的に求める絡み合いエントロピーは、大規模相互作用するスピン/ボソン系において大きな成果を上げている。 対照的に、相互作用するフェルミオン系における数値的な探索は、凝縮物質により多くの注目が集まるにもかかわらず、まれである。 基本的な制限はフェルミオン量子モンテカルロ(英語版)(\sim \beta N^3$)の計算コストがスピン/ボソン(英語版)(\sim \beta N$)の計算コストよりもはるかに高いことである。 そこで本研究では, エンタングルメントエントロピーの抽出効率を大幅に向上させる, 物理パラメータに沿ったインクリメンタル手法に基づくフェルミオン量子モンテカルロアルゴリズムを提案する。 2次元2乗格子Hubbardモデルを例として、アルゴリズムの有効性を実証し、高い計算精度を示す。 このシミュレーションでは、エントロピーのエントロピーの計算されたスケーリング挙動は、フェルミ面とゴールドストーンモードの異なる位相を解明する。

The entanglement entropy probing novel phases and phase transitions numerically via quantum Monte Carlo has made great achievements in large-scale interacting spin/boson systems. In contrast, the numerical exploration in interacting fermion systems is rare, even though fermion systems attract more attentions in condensed matter. The fundamental restrictions is that the computational cost of fermion quantum Monte Carlo ($\sim \beta N^3$) is much higher than that of spin/boson ($\sim \beta N$). To tackle the problem cumbersome existent methods of eantanglement entropy calculation, we propose a fermionic quantum Monte Carlo algorithm based on the incremental technique along physical parameters, which greatly improves the efficiency of extracting entanglement entropy. Taking a two-dimensional square lattice Hubbard model as an example, we demonstrate the effectiveness of the algorithm and show the high computation precision. In this simulation, the calculated scaling behavior of the entanglement entropy elucidates the different phases of the Fermi surface and Goldstone modes.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-21
# フレシェ回帰のための次元減少の計量選択について

On metric choice in dimension reduction for Fréchet regression ( http://arxiv.org/abs/2410.01783v1 )

ライセンス: Link先を確認
Abdul-Nasah Soale, Congli Ma, Siyu Chen, Obed Koomson, (参考訳) Fr'echetレグレッションは、一般的な距離空間に属する非伝統的なデータ型を解析するための、現代のデータ分析の主流になりつつある。 この新しい回帰法は、ランダムオブジェクト間の対距離を利用して、推定に重要な計量を選択する。 本稿では, ランダム応答とユークリッド予測器の回帰に対する次元減少部分空間の推定に対する計量選択の影響について検討する。 広範囲にわたる数値研究は、いくつかの人気のある距離空間に属する反応とユークリッド予測器を含む回帰の中央平均空間推定と中央平均空間推定にどのように影響するかを示す。 連続グルコースモニタリングデータに基づく血糖値分布の分析は、計量選択が実際の応用における発見にどのように影響するかを示す。

Fr\'echet regression is becoming a mainstay in modern data analysis for analyzing non-traditional data types belonging to general metric spaces. This novel regression method utilizes the pairwise distances between the random objects, which makes the choice of metric crucial in the estimation. In this paper, the effect of metric choice on the estimation of the dimension reduction subspace for the regression between random responses and Euclidean predictors is investigated. Extensive numerical studies illustrate how different metrics affect the central and central mean space estimates for regression involving responses belonging to some popular metric spaces versus Euclidean predictors. An analysis of the distributions of glycaemia based on continuous glucose monitoring data demonstrate how metric choice can influence findings in real applications.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-21
# フレシェ回帰のための次元減少の計量選択について

On metric choice in dimension reduction for Fréchet regression ( http://arxiv.org/abs/2410.01783v2 )

ライセンス: Link先を確認
Abdul-Nasah Soale, Congli Ma, Siyu Chen, Obed Koomson, (参考訳) Fr'echetレグレッションは、一般的な距離空間に属する非伝統的なデータ型を解析するための、現代のデータ分析の主流になりつつある。 この新しい回帰法は、連続モニタリングやイメージングデータなどの複雑な健康データの解析に特に有用である。 Fr\'echetレグレッションは、ランダムオブジェクト間のペアワイズ距離を利用して、推定に重要な計量を選択する。 本稿では,Fr'echet回帰に対する既存の次元減少法を概説し,不規則応答とユークリッド予測器の回帰に対する次元減少部分空間の推定に対する計量選択の影響について検討する。 広範囲にわたる数値研究は、異なる測定値が中央および中央の平均空間推定装置にどのように影響するかを示している。 パーキンソン病患者と無症者の脳接続ネットワークの分析と、連続グルコースモニタリングデータに基づく血糖分布の分析を含む2つの実際の応用について、計量選択が実際の応用における発見にどのように影響するかを実証する。

Fr\'echet regression is becoming a mainstay in modern data analysis for analyzing non-traditional data types belonging to general metric spaces. This novel regression method is especially useful in the analysis of complex health data such as continuous monitoring and imaging data. Fr\'echet regression utilizes the pairwise distances between the random objects, which makes the choice of metric crucial in the estimation. In this paper, existing dimension reduction methods for Fr\'echet regression are reviewed, and the effect of metric choice on the estimation of the dimension reduction subspace is explored for the regression between random responses and Euclidean predictors. Extensive numerical studies illustrate how different metrics affect the central and central mean space estimators. Two real applications involving analysis of brain connectivity networks of subjects with and without Parkinson's disease and an analysis of the distributions of glycaemia based on continuous glucose monitoring data are provided, to demonstrate how metric choice can influence findings in real applications.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-21
# AlphaEdit: 言語モデルのためのNull-Space Constrained Knowledge Editing

AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models ( http://arxiv.org/abs/2410.02355v1 )

ライセンス: Link先を確認
Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Xiang Wang, Xiangnan He, Tat-seng Chua, (参考訳) 大型言語モデル(LLM)は、しばしば誤った知識や時代遅れの知識による幻覚を示す。 そのため、ターゲットとする知識更新を可能にするモデル編集手法が登場した。 これを実現するために、最も一般的なパラダイムは、まず影響力のあるパラメータを見つけ出し、摂動を導入してそれらを編集する、ロケーション・then-editingアプローチである。 効果はあるものの、最近の研究では、特に逐次的な編集シナリオにおいて、この摂動がLLM内の元々保存されていた知識を必然的に破壊することを示した。 これを解決するために、AlphaEditは、パラメータにそれを適用する前に、保存された知識のnull空間に摂動を投影する新しいソリューションである。 理論的には、この予測により保存された知識について問い合わせた際、後編集LSMの出力が変化し続けることが保証され、破壊の問題を軽減できる。 LLaMA3、GPT2-XL、GPT-Jを含む様々なLLMの広範な実験により、AlphaEditは投影用の追加コード1行で平均36.4%の速度で、ほとんどの位置対応編集手法の性能を向上することを示した。 私たちのコードは、https://github.com/jianghoucheng/AlphaEditで利用可能です。

Large language models (LLMs) often exhibit hallucinations due to incorrect or outdated knowledge. Hence, model editing methods have emerged to enable targeted knowledge updates. To achieve this, a prevailing paradigm is the locating-then-editing approach, which first locates influential parameters and then edits them by introducing a perturbation. While effective, current studies have demonstrated that this perturbation inevitably disrupt the originally preserved knowledge within LLMs, especially in sequential editing scenarios. To address this, we introduce AlphaEdit, a novel solution that projects perturbation onto the null space of the preserved knowledge before applying it to the parameters. We theoretically prove that this projection ensures the output of post-edited LLMs remains unchanged when queried about the preserved knowledge, thereby mitigating the issue of disruption. Extensive experiments on various LLMs, including LLaMA3, GPT2-XL, and GPT-J, show that AlphaEdit boosts the performance of most locating-then-editing methods by an average of 36.4% with a single line of additional code for projection solely. Our code is available at: https://github.com/jianghoucheng/AlphaEdit.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-21
# AlphaEdit: 言語モデルのためのNull-Space Constrained Knowledge Editing

AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models ( http://arxiv.org/abs/2410.02355v2 )

ライセンス: Link先を確認
Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Xiang Wang, Xiangnan He, Tat-seng Chua, (参考訳) 大型言語モデル(LLM)は、しばしば誤った知識や時代遅れの知識による幻覚を示す。 そのため、ターゲットとする知識更新を可能にするモデル編集手法が登場した。 これを実現するために、最も一般的なパラダイムは、まず影響力のあるパラメータを見つけ出し、摂動を導入してそれらを編集する、ロケーション・then-editingアプローチである。 効果はあるものの、最近の研究では、特に逐次的な編集シナリオにおいて、この摂動がLLM内の元々保存されていた知識を必然的に破壊することを示した。 これを解決するために、AlphaEditは、パラメータにそれを適用する前に、保存された知識のnull空間に摂動を投影する新しいソリューションである。 理論的には、この予測により保存された知識について問い合わせた際、後編集LSMの出力が変化し続けることが保証され、破壊の問題を軽減できる。 LLaMA3、GPT2-XL、GPT-Jを含む様々なLLMの広範な実験により、AlphaEditは投影用の追加コード1行で平均36.4%の速度で、ほとんどの位置対応編集手法の性能を向上することを示した。 私たちのコードは、https://github.com/jianghoucheng/AlphaEditで利用可能です。

Large language models (LLMs) often exhibit hallucinations due to incorrect or outdated knowledge. Hence, model editing methods have emerged to enable targeted knowledge updates. To achieve this, a prevailing paradigm is the locating-then-editing approach, which first locates influential parameters and then edits them by introducing a perturbation. While effective, current studies have demonstrated that this perturbation inevitably disrupt the originally preserved knowledge within LLMs, especially in sequential editing scenarios. To address this, we introduce AlphaEdit, a novel solution that projects perturbation onto the null space of the preserved knowledge before applying it to the parameters. We theoretically prove that this projection ensures the output of post-edited LLMs remains unchanged when queried about the preserved knowledge, thereby mitigating the issue of disruption. Extensive experiments on various LLMs, including LLaMA3, GPT2-XL, and GPT-J, show that AlphaEdit boosts the performance of most locating-then-editing methods by an average of 36.4% with a single line of additional code for projection solely. Our code is available at: https://github.com/jianghoucheng/AlphaEdit.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-21
# スケーラブルなシミュレーションフリーエントロピー不均衡最適輸送

Scalable Simulation-free Entropic Unbalanced Optimal Transport ( http://arxiv.org/abs/2410.02656v1 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, (参考訳) 最適輸送(OT)問題は、与えられたコスト関数を最小化しながら2つの分布を接続する輸送マップを調べる。 このようなトランスポートマップを見つけることは、生成モデリングや画像から画像への変換など、機械学習に様々な応用がある。 本稿では,Entropic Un Balanced Optimal Transport (EUOT) 問題を解決するために,スケーラブルでシミュレーション不要なアプローチを提案する。 我々は、このEUOT問題の力学形式を導出し、これはシュリンガーブリッジ(SB)問題の一般化である。 これに基づいて、確率的最適制御解釈から、EUOT問題の二重定式化と最適条件を導出する。 これらの特性を活用することにより、シミュレーションフリーなEUOT(SF-EUOT)と呼ばれるEUOTを解くシミュレーションフリーなアルゴリズムを提案する。 既存のSBモデルは、トレーニングと評価に高価なシミュレーションコストを必要とするが、その相互性を利用して、シミュレーション不要なトレーニングとワンステップ生成を実現している。 本モデルでは,従来のSB法と比較して,生成モデルや画像間変換タスクのスケーラビリティが大幅に向上したことを示す。

The Optimal Transport (OT) problem investigates a transport map that connects two distributions while minimizing a given cost function. Finding such a transport map has diverse applications in machine learning, such as generative modeling and image-to-image translation. In this paper, we introduce a scalable and simulation-free approach for solving the Entropic Unbalanced Optimal Transport (EUOT) problem. We derive the dynamical form of this EUOT problem, which is a generalization of the Schr\"odinger bridges (SB) problem. Based on this, we derive dual formulation and optimality conditions of the EUOT problem from the stochastic optimal control interpretation. By leveraging these properties, we propose a simulation-free algorithm to solve EUOT, called Simulation-free EUOT (SF-EUOT). While existing SB models require expensive simulation costs during training and evaluation, our model achieves simulation-free training and one-step generation by utilizing the reciprocal property. Our model demonstrates significantly improved scalability in generative modeling and image-to-image translation tasks compared to previous SB methods.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-21
# スケーラブルなシミュレーションフリーエントロピー不均衡最適輸送

Scalable Simulation-free Entropic Unbalanced Optimal Transport ( http://arxiv.org/abs/2410.02656v2 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, (参考訳) 最適輸送(OT)問題は、与えられたコスト関数を最小化しながら2つの分布を接続する輸送マップを調べる。 このようなトランスポートマップを見つけることは、生成モデリングや画像から画像への変換など、機械学習に様々な応用がある。 本稿では,Entropic Un Balanced Optimal Transport (EUOT) 問題を解決するために,スケーラブルでシミュレーション不要なアプローチを提案する。 我々は、このEUOT問題の力学形式を導出し、これはシュリンガーブリッジ(SB)問題の一般化である。 これに基づいて、確率的最適制御解釈から、EUOT問題の二重定式化と最適条件を導出する。 これらの特性を活用することにより、シミュレーションフリーなEUOT(SF-EUOT)と呼ばれるEUOTを解くシミュレーションフリーなアルゴリズムを提案する。 既存のSBモデルは、トレーニングと評価に高価なシミュレーションコストを必要とするが、その相互性を利用して、シミュレーション不要なトレーニングとワンステップ生成を実現している。 本モデルでは,従来のSB法と比較して,生成モデルや画像間変換タスクのスケーラビリティが大幅に向上したことを示す。

The Optimal Transport (OT) problem investigates a transport map that connects two distributions while minimizing a given cost function. Finding such a transport map has diverse applications in machine learning, such as generative modeling and image-to-image translation. In this paper, we introduce a scalable and simulation-free approach for solving the Entropic Unbalanced Optimal Transport (EUOT) problem. We derive the dynamical form of this EUOT problem, which is a generalization of the Schr\"odinger bridges (SB) problem. Based on this, we derive dual formulation and optimality conditions of the EUOT problem from the stochastic optimal control interpretation. By leveraging these properties, we propose a simulation-free algorithm to solve EUOT, called Simulation-free EUOT (SF-EUOT). While existing SB models require expensive simulation costs during training and evaluation, our model achieves simulation-free training and one-step generation by utilizing the reciprocal property. Our model demonstrates significantly improved scalability in generative modeling and image-to-image translation tasks compared to previous SB methods.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-21
# NETS:非平衡トランスポートサンプリング

NETS: A Non-Equilibrium Transport Sampler ( http://arxiv.org/abs/2410.02711v1 )

ライセンス: Link先を確認
Michael S. Albergo, Eric Vanden-Eijnden, (参考訳) 非平衡輸送サンプリング(Non-Equilibrium Transport Sampler:NETS)と呼ばれるアルゴリズムを提案する。 非平衡サンプリングに使用される確率微分方程式を、AISで使用される非バイアスウェイトの影響を減少させる追加の学習ドリフト項で拡張する、Jarzynskiの等式に基づく、AIS(Annealed importance sample)の変種と見なすことができる。 このドリフトは、様々な目的関数の最小化であり、全て、サンプリングを管理する確率微分方程式の解を逆伝播することなく、偏りのない方法で推定できることを示す。 また,これらの目的が推定分布のKulback-Leibler分散を目標から制御していることも証明した。 NETSは非バイアスであり、また、トレーニング後の調整が可能な調整可能な拡散係数を持ち、有効サンプルサイズを最大化することができる。 本稿では, 標準ベンチマーク, 高次元ガウス混合分布, および統計格子場理論に基づくモデル上での手法の有効性を示す。

We propose an algorithm, termed the Non-Equilibrium Transport Sampler (NETS), to sample from unnormalized probability distributions. NETS can be viewed as a variant of annealed importance sampling (AIS) based on Jarzynski's equality, in which the stochastic differential equation used to perform the non-equilibrium sampling is augmented with an additional learned drift term that lowers the impact of the unbiasing weights used in AIS. We show that this drift is the minimizer of a variety of objective functions, which can all be estimated in an unbiased fashion without backpropagating through solutions of the stochastic differential equations governing the sampling. We also prove that some these objectives control the Kullback-Leibler divergence of the estimated distribution from its target. NETS is shown to be unbiased and, in addition, has a tunable diffusion coefficient which can be adjusted post-training to maximize the effective sample size. We demonstrate the efficacy of the method on standard benchmarks, high-dimensional Gaussian mixture distributions, and a model from statistical lattice field theory, for which it surpasses the performances of related work and existing baselines.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-21
# NETS:非平衡トランスポートサンプリング

NETS: A Non-Equilibrium Transport Sampler ( http://arxiv.org/abs/2410.02711v2 )

ライセンス: Link先を確認
Michael S. Albergo, Eric Vanden-Eijnden, (参考訳) 非平衡輸送サンプリング(Non-Equilibrium Transport Sampler:NETS)と呼ばれるアルゴリズムを提案する。 非平衡サンプリングに使用される確率微分方程式を、AISで使用される非バイアスウェイトの影響を減少させる追加の学習ドリフト項で拡張する、Jarzynskiの等式に基づく、AIS(Annealed importance sample)の変種と見なすことができる。 このドリフトは、様々な目的関数の最小化であり、全て、サンプリングを管理する確率微分方程式の解を逆伝播することなく、偏りのない方法で推定できることを示す。 また,これらの目的が推定分布のKulback-Leibler分散を目標から制御していることも証明した。 NETSは非バイアスであり、また、トレーニング後の調整が可能な調整可能な拡散係数を持ち、有効サンプルサイズを最大化することができる。 本稿では, 標準ベンチマーク, 高次元ガウス混合分布, および統計格子場理論に基づくモデル上での手法の有効性を示す。

We propose an algorithm, termed the Non-Equilibrium Transport Sampler (NETS), to sample from unnormalized probability distributions. NETS can be viewed as a variant of annealed importance sampling (AIS) based on Jarzynski's equality, in which the stochastic differential equation used to perform the non-equilibrium sampling is augmented with an additional learned drift term that lowers the impact of the unbiasing weights used in AIS. We show that this drift is the minimizer of a variety of objective functions, which can all be estimated in an unbiased fashion without backpropagating through solutions of the stochastic differential equations governing the sampling. We also prove that some these objectives control the Kullback-Leibler divergence of the estimated distribution from its target. NETS is shown to be unbiased and, in addition, has a tunable diffusion coefficient which can be adjusted post-training to maximize the effective sample size. We demonstrate the efficacy of the method on standard benchmarks, high-dimensional Gaussian mixture distributions, and a model from statistical lattice field theory, for which it surpasses the performances of related work and existing baselines.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-21
# One2set + Large Language Model: キーワード生成のためのベストパートナ

One2set + Large Language Model: Best Partners for Keyphrase Generation ( http://arxiv.org/abs/2410.03421v1 )

ライセンス: Link先を確認
Liangying Shao, Liang Zhang, Minlong Peng, Guoqi Ma, Hao Yue, Mingming Sun, Jinsong Su, (参考訳) キーワード生成(KPG)は、与えられたドキュメントの中核概念を表すフレーズの集合を自動的に生成することを目的としている。 KPGの主要なパラダイムは、one2seqとone2setである。 近年,大規模言語モデル(LLM)をKPGに適用することへの関心が高まっている。 予備実験では、単一のモデルがリコールと精度の両方で優れていることが判明した。 さらなる分析は以下のことを示している。 1) ワンセットパラダイムは,高いリコールの利点を保有するが,訓練中の監視信号の不適切な割り当てに苦しむ。 2) LLM はキーフレーズ選択において強力であるが,既存の選択法では冗長な選択を行うことが多い。 これらの結果から, KPGを2段階に分解する生成列選択フレームワークを導入し, 候補生成に12セットモデルを採用するとともに, LLMをセレクタとして使用し, 候補からキーフレーズを選択する。 特に、ジェネレータとセレクタで重要な改善が2つあります。 1) 上記の不適切な課題に対処するための最適輸送に基づく割当て戦略を設計する。 2)キーフレーズの選択をシーケンスラベリングタスクとしてモデル化し,冗長な選択を緩和する。 複数のベンチマークデータセットによる実験結果から,我々のフレームワークは最先端モデル,特にキーフレーズの欠如をはるかに上回っていることがわかった。

Keyphrase generation (KPG) aims to automatically generate a collection of phrases representing the core concepts of a given document. The dominant paradigms in KPG include one2seq and one2set. Recently, there has been increasing interest in applying large language models (LLMs) to KPG. Our preliminary experiments reveal that it is challenging for a single model to excel in both recall and precision. Further analysis shows that: 1) the one2set paradigm owns the advantage of high recall, but suffers from improper assignments of supervision signals during training; 2) LLMs are powerful in keyphrase selection, but existing selection methods often make redundant selections. Given these observations, we introduce a generate-then-select framework decomposing KPG into two steps, where we adopt a one2set-based model as generator to produce candidates and then use an LLM as selector to select keyphrases from these candidates. Particularly, we make two important improvements on our generator and selector: 1) we design an Optimal Transport-based assignment strategy to address the above improper assignments; 2) we model the keyphrase selection as a sequence labeling task to alleviate redundant selections. Experimental results on multiple benchmark datasets show that our framework significantly surpasses state-of-the-art models, especially in absent keyphrase prediction.
翻訳日:2024-11-02 22:29:14 公開日:2024-10-21
# One2set + Large Language Model: キーワード生成のためのベストパートナ

One2set + Large Language Model: Best Partners for Keyphrase Generation ( http://arxiv.org/abs/2410.03421v2 )

ライセンス: Link先を確認
Liangying Shao, Liang Zhang, Minlong Peng, Guoqi Ma, Hao Yue, Mingming Sun, Jinsong Su, (参考訳) キーワード生成(KPG)は、与えられたドキュメントの中核概念を表すフレーズの集合を自動的に生成することを目的としている。 KPGの主要なパラダイムは、one2seqとone2setである。 近年,大規模言語モデル(LLM)をKPGに適用することへの関心が高まっている。 予備実験では、単一のモデルがリコールと精度の両方で優れていることが判明した。 さらなる分析は以下のことを示している。 1) ワンセットパラダイムは,高いリコールの利点を保有するが,訓練中の監視信号の不適切な割り当てに苦しむ。 2) LLM はキーフレーズ選択において強力であるが,既存の選択法では冗長な選択を行うことが多い。 これらの結果から, KPGを2段階に分解する生成列選択フレームワークを導入し, 候補生成に12セットモデルを採用するとともに, LLMをセレクタとして使用し, 候補からキーフレーズを選択する。 特に、ジェネレータとセレクタで重要な改善が2つあります。 1) 上記の不適切な課題に対処するための最適輸送に基づく割当て戦略を設計する。 2)キーフレーズの選択をシーケンスラベリングタスクとしてモデル化し,冗長な選択を緩和する。 複数のベンチマークデータセットによる実験結果から,我々のフレームワークは最先端モデル,特にキーフレーズの欠如をはるかに上回っていることがわかった。

Keyphrase generation (KPG) aims to automatically generate a collection of phrases representing the core concepts of a given document. The dominant paradigms in KPG include one2seq and one2set. Recently, there has been increasing interest in applying large language models (LLMs) to KPG. Our preliminary experiments reveal that it is challenging for a single model to excel in both recall and precision. Further analysis shows that: 1) the one2set paradigm owns the advantage of high recall, but suffers from improper assignments of supervision signals during training; 2) LLMs are powerful in keyphrase selection, but existing selection methods often make redundant selections. Given these observations, we introduce a generate-then-select framework decomposing KPG into two steps, where we adopt a one2set-based model as generator to produce candidates and then use an LLM as selector to select keyphrases from these candidates. Particularly, we make two important improvements on our generator and selector: 1) we design an Optimal Transport-based assignment strategy to address the above improper assignments; 2) we model the keyphrase selection as a sequence labeling task to alleviate redundant selections. Experimental results on multiple benchmark datasets show that our framework significantly surpasses state-of-the-art models, especially in absent keyphrase prediction.
翻訳日:2024-11-02 22:29:14 公開日:2024-10-21
# 変位補間によるニューラル最適輸送の改善

Improving Neural Optimal Transport via Displacement Interpolation ( http://arxiv.org/abs/2410.03783v1 )

ライセンス: Link先を確認
Jaemoo Choi, Yongxin Chen, Jaewoong Choi, (参考訳) 最適輸送(OT)理論は、ソース分布をターゲット分布に移動させるコスト最小化輸送マップを考察する。 近年、ニューラルネットワークを用いて与えられたコスト関数の最適輸送マップを学習するためのいくつかのアプローチが出現している。 これらのアプローチをOTマップと呼ぶ。 OT Mapは、生成モデリングや画像から画像への変換の欠如など、さまざまな機械学習タスクのための強力なツールを提供する。 しかし、最大値最適化を利用する既存の方法は、しばしばトレーニングの不安定性とハイパーパラメータに対する感度を経験する。 本稿では,転位補間最適輸送モデル(DIOTM)と呼ばれる変位補間を利用して,安定性を向上し,OTマップの近似性を向上する新しい手法を提案する。 我々は、特定の時間に$t$で変位補間の二重定式化を導出し、これらの二重問題が時間にわたってどのように関連しているかを証明した。 これにより、OTマップの学習において、変位補間の全軌道を利用することができる。 本手法はトレーニングの安定性を向上し,最適輸送マップの推定において優れた結果が得られる。 画像から画像への変換タスクにおいて,DIOTMが既存のOTベースモデルより優れていることを示す。

Optimal Transport (OT) theory investigates the cost-minimizing transport map that moves a source distribution to a target distribution. Recently, several approaches have emerged for learning the optimal transport map for a given cost function using neural networks. We refer to these approaches as the OT Map. OT Map provides a powerful tool for diverse machine learning tasks, such as generative modeling and unpaired image-to-image translation. However, existing methods that utilize max-min optimization often experience training instability and sensitivity to hyperparameters. In this paper, we propose a novel method to improve stability and achieve a better approximation of the OT Map by exploiting displacement interpolation, dubbed Displacement Interpolation Optimal Transport Model (DIOTM). We derive the dual formulation of displacement interpolation at specific time $t$ and prove how these dual problems are related across time. This result allows us to utilize the entire trajectory of displacement interpolation in learning the OT Map. Our method improves the training stability and achieves superior results in estimating optimal transport maps. We demonstrate that DIOTM outperforms existing OT-based models on image-to-image translation tasks.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-21
# 変位補間によるニューラル最適輸送の改善

Improving Neural Optimal Transport via Displacement Interpolation ( http://arxiv.org/abs/2410.03783v2 )

ライセンス: Link先を確認
Jaemoo Choi, Yongxin Chen, Jaewoong Choi, (参考訳) 最適輸送(OT)理論は、ソース分布をターゲット分布に移動させるコスト最小化輸送マップを考察する。 近年、ニューラルネットワークを用いて与えられたコスト関数の最適輸送マップを学習するためのいくつかのアプローチが出現している。 これらのアプローチをOTマップと呼ぶ。 OT Mapは、生成モデリングや画像から画像への変換の欠如など、さまざまな機械学習タスクのための強力なツールを提供する。 しかし、最大値最適化を利用する既存の方法は、しばしばトレーニングの不安定性とハイパーパラメータに対する感度を経験する。 本稿では,転位補間最適輸送モデル(DIOTM)と呼ばれる変位補間を利用して,安定性を向上し,OTマップの近似性を向上する新しい手法を提案する。 我々は、特定の時間に$t$で変位補間の二重定式化を導出し、これらの二重問題が時間にわたってどのように関連しているかを証明した。 これにより、OTマップの学習において、変位補間の全軌道を利用することができる。 本手法はトレーニングの安定性を向上し,最適輸送マップの推定において優れた結果が得られる。 画像から画像への変換タスクにおいて,DIOTMが既存のOTベースモデルより優れていることを示す。

Optimal Transport (OT) theory investigates the cost-minimizing transport map that moves a source distribution to a target distribution. Recently, several approaches have emerged for learning the optimal transport map for a given cost function using neural networks. We refer to these approaches as the OT Map. OT Map provides a powerful tool for diverse machine learning tasks, such as generative modeling and unpaired image-to-image translation. However, existing methods that utilize max-min optimization often experience training instability and sensitivity to hyperparameters. In this paper, we propose a novel method to improve stability and achieve a better approximation of the OT Map by exploiting displacement interpolation, dubbed Displacement Interpolation Optimal Transport Model (DIOTM). We derive the dual formulation of displacement interpolation at specific time $t$ and prove how these dual problems are related across time. This result allows us to utilize the entire trajectory of displacement interpolation in learning the OT Map. Our method improves the training stability and achieves superior results in estimating optimal transport maps. We demonstrate that DIOTM outperforms existing OT-based models on image-to-image translation tasks.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-21
# 証明されたランダム性はセキュアな古典的位置検証を意味する

Certified Randomness implies Secure Classical Position-Verification ( http://arxiv.org/abs/2410.03982v1 )

ライセンス: Link先を確認
Omar Amer, Kaushik Chakraborty, David Cui, Fatih Kaleoglu, Charles Lim, Minzhao Liu, Marco Pistoia, (参考訳) Liu et al (ITCS22) は量子性プロトコルと古典通信の特定の証明に基づいてセキュアな位置検証プロトコルを設計する研究を開始した。 本稿では、この興味深いトピックをさらに研究し、その論文に残されているオープンな疑問のいくつかに答える。 我々は、量子性に基づく認証ランダム性プロトコルの単一ラウンド証明を、セキュアな古典的通信に基づく位置検証方式に変換することのできる、新しい汎用コンパイラを提供する。 その後、我々はコンパイラを、量子性に基づく証明されたランダム性プロトコルの様々な種類のマルチラウンド証明に拡張する。 さらに,Aaronson と Hung (STOC 23) が提案するランダム回路サンプリング (RCS) ベースのランダム性プロトコルを用いて,コンパイラをインスタンス化する。 RCSベースの技術は、今日のNISQデバイスの範囲内にあるため、我々の設計は、フォールトトレラントな量子コンピュータを実現するために必要なLiu et alプロトコルの制限を克服している。 さらに、これは認証されたランダム性以外のRCSベースの技術の最初の暗号的応用の1つである。

Liu et al. (ITCS22) initiated the study of designing a secure position verification protocol based on a specific proof of quantumness protocol and classical communication. In this paper, we study this interesting topic further and answer some of the open questions that are left in that paper. We provide a new generic compiler that can convert any single round proof of quantumness-based certified randomness protocol to a secure classical communication-based position verification scheme. Later, we extend our compiler to different kinds of multi-round proof of quantumness-based certified randomness protocols. Moreover, we instantiate our compiler with a random circuit sampling (RCS)-based certified randomness protocol proposed by Aaronson and Hung (STOC 23). RCS-based techniques are within reach of today's NISQ devices; therefore, our design overcomes the limitation of the Liu et al. protocol that would require a fault-tolerant quantum computer to realize. Moreover, this is one of the first cryptographic applications of RCS-based techniques other than certified randomness.
翻訳日:2024-11-02 15:00:17 公開日:2024-10-21
# 証明されたランダム性はセキュアな古典的位置検証を意味する

Certified Randomness implies Secure Classical Position-Verification ( http://arxiv.org/abs/2410.03982v2 )

ライセンス: Link先を確認
Omar Amer, Kaushik Chakraborty, David Cui, Fatih Kaleoglu, Charles Lim, Minzhao Liu, Marco Pistoia, (参考訳) Liu et al (ITCS22) は量子性プロトコルと古典通信の特定の証明に基づいてセキュアな位置検証プロトコルを設計する研究を開始した。 本稿では、この興味深いトピックをさらに研究し、その論文に残されているオープンな疑問のいくつかに答える。 我々は、量子性に基づく認証ランダム性プロトコルの単一ラウンド証明を、セキュアな古典的通信に基づく位置検証方式に変換することのできる、新しい汎用コンパイラを提供する。 その後、我々はコンパイラを、量子性に基づく証明されたランダム性プロトコルの様々な種類のマルチラウンド証明に拡張する。 さらに,Aaronson と Hung (STOC 23) が提案するランダム回路サンプリング (RCS) ベースのランダム性プロトコルを用いて,コンパイラをインスタンス化する。 RCSベースの技術は、今日のNISQデバイスの範囲内にあるため、我々の設計は、フォールトトレラントな量子コンピュータを実現するために必要なLiu et alプロトコルの制限を克服している。 さらに、これは認証されたランダム性以外のRCSベースの技術の最初の暗号的応用の1つである。

Liu et al. (ITCS22) initiated the study of designing a secure position verification protocol based on a specific proof of quantumness protocol and classical communication. In this paper, we study this interesting topic further and answer some of the open questions that are left in that paper. We provide a new generic compiler that can convert any single round proof of quantumness-based certified randomness protocol to a secure classical communication-based position verification scheme. Later, we extend our compiler to different kinds of multi-round proof of quantumness-based certified randomness protocols. Moreover, we instantiate our compiler with a random circuit sampling (RCS)-based certified randomness protocol proposed by Aaronson and Hung (STOC 23). RCS-based techniques are within reach of today's NISQ devices; therefore, our design overcomes the limitation of the Liu et al. protocol that would require a fault-tolerant quantum computer to realize. Moreover, this is one of the first cryptographic applications of RCS-based techniques other than certified randomness.
翻訳日:2024-11-02 14:50:11 公開日:2024-10-21
# 病院から携帯へ:1000万回以上の多変量記録をベースとしたユニバーサルECG財団モデル

From Hospital to Portables: A Universal ECG Foundation Model Built on 10+ Million Diverse Recordings ( http://arxiv.org/abs/2410.04133v1 )

ライセンス: Link先を確認
Jun Li, Aaron Aguirre, Junior Moura, Che Liu, Lanhai Zhong, Chenxi Sun, Gari Clifford, Brandon Westover, Shenda Hong, (参考訳) 人工知能(AI)は心電図(ECG)解析と心血管疾患検出において大きな可能性を秘めている。 しかし、一般的なAI-ECGモデルの開発は、個人間の多様性とECG診断の多様性のために困難であり、既存のモデルを特定の診断タスクやデータセットに制限している。 さらに、現在のAI-ECGモデルは、シングルリードのECGと12リードのECGの同等のパフォーマンスを達成するのに苦労しており、ポータブルでウェアラブルなECGデバイスへのAI-ECGの適用を制限している。 これらの制約に対処するため,心電図解析の診断能力を拡大するために,心電図の現実的なアノテーションを活用する汎用モデルであるECG Foundation Model (ECGFounder)を導入する。 ECGFounderは、Harvard-Emory ECG Databaseから150のラベルカテゴリを持つ1000万以上のECGでトレーニングされており、ECG分析を通じて包括的な心血管疾患の診断を可能にする。 このモデルは、ダウンストリームタスクに効果的なアウト・オブ・ザ・ボックスとファイン・チューナブルの両方を設計し、ユーザビリティを最大化する。 さらに重要なことは、アプリケーションをシングルリードのECGに拡張し、複雑な状態診断を可能にし、モバイルおよびリモート監視シナリオにおけるさまざまなダウンストリームタスクをサポートします。 実験結果から,ECGFounderは12誘導心電図と1誘導心電図の両方において,内部検証セットのエキスパートレベルの性能を達成し,また外部検証セットの様々な診断における強力な分類性能と一般化を示した。 微調整されたECGFounderは、人口統計学的検出、臨床イベント検出、心拍数横断診断において、ベースラインモデルを上回っている。 トレーニングされたモデルとデータは、bdsp.ioを通じて公開される。 私たちのコードはhttps://github.com/bdsp-core/ECGFounder.comから入手可能です。

Artificial Intelligence (AI) has shown great promise in electrocardiogram (ECG) analysis and cardiovascular disease detection. However, developing a general AI-ECG model has been challenging due to inter-individual variability and the diversity of ECG diagnoses, limiting existing models to specific diagnostic tasks and datasets. Moreover, current AI-ECG models struggle to achieve comparable performance between single-lead and 12-lead ECGs, limiting the application of AI-ECG to portable and wearable ECG devices. To address these limitations, we introduce an ECG Foundation Model (ECGFounder), a general-purpose model that leverages real-world ECG annotations from cardiology experts to broaden the diagnostic capabilities of ECG analysis. ECGFounder is trained on over 10 million ECGs with 150 label categories from the Harvard-Emory ECG Database, enabling comprehensive cardiovascular disease diagnosis through ECG analysis. The model is designed to be both effective out-of-the-box and fine-tunable for downstream tasks, maximizing usability. More importantly, we extend its application to single-lead ECGs, enabling complex condition diagnoses and supporting various downstream tasks in mobile and remote monitoring scenarios. Experimental results demonstrate that ECGFounder achieves expert-level performance on internal validation sets for both 12-lead and single-lead ECGs, while also exhibiting strong classification performance and generalization across various diagnoses on external validation sets. When fine-tuned, ECGFounder outperforms baseline models in demographics detection, clinical event detection, and cross-modality cardiac rhythm diagnosis. The trained model and data will be publicly released upon publication through the bdsp.io. Our code is available at https://github.com/bdsp-core/ECGFounder.
翻訳日:2024-11-02 14:01:04 公開日:2024-10-21
# 複数の領域にまたがって外部評価を施した1000万レコードを用いた心電図基礎モデル

An Electrocardiogram Foundation Model Built on over 10 Million Recordings with External Evaluation across Multiple Domains ( http://arxiv.org/abs/2410.04133v2 )

ライセンス: Link先を確認
Jun Li, Aaron Aguirre, Junior Moura, Che Liu, Lanhai Zhong, Chenxi Sun, Gari Clifford, Brandon Westover, Shenda Hong, (参考訳) 人工知能(AI)は心電図解析や心血管疾患評価に有意な可能性を秘めている。 近年、基礎モデルは医療AIの進歩に顕著な役割を果たしている。 ECGファウンデーションモデルの開発は、AI-ECG研究を新たな高度に高めるという約束を掲げている。 しかし、このようなモデルの構築には、不十分なデータベースサンプルサイズや、複数のドメインにわたる不適切な一般化など、いくつかの課題がある。 さらに、シングルリードとマルチリードECG分析の間には、顕著なパフォーマンスギャップがある。 我々は,心電図解析の診断能力を拡大するために,心電図の実際のアノテーションを活用する汎用モデルであるECG Foundation Model (ECGFounder)を導入した。 ECGFounderは、Harvard-Emory ECG Databaseから150のラベルカテゴリを持つ1000万以上のECGをトレーニングし、ECG分析を通じて包括的な心血管疾患の診断を可能にした。 このモデルは、効果的なアウト・オブ・ザ・ボックス(out-of-the-box)ソリューションと、ダウンストリームタスクに微調整可能で、ユーザビリティを最大化するように設計されている。 重要なことに、我々はその応用を下位のECG、特に任意の単一リードECGに拡張した。 ECGFounderは、モバイル監視シナリオにおけるさまざまなダウンストリームタスクのサポートに適用できる。 実験の結果、ECGFounderは内部検証セットで専門家レベルの性能を達成しており、AUROCは80の診断で0.95以上であることがわかった。 また、外部検証セット上の様々な診断における強力な分類性能と一般化を示す。 微調整されたECGFounderは、人口統計分析、臨床イベント検出、心拍数横断診断においてベースラインモデルを上回っている。 トレーニングされたモデルとデータは、bdsp.ioを通じて公開される。 私たちのコードはhttps://github.com/bdsp-core/ECGFounderで利用可能です。

Artificial intelligence (AI) has demonstrated significant potential in ECG analysis and cardiovascular disease assessment. Recently, foundation models have played a remarkable role in advancing medical AI. The development of an ECG foundation model holds the promise of elevating AI-ECG research to new heights. However, building such a model faces several challenges, including insufficient database sample sizes and inadequate generalization across multiple domains. Additionally, there is a notable performance gap between single-lead and multi-lead ECG analyses. We introduced an ECG Foundation Model (ECGFounder), a general-purpose model that leverages real-world ECG annotations from cardiology experts to broaden the diagnostic capabilities of ECG analysis. ECGFounder was trained on over 10 million ECGs with 150 label categories from the Harvard-Emory ECG Database, enabling comprehensive cardiovascular disease diagnosis through ECG analysis. The model is designed to be both an effective out-of-the-box solution, and a to be fine-tunable for downstream tasks, maximizing usability. Importantly, we extended its application to lower rank ECGs, and arbitrary single-lead ECGs in particular. ECGFounder is applicable to supporting various downstream tasks in mobile monitoring scenarios. Experimental results demonstrate that ECGFounder achieves expert-level performance on internal validation sets, with AUROC exceeding 0.95 for eighty diagnoses. It also shows strong classification performance and generalization across various diagnoses on external validation sets. When fine-tuned, ECGFounder outperforms baseline models in demographic analysis, clinical event detection, and cross-modality cardiac rhythm diagnosis. The trained model and data will be publicly released upon publication through the bdsp.io. Our code is available at https://github.com/bdsp-core/ECGFounder
翻訳日:2024-11-02 14:01:04 公開日:2024-10-21
# 環境ハイゼンベルク交換によるベル状態を介した即時絡み合い死亡・出産遷移の観測

Recipe for observing immediate entanglement death-birth transition through Bell states with environmental Heisenberg exchange ( http://arxiv.org/abs/2410.04396v1 )

ライセンス: Link先を確認
Son-Hsien Chen, Seng Ghee Tan, Che-Chun Huang, (参考訳) 環境は、絶滅と絡み合いの両面で二重の役割を果たすことが知られており、絡み合いの突然死(ESD)と絡み合いの突然の誕生(ESB)につながっている。 本稿では,2つの量子ビットの初期状態に対して,EDD,ESB,あるいはその間における有限持続時間(TFD)の遷移を行うためのレシピを提案する。 このレシピは一般的なものであるが、ハイゼンベルク交換を介して環境に結合したスピンスターモデルがイラストとして選択される。 ベル状態を用いることで、クビットバイパルタイト絡みがオンかオフかを示すエンタングルメントスイッチパラメータ(ESP)を導入する。 ベル状態の古典的な(量子)重み付けは、初期混合(純)状態に対してESPを符号化する。 ベル状態が2つ以上採用されると、ESPは絡み合いと絡み合いの境界を貫通することを許可する。 この場合、小さなESPの透過性は、ESDまたはESBの即時発生を保証し、エンタングルメントモノトンの局所時間変化対称性も満たされている場合、TFDを示す。 2つ以上のベル状態が採用されない場合、透過性は失われ、TFDはいくつかの混合状態においてのみ識別されるが、純粋な状態では識別されない。 純粋な状態の場合、環境量子自由度はベル状態の数と関連している。 このモデルの単純さにより、分析結果が提供される。 また、EDSをESBに変換したり変更したりできる対称性も分析します。 本発明のレシピは、絡み合い力学の制御性を高め、絡み合い工学を促進する。

Environment is known to play a dual role in both extinguishing and establishing entanglement, leading to entanglement sudden death (ESD) and entanglement sudden birth (ESB). In this paper, we propose a recipe for the initial states of two qubits to undergo ESD, ESB, or transition of finite duration (TFD) between them. While this recipe is generic, a spin-star model coupled to the environment via Heisenberg exchange is chosen for illustration. Utilizing the Bell states, we introduce the entanglement switch parameter (ESP), whose sign indicates whether the qubit bipartite entanglement is switched on or off. The classical (quantum) weighting of the Bell states encodes the ESP for initial mixed (pure) states. When more than two Bell states are adopted, the ESP permits states to penetrate through the entanglement-unentanglement boundary. In this case, the penetrability of a small ESP ensures the immediate occurrence of ESD or ESB and indicates the TFD if the local time-even symmetry in the entanglement monotone is also satisfied. When no more than two Bell states are employed, the penetrability is lost, and TFD is only identified in some mixed states but not in pure states. For pure states, the environmental quantum degrees of freedom are associated with the number of Bell states. Thanks to the simplicity of this model, analytic results are provided. We also analyze the symmetries that can convert or alter ESD into ESB, and vice versa. The recipe enhances the controllability of entanglement dynamics and facilitates entanglement engineering.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-21
# ベル状態を介した即時絞殺・出産遷移の一般的なレシピ:環境ハイゼンベルク交換を例として

General recipe for immediate entanglement death-birth transitions via Bell states: environmental Heisenberg exchange as an example ( http://arxiv.org/abs/2410.04396v2 )

ライセンス: Link先を確認
Son-Hsien Chen, Seng Ghee Tan, Che-Chun Huang, (参考訳) 環境は、絶滅と絡み合いの両面で二重の役割を果たすことが知られており、絡み合いの突然死(ESD)と絡み合いの突然の誕生(ESB)につながっている。 本稿では,2つの量子ビットの初期状態に対して,EDD,ESB,あるいはその間における有限持続時間(TFD)の遷移を行うためのレシピを提案する。 このレシピは一般に相互作用とは独立であるが、環境上のハイゼンベルク交換を伴うスピンスターモデルが図解として選択される。 ベル状態を用いることで、クビットバイパルタイト絡みがオンかオフかを示すエンタングルメントスイッチパラメータ(ESP)を導入する。 ベル状態の古典的な(量子)重み付けは、初期混合(純)状態に対してESPを符号化する。 ベル状態が2つ以上採用されると、ESPは絡み合いと絡み合いの境界を貫通することを許可する。 この場合、小さなESPの透過性は、ESDまたはESBの即時発生を保証し、エンタングルメントモノトンの局所時間変化対称性も満たされている場合、TFDを示す。 2つ以上のベル状態が採用されない場合、透過性は失われ、TFDはいくつかの混合状態においてのみ識別されるが、純粋な状態では、環境量子自由度はベル状態の数に関連付けられる。 このモデルの単純さにより、分析結果が提供される。 また、EDSをESBに変換したり変更したりできる対称性も分析します。 本発明のレシピは、絡み合い力学の制御性を高め、絡み合い工学を促進する。

Environment is known to play a dual role in both extinguishing and establishing entanglement, leading to entanglement sudden death (ESD) and entanglement sudden birth (ESB). In this paper, we propose a recipe for the initial states of two qubits to undergo ESD, ESB, or transition of finite duration (TFD) between them. While this recipe is \emph{generally independent of the interaction}, a spin-star model with environmental Heisenberg exchange is chosen for illustration. Utilizing the Bell states, we introduce the entanglement switch parameter (ESP), whose sign indicates whether the qubit bipartite entanglement is switched on or off. The classical (quantum) weighting of the Bell states encodes the ESP for initial mixed (pure) states. When more than two Bell states are adopted, the ESP permits states to penetrate through the entanglement-unentanglement boundary. In this case, the penetrability of a small ESP ensures the immediate occurrence of ESD or ESB and indicates the TFD if the local time-even symmetry in the entanglement monotone is also satisfied. When no more than two Bell states are employed, the penetrability is lost, and TFD is only identified in some mixed states but not in pure states; here for pure states, the environmental quantum degrees of freedom are associated with the number of Bell states. Thanks to the simplicity of this model, analytic results are provided. We also analyze the symmetries that can convert or alter ESD into ESB, and vice versa. The recipe enhances the controllability of entanglement dynamics and facilitates entanglement engineering.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-21
# LiteVLoc: 画像ゴールナビゲーションのためのMap-Liteビジュアルローカライゼーション

LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation ( http://arxiv.org/abs/2410.04419v1 )

ライセンス: Link先を確認
Jianhao Jiao, Jinhao He, Changkun Liu, Sebastian Aegidius, Xiangcheng Hu, Tristan Braud, Dimitrios Kanoulas, (参考訳) 本稿では,ライトウェイトなトポメトリックマップを用いて環境を表現する階層型ビジュアルローカライゼーションフレームワークLiteVLocを提案する。 この方法は、カメラのポーズを粗い方法で推定する3つの逐次モジュールから構成される。 詳細な3D表現に依存する主流のアプローチとは異なり、LiteVLocは、学習に基づく特徴マッチングと幾何学的解法を活用して、ストレージオーバーヘッドを低減する。 マップフリー再ローカライゼーションタスクのための新しいデータセットも紹介されている。 シミュレーションと実世界のシナリオの両方におけるローカライゼーションとナビゲーションを含む大規模な実験は、システムの性能を検証し、その精度と大規模展開の効率を実証した。 コードとデータは公開されます。

This paper presents LiteVLoc, a hierarchical visual localization framework that uses a lightweight topo-metric map to represent the environment. The method consists of three sequential modules that estimate camera poses in a coarse-to-fine manner. Unlike mainstream approaches relying on detailed 3D representations, LiteVLoc reduces storage overhead by leveraging learning-based feature matching and geometric solvers for metric pose estimation. A novel dataset for the map-free relocalization task is also introduced. Extensive experiments including localization and navigation in both simulated and real-world scenarios have validate the system's performance and demonstrated its precision and efficiency for large-scale deployment. Code and data will be made publicly available.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-21
# LiteVLoc: 画像ゴールナビゲーションのためのMap-Liteビジュアルローカライゼーション

LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation ( http://arxiv.org/abs/2410.04419v2 )

ライセンス: Link先を確認
Jianhao Jiao, Jinhao He, Changkun Liu, Sebastian Aegidius, Xiangcheng Hu, Tristan Braud, Dimitrios Kanoulas, (参考訳) 本稿では,ライトウェイトなトポメトリックマップを用いて環境を表現する階層型ビジュアルローカライゼーションフレームワークLiteVLocを提案する。 この方法は、カメラのポーズを粗い方法で推定する3つの逐次モジュールから構成される。 詳細な3D表現に依存する主流のアプローチとは異なり、LiteVLocは、学習に基づく特徴マッチングと幾何学的解法を活用して、ストレージオーバーヘッドを低減する。 マップフリー再ローカライゼーションタスクのための新しいデータセットも紹介されている。 シミュレーションと実世界のシナリオの両方におけるローカライゼーションとナビゲーションを含む大規模な実験は、システムの性能を検証し、その精度と大規模展開の効率を実証した。 コードとデータは公開されます。

This paper presents LiteVLoc, a hierarchical visual localization framework that uses a lightweight topo-metric map to represent the environment. The method consists of three sequential modules that estimate camera poses in a coarse-to-fine manner. Unlike mainstream approaches relying on detailed 3D representations, LiteVLoc reduces storage overhead by leveraging learning-based feature matching and geometric solvers for metric pose estimation. A novel dataset for the map-free relocalization task is also introduced. Extensive experiments including localization and navigation in both simulated and real-world scenarios have validate the system's performance and demonstrated its precision and efficiency for large-scale deployment. Code and data will be made publicly available.
翻訳日:2024-11-02 07:51:01 公開日:2024-10-21
# Klein-Gordon方程式における正の保存量

Positive Conserved Quantities in the Klein-Gordon Equation ( http://arxiv.org/abs/2410.04666v1 )

ライセンス: Link先を確認
Robert Lin, (参考訳) 我々は、クライン=ゴルドン方程式を時間的に一階の結合方程式に埋め込む。 そのような埋め込みの存在は、クライン=ゴルドン方程式によって示される正の性質に基づいている。 これらの結合方程式は、シュレディンガー方程式よりも時間の1階微分方程式にクライン=ゴルドン方程式を十分還元する。 この埋め込みを用いて、クライン=ゴルドン方程式に関連する「負の確率」が、ディラックが自称方程式で行ったような行列を導入することによって解決される必要はないことを示す。 巨大なクライン=ゴードン方程式の場合、結合方程式は時間における前方シュロディンガー方程式と時間における後方シュロディンガー方程式と等価であり、粒子とその反粒子に対応する。 クライン=ゴルドン方程式には2つの正の積分が保存されていることを示し、したがってクライン=ゴルドン方程式が支配する体に対する確率論的解釈の欠如について、歴史的パズルの具体的な解決を与える。

We introduce an embedding of the Klein-Gordon equation into a pair of coupled equations that are first-order in time. The existence of such an embedding is based on a positivity property exhibited by the Klein-Gordon equation. These coupled equations provide a more satisfactory reduction of the Klein-Gordon equation to first-order differential equations in time than the Schrodinger equation. Using this embedding, we show that the "negative probabilities" associated with the Klein-Gordon equation do not need to be resolved by introducing matrices as Dirac did with his eponymous equation. For the case of the massive Klein-Gordon equation, the coupled equations are equivalent to a forward Schrodinger equation in time and a backward Schrodinger equation in time, respectively, corresponding to a particle and its antiparticle. We show that there are two positive integrals that are conserved (constant in time) in the Klein-Gordon equation and thus provide a concrete resolution of the historical puzzle regarding the previously supposed lack of a probabilistic interpretation for the field governed by the Klein-Gordon equation.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-21
# Klein-Gordon方程式における正の保存量

Positive Conserved Quantities in the Klein-Gordon Equation ( http://arxiv.org/abs/2410.04666v2 )

ライセンス: Link先を確認
Robert Lin, (参考訳) 我々は、クライン=ゴルドン方程式を時間的に一階の結合方程式に埋め込む。 そのような埋め込みの存在は、クライン=ゴルドン方程式によって示される正の性質に基づいている。 これらの結合方程式は、シュレディンガー方程式よりも時間の1階微分方程式にクライン=ゴルドン方程式を十分還元する。 この埋め込みを用いて、クライン=ゴルドン方程式に関連する「負の確率」が、ディラックが自称方程式で行ったような行列を導入することによって解決される必要はないことを示す。 巨大なクライン=ゴードン方程式の場合、結合方程式は時間における前方シュロディンガー方程式と時間における後方シュロディンガー方程式と等価であり、粒子とその反粒子に対応する。 クライン=ゴルドン方程式には2つの正の積分が保存されていることを示し、したがってクライン=ゴルドン方程式が支配する体に対する確率論的解釈の欠如について、歴史的パズルの具体的な解決を与える。

We introduce an embedding of the Klein-Gordon equation into a pair of coupled equations that are first-order in time. The existence of such an embedding is based on a positivity property exhibited by the Klein-Gordon equation. These coupled equations provide a more satisfactory reduction of the Klein-Gordon equation to first-order differential equations in time than the Schrodinger equation. Using this embedding, we show that the "negative probabilities" associated with the Klein-Gordon equation do not need to be resolved by introducing matrices as Dirac did with his eponymous equation. For the case of the massive Klein-Gordon equation, the coupled equations are equivalent to a forward Schrodinger equation in time and a backward Schrodinger equation in time, respectively, corresponding to a particle and its antiparticle. We show that there are two positive integrals that are conserved (constant in time) in the Klein-Gordon equation and thus provide a concrete resolution of the historical puzzle regarding the previously supposed lack of a probabilistic interpretation for the field governed by the Klein-Gordon equation.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-21
# DEPT: 事前学習型言語モデルのための分離した埋め込み

DEPT: Decoupled Embeddings for Pre-training Language Models ( http://arxiv.org/abs/2410.05021v1 )

ライセンス: Link先を確認
Alex Iacob, Lorenzo Sani, Meghdad Kurmanji, William F. Shen, Xinchi Qiu, Dongqi Cai, Yan Gao, Nicholas D. Lane, (参考訳) 言語モデル ドメインと言語間のパフォーマンスを向上させるために、より広範なデータ混在による事前トレーニングのメリットがある。 しかし、このような異種テキストコーパスの訓練は複雑であり、広範囲で費用がかかる。 これらのデータソースは語彙、構文、意味的な側面が異なるため、負の干渉や「多言語性の帰結」を引き起こす。 この呪いを和らげるための新しい事前学習フレームワークを提案する。 提案手法であるDEPTは,トランス体から埋め込み層を分離し,同時に複数のコンテキストで後者を訓練する。 DEPTは、共有グローバル語彙に縛られることなく、モデルをトレーニングすることができる。 DEPT:(1) 有意なデータ不均一性の下で頑健かつ効果的にトレーニングが可能であり,(2) トークン埋め込みのパラメータ数を最大80%削減し,数十億規模のモデルに対して通信コストを675倍に削減し,(3) 新たな言語やドメインに適応する際のモデルの一般化と可塑性を高める。 我々は,13億パラメトリックモデルの語彙に依存しない初回多言語事前学習を行い,そのパラメータ数を4900万に減らし,DEPTの可能性を証明する。

Language Model pre-training benefits from a broader data mixture to enhance performance across domains and languages. However, training on such heterogeneous text corpora is complex, requiring extensive and cost-intensive efforts. Since these data sources vary in lexical, syntactic, and semantic aspects, they cause negative interference or the "curse of multilinguality". We propose a novel pre-training framework to alleviate this curse. Our method, DEPT, decouples the embedding layers from the transformer body while simultaneously training the latter in multiple contexts. DEPT enables the model to train without being bound to a shared global vocabulary. DEPT: (1) can train robustly and effectively under significant data heterogeneity, (2) reduces the parameter count of the token embeddings by up to 80% and the communication costs by 675x for billion-scale models (3) enhances model generalization and plasticity in adapting to new languages and domains, and (4) allows training with custom optimized vocabulary per data source. We prove DEPT's potential by performing the first vocabulary-agnostic federated multilingual pre-training of a 1.3 billion-parameter model across high and low-resource languages, reducing its parameter count by 409 million.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-21
# DEPT: 事前学習型言語モデルのための分離した埋め込み

DEPT: Decoupled Embeddings for Pre-training Language Models ( http://arxiv.org/abs/2410.05021v2 )

ライセンス: Link先を確認
Alex Iacob, Lorenzo Sani, Meghdad Kurmanji, William F. Shen, Xinchi Qiu, Dongqi Cai, Yan Gao, Nicholas D. Lane, (参考訳) 言語モデル ドメインと言語間のパフォーマンスを向上させるために、より広範なデータ混在による事前トレーニングのメリットがある。 しかし、このような異種テキストコーパスの訓練は複雑であり、広範囲で費用がかかる。 これらのデータソースは語彙、構文、意味的な側面が異なるため、負の干渉や「多言語性の帰結」を引き起こす。 この呪いを和らげるための新しい事前学習フレームワークを提案する。 提案手法であるDEPTは,トランス体から埋め込み層を分離し,同時に複数のコンテキストで後者を訓練する。 DEPTは、共有グローバル語彙に縛られることなく、モデルをトレーニングすることができる。 DEPT:(1) 有意なデータ不均一性の下で頑健かつ効果的にトレーニングが可能であり,(2) トークン埋め込みのパラメータ数を最大80%削減し,数十億規模のモデルに対して通信コストを675倍に削減し,(3) 新たな言語やドメインに適応する際のモデルの一般化と可塑性を高める。 我々は,13億パラメトリックモデルの語彙に依存しない初回多言語事前学習を行い,そのパラメータ数を4900万に減らし,DEPTの可能性を証明する。

Language Model pre-training benefits from a broader data mixture to enhance performance across domains and languages. However, training on such heterogeneous text corpora is complex, requiring extensive and cost-intensive efforts. Since these data sources vary in lexical, syntactic, and semantic aspects, they cause negative interference or the "curse of multilinguality". We propose a novel pre-training framework to alleviate this curse. Our method, DEPT, decouples the embedding layers from the transformer body while simultaneously training the latter in multiple contexts. DEPT enables the model to train without being bound to a shared global vocabulary. DEPT: (1) can train robustly and effectively under significant data heterogeneity, (2) reduces the parameter count of the token embeddings by up to 80% and the communication costs by 675x for billion-scale models (3) enhances model generalization and plasticity in adapting to new languages and domains, and (4) allows training with custom optimized vocabulary per data source. We prove DEPT's potential by performing the first vocabulary-agnostic federated multilingual pre-training of a 1.3 billion-parameter model across high and low-resource languages, reducing its parameter count by 409 million.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-21
# DEPT: 事前学習型言語モデルのための分離した埋め込み

DEPT: Decoupled Embeddings for Pre-training Language Models ( http://arxiv.org/abs/2410.05021v3 )

ライセンス: Link先を確認
Alex Iacob, Lorenzo Sani, Meghdad Kurmanji, William F. Shen, Xinchi Qiu, Dongqi Cai, Yan Gao, Nicholas D. Lane, (参考訳) 言語モデル事前トレーニングは、さまざまなデータから恩恵を受け、ドメインや言語のパフォーマンスを向上させる。 しかし、このような異種コーパスの訓練には広範囲で費用がかかる。 これらのデータソースは語彙的にも構文的にも意味的にも異なるため、負の干渉や'多言語性の帰結'を引き起こす。 この呪いを和らげるための新しい事前学習フレームワークを提案する。 提案手法であるDEPTは,トランス体から埋め込みを分離し,同時に複数のコンテキストで後者を訓練する。 DEPTは,共有グローバル語彙を使わずにトレーニングが可能であり,(1)有意なデータ均一性の下で堅牢かつ効果的にトレーニングすることが可能であり,(2)10億規模のモデルに対して,トークン埋め込みパラメータを最大80%削減し,通信コストを675倍に削減し,(3)新しい言語やドメインに適応してモデルの一般化と可塑性を向上し,(4)データソースごとに最適化された語彙によるトレーニングを可能にする。 我々は、13億パラメータモデルの最初の語彙に依存しない多言語事前学習を通じて、DEPTのポテンシャルを実証し、埋め込みサイズを512万ではなく102.4万に制限した。

Language model pre-training benefits from diverse data to enhance performance across domains and languages. However, training on such heterogeneous corpora requires extensive and costly efforts. Since these data sources vary lexically, syntactically, and semantically, they cause negative interference or the ``curse of multilinguality''. We propose a novel pre-training framework to alleviate this curse. Our method, DEPT, decouples embeddings from the transformer body while simultaneously training the latter in multiple contexts. DEPT enables training without a shared global vocabulary and: (1) can train robustly and effectively under significant data heterogeneity, (2) reduces token embedding parameters by up to 80% and the communication costs by 675x for billion-scale models, (3) enhances model generalization and plasticity in adapting to new languages and domains, and (4) permits training with custom optimized vocabularies per data source. We demonstrate DEPT's potential via the first vocabulary-agnostic federated multilingual pre-training of a 1.3 billion-parameter model, limiting its embedding size to 102.4 million instead of 512 million.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-21
# HiRT:階層型ロボットトランスによるロボット制御の強化

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers ( http://arxiv.org/abs/2410.05273v1 )

ライセンス: Link先を確認
Jianke Zhang, Yanjiang Guo, Xiaoyu Chen, Yen-Jen Wang, Yucheng Hu, Chengming Shi, Jianyu Chen, (参考訳) VLM(Varge Vision-Language-Action)バックエンドを利用した大型ビジョン・ランゲージ・アクション(VLA)モデルは、その印象的な一般化能力により、ロボット制御において有望であることが示されている。 しかし、成功にはコストがかかる。 数十億のパラメータを持つVLMバックエンドへの依存は、高い計算コストと推論遅延をもたらし、テストシナリオを主に準静的タスクに制限し、迅速な相互作用を必要とする動的タスクのパフォーマンスを妨げる。 これらの制約に対処するために, 柔軟な周波数・性能トレードオフを実現する階層型ロボットトランスフォーマフレームワークであるHiRTを提案する。 HiRTは、VLMを低周波で動作させ、一時的に不変な特徴を捉えつつ、ゆっくりと更新された特徴によって誘導される高周波ビジョンベースのポリシーを通じてリアルタイムのインタラクションを可能にする。 シミュレーションと実環境設定の両方の実験結果は,ベースライン法よりも大幅に改善されている。 経験的に、静的タスクでは、制御周波数を2倍にし、同等の成功率を達成する。 さらに、従来のVLAモデルでは難しい新しい実世界の動的マニポレーションタスクでは、HiRTは成功率を48%から75%に改善する。

Large Vision-Language-Action (VLA) models, leveraging powerful pre trained Vision-Language Models (VLMs) backends, have shown promise in robotic control due to their impressive generalization ability. However, the success comes at a cost. Their reliance on VLM backends with billions of parameters leads to high computational costs and inference latency, limiting the testing scenarios to mainly quasi-static tasks and hindering performance in dynamic tasks requiring rapid interactions. To address these limitations, this paper proposes HiRT, a Hierarchical Robot Transformer framework that enables flexible frequency and performance trade-off. HiRT keeps VLMs running at low frequencies to capture temporarily invariant features while enabling real-time interaction through a high-frequency vision-based policy guided by the slowly updated features. Experiment results in both simulation and real-world settings demonstrate significant improvements over baseline methods. Empirically, in static tasks, we double the control frequency and achieve comparable success rates. Additionally, on novel real-world dynamic ma nipulation tasks which are challenging for previous VLA models, HiRT improves the success rate from 48% to 75%.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-21
# HiRT:階層型ロボットトランスによるロボット制御の強化

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers ( http://arxiv.org/abs/2410.05273v2 )

ライセンス: Link先を確認
Jianke Zhang, Yanjiang Guo, Xiaoyu Chen, Yen-Jen Wang, Yucheng Hu, Chengming Shi, Jianyu Chen, (参考訳) VLM(Varge Vision-Language-Action)バックエンドを利用した大型ビジョン・ランゲージ・アクション(VLA)モデルは、その印象的な一般化能力により、ロボット制御において有望であることが示されている。 しかし、成功にはコストがかかる。 数十億のパラメータを持つVLMバックエンドへの依存は、高い計算コストと推論遅延をもたらし、テストシナリオを主に準静的タスクに制限し、迅速な相互作用を必要とする動的タスクのパフォーマンスを妨げる。 これらの制約に対処するために, 柔軟な周波数・性能トレードオフを実現する階層型ロボットトランスフォーマフレームワークであるHiRTを提案する。 HiRTは、VLMを低周波で動作させ、一時的に不変な特徴を捉えつつ、ゆっくりと更新された特徴によって誘導される高周波ビジョンベースのポリシーを通じてリアルタイムのインタラクションを可能にする。 シミュレーションと実環境設定の両方の実験結果は,ベースライン法よりも大幅に改善されている。 経験的に、静的タスクでは、制御周波数を2倍にし、同等の成功率を達成する。 さらに、従来のVLAモデルでは難しい新しい実世界の動的マニポレーションタスクでは、HiRTは成功率を48%から75%に改善する。

Large Vision-Language-Action (VLA) models, leveraging powerful pre trained Vision-Language Models (VLMs) backends, have shown promise in robotic control due to their impressive generalization ability. However, the success comes at a cost. Their reliance on VLM backends with billions of parameters leads to high computational costs and inference latency, limiting the testing scenarios to mainly quasi-static tasks and hindering performance in dynamic tasks requiring rapid interactions. To address these limitations, this paper proposes HiRT, a Hierarchical Robot Transformer framework that enables flexible frequency and performance trade-off. HiRT keeps VLMs running at low frequencies to capture temporarily invariant features while enabling real-time interaction through a high-frequency vision-based policy guided by the slowly updated features. Experiment results in both simulation and real-world settings demonstrate significant improvements over baseline methods. Empirically, in static tasks, we double the control frequency and achieve comparable success rates. Additionally, on novel real-world dynamic ma nipulation tasks which are challenging for previous VLA models, HiRT improves the success rate from 48% to 75%.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-21
# 多様な学級を有する学術文書の多ラベル分類のための効率的なFew-shot学習

Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes ( http://arxiv.org/abs/2410.05770v1 )

ライセンス: Link先を確認
Tim Schopf, Alexander Blatzheim, Nektarios Machner, Florian Matthes, (参考訳) 科学的文書分類は重要な課題であり、しばしば多くのクラスが関与する。 しかし、多くのクラスのためにラベル付きデータを収集するのは高価であり、通常はラベル付きシナリオにつながる。 さらに、近年の研究では、数ショット分類のための文埋め込みモデルによる微調整が効率的で堅牢で効果的であることが示されている。 本研究はFusionSent(Fusion-based Sentence Embedding Fine-tuning)を提案する。 FusionSentは利用可能なトレーニング例とラベルテキストを使用して、対照的に2つの異なる文埋め込みモデルを微調整する。 その後、両方の微調整モデルのパラメータを融合させて、個別の微調整ステップからの相補的な知識を1つのモデルに組み合わせる。 最後に、結果の文埋め込みモデルを凍結してトレーニングインスタンスを埋め込む。 我々の実験は、FusionSentが複数の科学的文書分類データセットで平均6.0ドルのF_{1}$ポイントで強いベースラインを著しく上回ることを示した。 さらに,研究論文183,565件と,arXiv分類学の130科を含む,科学文献の多ラベル分類のための新しいデータセットについても紹介する。 コードとデータはhttps://github.com/sebischair/FusionSent.comで公開されている。

Scientific document classification is a critical task and often involves many classes. However, collecting human-labeled data for many classes is expensive and usually leads to label-scarce scenarios. Moreover, recent work has shown that sentence embedding model fine-tuning for few-shot classification is efficient, robust, and effective. In this work, we propose FusionSent (Fusion-based Sentence Embedding Fine-tuning), an efficient and prompt-free approach for few-shot classification of scientific documents with many classes. FusionSent uses available training examples and their respective label texts to contrastively fine-tune two different sentence embedding models. Afterward, the parameters of both fine-tuned models are fused to combine the complementary knowledge from the separate fine-tuning steps into a single model. Finally, the resulting sentence embedding model is frozen to embed the training instances, which are then used as input features to train a classification head. Our experiments show that FusionSent significantly outperforms strong baselines by an average of $6.0$ $F_{1}$ points across multiple scientific document classification datasets. In addition, we introduce a new dataset for multi-label classification of scientific documents, which contains 183,565 scientific articles and 130 classes from the arXiv category taxonomy. Code and data are available at https://github.com/sebischair/FusionSent.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-21
# 多様な学級を有する学術文書の多ラベル分類のための効率的なFew-shot学習

Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes ( http://arxiv.org/abs/2410.05770v2 )

ライセンス: Link先を確認
Tim Schopf, Alexander Blatzheim, Nektarios Machner, Florian Matthes, (参考訳) 科学的文書分類は重要な課題であり、しばしば多くのクラスが関与する。 しかし、多くのクラスのためにラベル付きデータを収集するのは高価であり、通常はラベル付きシナリオにつながる。 さらに、近年の研究では、数ショット分類のための文埋め込みモデルによる微調整が効率的で堅牢で効果的であることが示されている。 本研究はFusionSent(Fusion-based Sentence Embedding Fine-tuning)を提案する。 FusionSentは利用可能なトレーニング例とラベルテキストを使用して、対照的に2つの異なる文埋め込みモデルを微調整する。 その後、両方の微調整モデルのパラメータを融合させて、個別の微調整ステップからの相補的な知識を1つのモデルに組み合わせる。 最後に、結果の文埋め込みモデルを凍結してトレーニングインスタンスを埋め込む。 我々の実験は、FusionSentが複数の科学的文書分類データセットで平均6.0ドルのF_{1}$ポイントで強いベースラインを著しく上回ることを示した。 さらに,203,961の科学的論文と,arXiv分類学の130のクラスを含む,学術文献の多ラベル分類のための新しいデータセットを導入する。 コードとデータはhttps://github.com/sebischair/FusionSent.comで公開されている。

Scientific document classification is a critical task and often involves many classes. However, collecting human-labeled data for many classes is expensive and usually leads to label-scarce scenarios. Moreover, recent work has shown that sentence embedding model fine-tuning for few-shot classification is efficient, robust, and effective. In this work, we propose FusionSent (Fusion-based Sentence Embedding Fine-tuning), an efficient and prompt-free approach for few-shot classification of scientific documents with many classes. FusionSent uses available training examples and their respective label texts to contrastively fine-tune two different sentence embedding models. Afterward, the parameters of both fine-tuned models are fused to combine the complementary knowledge from the separate fine-tuning steps into a single model. Finally, the resulting sentence embedding model is frozen to embed the training instances, which are then used as input features to train a classification head. Our experiments show that FusionSent significantly outperforms strong baselines by an average of $6.0$ $F_{1}$ points across multiple scientific document classification datasets. In addition, we introduce a new dataset for multi-label classification of scientific documents, which contains 203,961 scientific articles and 130 classes from the arXiv category taxonomy. Code and data are available at https://github.com/sebischair/FusionSent.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-21
# 多様な学級を有する学術文書の多ラベル分類のための効率的なFew-shot学習

Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes ( http://arxiv.org/abs/2410.05770v3 )

ライセンス: Link先を確認
Tim Schopf, Alexander Blatzheim, Nektarios Machner, Florian Matthes, (参考訳) 科学的文書分類は重要な課題であり、しばしば多くのクラスが関与する。 しかし、多くのクラスのためにラベル付きデータを収集するのは高価であり、通常はラベル付きシナリオにつながる。 さらに、近年の研究では、数ショット分類のための文埋め込みモデルによる微調整が効率的で堅牢で効果的であることが示されている。 本研究はFusionSent(Fusion-based Sentence Embedding Fine-tuning)を提案する。 FusionSentは利用可能なトレーニング例とラベルテキストを使用して、対照的に2つの異なる文埋め込みモデルを微調整する。 その後、両方の微調整モデルのパラメータを融合させて、個別の微調整ステップからの相補的な知識を1つのモデルに組み合わせる。 最後に、結果の文埋め込みモデルを凍結してトレーニングインスタンスを埋め込む。 我々の実験は、FusionSentが複数の科学的文書分類データセットで平均6.0ドルのF_{1}$ポイントで強いベースラインを著しく上回ることを示した。 さらに,203,961の科学的論文と,arXiv分類学の130のクラスを含む,学術文献の多ラベル分類のための新しいデータセットを導入する。 コードとデータはhttps://github.com/sebischair/FusionSent.comで公開されている。

Scientific document classification is a critical task and often involves many classes. However, collecting human-labeled data for many classes is expensive and usually leads to label-scarce scenarios. Moreover, recent work has shown that sentence embedding model fine-tuning for few-shot classification is efficient, robust, and effective. In this work, we propose FusionSent (Fusion-based Sentence Embedding Fine-tuning), an efficient and prompt-free approach for few-shot classification of scientific documents with many classes. FusionSent uses available training examples and their respective label texts to contrastively fine-tune two different sentence embedding models. Afterward, the parameters of both fine-tuned models are fused to combine the complementary knowledge from the separate fine-tuning steps into a single model. Finally, the resulting sentence embedding model is frozen to embed the training instances, which are then used as input features to train a classification head. Our experiments show that FusionSent significantly outperforms strong baselines by an average of $6.0$ $F_{1}$ points across multiple scientific document classification datasets. In addition, we introduce a new dataset for multi-label classification of scientific documents, which contains 203,961 scientific articles and 130 classes from the arXiv category taxonomy. Code and data are available at https://github.com/sebischair/FusionSent.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-21
# LLMに基づく知識グラフを用いた自然言語からのSPARQLクエリ生成

LLM-based SPARQL Query Generation from Natural Language over Federated Knowledge Graphs ( http://arxiv.org/abs/2410.06062v1 )

ライセンス: Link先を確認
Vincent Emonet, Jerven Bolleman, Severine Duvaud, Tarcisio Mendes de Farias, Ana Claudia Sima, (参考訳) 本稿では,大規模言語モデル(LLMs)を利用したバイオインフォマティクス知識グラフ(KGs)上で,ユーザ質問を正確なSPARQLクエリに翻訳するRAG(Retrieval-Augmented Generation)システムを提案する。 クエリ生成における精度の向上と幻覚の低減を目的として,クエリ例やスキーマ情報を含むKGからのメタデータを活用し,生成したクエリの修正に検証ステップを組み込む。 このシステムは chat.expasy.org で公開されている。

We introduce a Retrieval-Augmented Generation (RAG) system for translating user questions into accurate federated SPARQL queries over bioinformatics knowledge graphs (KGs) leveraging Large Language Models (LLMs). To enhance accuracy and reduce hallucinations in query generation, our system utilises metadata from the KGs, including query examples and schema information, and incorporates a validation step to correct generated queries. The system is available online at chat.expasy.org.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-21
# LLMに基づく知識グラフを用いた自然言語からのSPARQLクエリ生成

LLM-based SPARQL Query Generation from Natural Language over Federated Knowledge Graphs ( http://arxiv.org/abs/2410.06062v2 )

ライセンス: Link先を確認
Vincent Emonet, Jerven Bolleman, Severine Duvaud, Tarcisio Mendes de Farias, Ana Claudia Sima, (参考訳) 本稿では,大規模言語モデル(LLMs)を利用したバイオインフォマティクス知識グラフ(KGs)上で,ユーザ質問を正確なSPARQLクエリに翻訳するRAG(Retrieval-Augmented Generation)システムを提案する。 クエリ生成における精度の向上と幻覚の低減を目的として,クエリ例やスキーマ情報を含むKGからのメタデータを活用し,生成したクエリの修正に検証ステップを組み込む。 このシステムは chat.expasy.org で公開されている。

We introduce a Retrieval-Augmented Generation (RAG) system for translating user questions into accurate federated SPARQL queries over bioinformatics knowledge graphs (KGs) leveraging Large Language Models (LLMs). To enhance accuracy and reduce hallucinations in query generation, our system utilises metadata from the KGs, including query examples and schema information, and incorporates a validation step to correct generated queries. The system is available online at chat.expasy.org.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-21
# LLMに基づく知識グラフを用いた自然言語からのSPARQLクエリ生成

LLM-based SPARQL Query Generation from Natural Language over Federated Knowledge Graphs ( http://arxiv.org/abs/2410.06062v3 )

ライセンス: Link先を確認
Vincent Emonet, Jerven Bolleman, Severine Duvaud, Tarcisio Mendes de Farias, Ana Claudia Sima, (参考訳) 本稿では,大規模言語モデル(LLMs)を利用したバイオインフォマティクス知識グラフ(KGs)上で,ユーザ質問を正確なSPARQLクエリに翻訳するRAG(Retrieval-Augmented Generation)システムを提案する。 クエリ生成における精度の向上と幻覚の低減を目的として,クエリ例やスキーマ情報を含むKGからのメタデータを活用し,生成したクエリの修正に検証ステップを組み込む。 このシステムは chat.expasy.org で公開されている。

We introduce a Retrieval-Augmented Generation (RAG) system for translating user questions into accurate federated SPARQL queries over bioinformatics knowledge graphs (KGs) leveraging Large Language Models (LLMs). To enhance accuracy and reduce hallucinations in query generation, our system utilises metadata from the KGs, including query examples and schema information, and incorporates a validation step to correct generated queries. The system is available online at chat.expasy.org.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-21
# フォーゲッタビリティシーケンスにおける機械学習

Machine Unlearning in Forgettability Sequence ( http://arxiv.org/abs/2410.06446v1 )

ライセンス: Link先を確認
Junjie Chen, Qian Chen, Jian Lou, Xiaoyu Zhang, Kai Wu, Zilong Wang, (参考訳) マシン・アンラーニング(MU)は、「忘れられる権利」を達成するための有望なパラダイムとなりつつあり、選択されたデータポイントのトレーニングトレースを排除し、アンラーニング後の一般的なテストサンプルのモデルユーティリティを維持している。 研究を忘れることの進歩とともに、多くの基本的なオープンな疑問は未解決のままである: 異なるサンプルは忘れられることの難しさのレベルが異なるか? さらに、各難易度によって決定されるサンプルを忘れるシーケンスは、アルゴリズムの忘れ方に影響を及ぼすか。 本稿では,未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。 より高いプライバシーリスクを持つサンプルは未学習になりがちであり、未学習の難しさは、より正確な未学習モードの動機となるサンプルによって異なることを示している。 この知見に基づいて,RoutingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。

Machine unlearning (MU) is becoming a promising paradigm to achieve the "right to be forgotten", where the training trace of any chosen data points could be eliminated, while maintaining the model utility on general testing samples after unlearning. With the advancement of forgetting research, many fundamental open questions remain unanswered: do different samples exhibit varying levels of difficulty in being forgotten? Further, does the sequence in which samples are forgotten, determined by their respective difficulty levels, influence the performance of forgetting algorithms? In this paper, we identify key factor affecting unlearning difficulty and the performance of unlearning algorithms. We find that samples with higher privacy risks are more likely to be unlearning, indicating that the unlearning difficulty varies among different samples which motives a more precise unlearning mode. Built upon this insight, we propose a general unlearning framework, dubbed RSU, which consists of Ranking module and SeqUnlearn module.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-21
# フォーゲッタビリティシーケンスにおける機械学習

Machine Unlearning in Forgettability Sequence ( http://arxiv.org/abs/2410.06446v2 )

ライセンス: Link先を確認
Junjie Chen, Qian Chen, Jian Lou, Xiaoyu Zhang, Kai Wu, Zilong Wang, (参考訳) マシン・アンラーニング(MU)は、「忘れられる権利」を達成するための有望なパラダイムとなりつつあり、選択されたデータポイントのトレーニングトレースを排除し、アンラーニング後の一般的なテストサンプルのモデルユーティリティを維持している。 研究を忘れることの進歩とともに、多くの基本的なオープンな疑問は未解決のままである: 異なるサンプルは忘れられることの難しさのレベルが異なるか? さらに、各難易度によって決定されるサンプルを忘れるシーケンスは、アルゴリズムの忘れ方に影響を及ぼすか。 本稿では,未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。 より高いプライバシーリスクを持つサンプルは未学習になりがちであり、未学習の難しさは、より正確な未学習モードの動機となるサンプルによって異なることを示している。 この知見に基づいて,RoutingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。

Machine unlearning (MU) is becoming a promising paradigm to achieve the "right to be forgotten", where the training trace of any chosen data points could be eliminated, while maintaining the model utility on general testing samples after unlearning. With the advancement of forgetting research, many fundamental open questions remain unanswered: do different samples exhibit varying levels of difficulty in being forgotten? Further, does the sequence in which samples are forgotten, determined by their respective difficulty levels, influence the performance of forgetting algorithms? In this paper, we identify key factor affecting unlearning difficulty and the performance of unlearning algorithms. We find that samples with higher privacy risks are more likely to be unlearning, indicating that the unlearning difficulty varies among different samples which motives a more precise unlearning mode. Built upon this insight, we propose a general unlearning framework, dubbed RSU, which consists of Ranking module and SeqUnlearn module.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-21
# 欠損児の視覚認識のための深部関連プロンプト

Deep Correlated Prompting for Visual Recognition with Missing Modalities ( http://arxiv.org/abs/2410.06558v1 )

ライセンス: Link先を確認
Lianyu Hu, Tongkai Shi, Wei Feng, Fanhua Shang, Liang Wan, (参考訳) 大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。 一般に、それらは常にモダリティ完全入力を受けると仮定される。 しかし、この単純な仮定は、プライバシの制約やコレクションの難しさのために現実の世界で常に成り立つとは限りません。 この問題に対処するために、我々は、異なる欠落事例を異なる入力タイプとして扱うことで、大きな事前訓練されたマルチモーダルモデルを、欠落したモダリティシナリオに適応する学習を迅速に行うことを参照する。 中間層への独立したプロンプトのみを予測するのではなく、プロンプトと入力特徴の相関を利用して、異なるプロンプトの層間の関係を抽出し、命令を慎重に設計する。 また、異なるモダリティの相補的意味論を取り入れて、各モダリティに対するプロンプト設計を導出する。 一般的に使われている3つのデータセットに対する大規模な実験は、異なる欠落シナリオに対する以前のアプローチと比較して、我々の手法の優位性を一貫して示している。 さらに、異なるモード欠落率と型に基づいて、本手法の一般化可能性および信頼性を示すために、多種多様のアブリゲーションが与えられる。

Large-scale multimodal models have shown excellent performance over a series of tasks powered by the large corpus of paired multimodal training data. Generally, they are always assumed to receive modality-complete inputs. However, this simple assumption may not always hold in the real world due to privacy constraints or collection difficulty, where models pretrained on modality-complete data easily demonstrate degraded performance on missing-modality cases. To handle this issue, we refer to prompt learning to adapt large pretrained multimodal models to handle missing-modality scenarios by regarding different missing cases as different types of input. Instead of only prepending independent prompts to the intermediate layers, we present to leverage the correlations between prompts and input features and excavate the relationships between different layers of prompts to carefully design the instructions. We also incorporate the complementary semantics of different modalities to guide the prompting design for each modality. Extensive experiments on three commonly-used datasets consistently demonstrate the superiority of our method compared to the previous approaches upon different missing scenarios. Plentiful ablations are further given to show the generalizability and reliability of our method upon different modality-missing ratios and types.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-21
# 欠損児の視覚認識のための深部関連プロンプト

Deep Correlated Prompting for Visual Recognition with Missing Modalities ( http://arxiv.org/abs/2410.06558v2 )

ライセンス: Link先を確認
Lianyu Hu, Tongkai Shi, Wei Feng, Fanhua Shang, Liang Wan, (参考訳) 大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。 一般に、それらは常にモダリティ完全入力を受けると仮定される。 しかし、この単純な仮定は、プライバシの制約やコレクションの難しさのために現実の世界で常に成り立つとは限りません。 この問題に対処するために、我々は、異なる欠落事例を異なる入力タイプとして扱うことで、大きな事前訓練されたマルチモーダルモデルを、欠落したモダリティシナリオに適応する学習を迅速に行うことを参照する。 中間層への独立したプロンプトのみを予測するのではなく、プロンプトと入力特徴の相関を利用して、異なるプロンプトの層間の関係を抽出し、命令を慎重に設計する。 また、異なるモダリティの相補的意味論を取り入れて、各モダリティに対するプロンプト設計を導出する。 一般的に使われている3つのデータセットに対する大規模な実験は、異なる欠落シナリオに対する以前のアプローチと比較して、我々の手法の優位性を一貫して示している。 さらに、異なるモード欠落率と型に基づいて、本手法の一般化可能性および信頼性を示すために、多種多様のアブリゲーションが与えられる。

Large-scale multimodal models have shown excellent performance over a series of tasks powered by the large corpus of paired multimodal training data. Generally, they are always assumed to receive modality-complete inputs. However, this simple assumption may not always hold in the real world due to privacy constraints or collection difficulty, where models pretrained on modality-complete data easily demonstrate degraded performance on missing-modality cases. To handle this issue, we refer to prompt learning to adapt large pretrained multimodal models to handle missing-modality scenarios by regarding different missing cases as different types of input. Instead of only prepending independent prompts to the intermediate layers, we present to leverage the correlations between prompts and input features and excavate the relationships between different layers of prompts to carefully design the instructions. We also incorporate the complementary semantics of different modalities to guide the prompting design for each modality. Extensive experiments on three commonly-used datasets consistently demonstrate the superiority of our method compared to the previous approaches upon different missing scenarios. Plentiful ablations are further given to show the generalizability and reliability of our method upon different modality-missing ratios and types.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-21
# 欠損児の視覚認識のための深部関連プロンプト

Deep Correlated Prompting for Visual Recognition with Missing Modalities ( http://arxiv.org/abs/2410.06558v3 )

ライセンス: Link先を確認
Lianyu Hu, Tongkai Shi, Wei Feng, Fanhua Shang, Liang Wan, (参考訳) 大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。 一般に、それらは常にモダリティ完全入力を受けると仮定される。 しかし、この単純な仮定は、プライバシの制約やコレクションの難しさのために現実の世界で常に成り立つとは限りません。 この問題に対処するために、我々は、異なる欠落事例を異なる入力タイプとして扱うことで、大きな事前訓練されたマルチモーダルモデルを、欠落したモダリティシナリオに適応する学習を迅速に行うことを参照する。 中間層への独立したプロンプトのみを予測するのではなく、プロンプトと入力特徴の相関を利用して、異なるプロンプトの層間の関係を抽出し、命令を慎重に設計する。 また、異なるモダリティの相補的意味論を取り入れて、各モダリティに対するプロンプト設計を導出する。 一般的に使われている3つのデータセットに対する大規模な実験は、異なる欠落シナリオに対する以前のアプローチと比較して、我々の手法の優位性を一貫して示している。 さらに、異なるモード欠落率と型に基づいて、本手法の一般化可能性および信頼性を示すために、多種多様のアブリゲーションが与えられる。

Large-scale multimodal models have shown excellent performance over a series of tasks powered by the large corpus of paired multimodal training data. Generally, they are always assumed to receive modality-complete inputs. However, this simple assumption may not always hold in the real world due to privacy constraints or collection difficulty, where models pretrained on modality-complete data easily demonstrate degraded performance on missing-modality cases. To handle this issue, we refer to prompt learning to adapt large pretrained multimodal models to handle missing-modality scenarios by regarding different missing cases as different types of input. Instead of only prepending independent prompts to the intermediate layers, we present to leverage the correlations between prompts and input features and excavate the relationships between different layers of prompts to carefully design the instructions. We also incorporate the complementary semantics of different modalities to guide the prompting design for each modality. Extensive experiments on three commonly-used datasets consistently demonstrate the superiority of our method compared to the previous approaches upon different missing scenarios. Plentiful ablations are further given to show the generalizability and reliability of our method upon different modality-missing ratios and types.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-21
# 欠損児の視覚認識のための深部関連プロンプト

Deep Correlated Prompting for Visual Recognition with Missing Modalities ( http://arxiv.org/abs/2410.06558v4 )

ライセンス: Link先を確認
Lianyu Hu, Tongkai Shi, Wei Feng, Fanhua Shang, Liang Wan, (参考訳) 大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。 一般に、それらは常にモダリティ完全入力を受けると仮定される。 しかし、この単純な仮定は、プライバシの制約やコレクションの難しさのために現実の世界で常に成り立つとは限りません。 この問題に対処するために、我々は、異なる欠落事例を異なる入力タイプとして扱うことで、大きな事前訓練されたマルチモーダルモデルを、欠落したモダリティシナリオに適応する学習を迅速に行うことを参照する。 中間層への独立したプロンプトのみを予測するのではなく、プロンプトと入力特徴の相関を利用して、異なるプロンプトの層間の関係を抽出し、命令を慎重に設計する。 また、異なるモダリティの相補的意味論を取り入れて、各モダリティに対するプロンプト設計を導出する。 一般的に使われている3つのデータセットに対する大規模な実験は、異なる欠落シナリオに対する以前のアプローチと比較して、我々の手法の優位性を一貫して示している。 さらに、異なるモード欠落率と型に基づいて、本手法の一般化可能性および信頼性を示すために、多種多様のアブリゲーションが与えられる。

Large-scale multimodal models have shown excellent performance over a series of tasks powered by the large corpus of paired multimodal training data. Generally, they are always assumed to receive modality-complete inputs. However, this simple assumption may not always hold in the real world due to privacy constraints or collection difficulty, where models pretrained on modality-complete data easily demonstrate degraded performance on missing-modality cases. To handle this issue, we refer to prompt learning to adapt large pretrained multimodal models to handle missing-modality scenarios by regarding different missing cases as different types of input. Instead of only prepending independent prompts to the intermediate layers, we present to leverage the correlations between prompts and input features and excavate the relationships between different layers of prompts to carefully design the instructions. We also incorporate the complementary semantics of different modalities to guide the prompting design for each modality. Extensive experiments on three commonly-used datasets consistently demonstrate the superiority of our method compared to the previous approaches upon different missing scenarios. Plentiful ablations are further given to show the generalizability and reliability of our method upon different modality-missing ratios and types.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-21
# 無限広2層ニューラルネットワークにおける排他的フルRSBSAT/UNSAT遷移

Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks ( http://arxiv.org/abs/2410.06717v1 )

ライセンス: Link先を確認
Brandon L. Annesi, Enrico M. Malatesta, Francesco Zamponi, (参考訳) 非凸重みモデルの2つのクラス、すなわち負のマージンを持つパーセプトロンと、重複しない受容場と一般的なアクティベーション関数を持つ無限幅の2層ニューラルネットワークを用いて、ランダムなパターンラベルアソシエーションを格納する問題を分析する。 フルRSBアンサッツを用いてSAT/UNSAT遷移の正確な値を計算する。 さらに、負のパーセプトロンモデルの場合、マージンの値と制約された密度に応じて、典型的な状態の重なり合いの分布がそれとギャップを持たない位相を分離する線が存在することを示す。 この結果から, 近似メッセージパッシング (AMP) に基づくアルゴリズムは, 一般には成立しない, という仮説が最近開発された。 最後に, グラディエントDescentは, 存在する場合と典型的状態に非オーバーラップギャップ位相が存在しない場合の両方において, 最大容量に到達できないことを示す。 これは二分重モデルで起こるのと同様に、勾配に基づくアルゴリズムは非定型的な状態に偏りがあり、その到達不能がアルゴリズムのしきい値を決定することを示唆している。

We analyze the problem of storing random pattern-label associations using two classes of continuous non-convex weights models, namely the perceptron with negative margin and an infinite width two layer neural network with non-overlapping receptive fields and generic activation function. Using a full-RSB ansatz we compute the exact value of the SAT/UNSAT transition. Furthermore, in the case of the negative perceptron model we show that, depending on the value of the margin and the constrained density, there is a line separating a phase in which the distribution of overlaps of typical states does not possess a gap from one in which it does. Our results show that the hypothesis underlying some recently developed theorems claiming that Approximate Message Passing (AMP) based algorithms are able to reach capacity, does not hold in general. Finally, we show that Gradient Descent is not able to reach the maximal capacity both in cases where there is and there is not a non-overlap gap phase for the typical states. This, similarly to what occurs in binary weight models, suggests that gradient-based algorithms are biased towards highly atypical states, whose inaccessibility determines the algorithmic threshold.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-21
# 無限広2層ニューラルネットワークにおける排他的フルRSBSAT/UNSAT遷移

Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks ( http://arxiv.org/abs/2410.06717v2 )

ライセンス: Link先を確認
Brandon L. Annesi, Enrico M. Malatesta, Francesco Zamponi, (参考訳) 非凸重みモデルの2つのクラス、すなわち負のマージンを持つパーセプトロンと、重複しない受容場と一般的なアクティベーション関数を持つ無限幅の2層ニューラルネットワークを用いて、ランダムなパターンラベルアソシエーションを格納する問題を分析する。 フルRSBアンサッツを用いてSAT/UNSAT遷移の正確な値を計算する。 さらに、負のパーセプトロンの場合、典型的な状態の重なり合う分布は、マージンの値と保存するパターンの密度によって定義される位相図の特定の領域に重なり合うギャップ(非連結的な支持)を示すことを示す。 これは、AMP(Adroximate Message Passing)ベースのアルゴリズムのキャパシティへの収束を保証する最近の定理が適用できないことを意味する。 最後に, 典型的な状態の重なり合いの有無にかかわらず, グラディエントDescentは最大容量に到達できないことを示す。 この発見は、二分重モデルで起こっていることと同様に、勾配に基づくアルゴリズムが非定型的な状態に偏り、その到達不能がアルゴリズムのしきい値を決定することを示唆している。

We analyze the problem of storing random pattern-label associations using two classes of continuous non-convex weights models, namely the perceptron with negative margin and an infinite-width two-layer neural network with non-overlapping receptive fields and generic activation function. Using a full-RSB ansatz we compute the exact value of the SAT/UNSAT transition. Furthermore, in the case of the negative perceptron we show that the overlap distribution of typical states displays an overlap gap (a disconnected support) in certain regions of the phase diagram defined by the value of the margin and the density of patterns to be stored. This implies that some recent theorems that ensure convergence of Approximate Message Passing (AMP) based algorithms to capacity are not applicable. Finally, we show that Gradient Descent is not able to reach the maximal capacity, irrespectively of the presence of an overlap gap for typical states. This finding, similarly to what occurs in binary weight models, suggests that gradient-based algorithms are biased towards highly atypical states, whose inaccessibility determines the algorithmic threshold.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-21
# 最初のVoicePrivacy攻撃者評価計画

The First VoicePrivacy Attacker Challenge Evaluation Plan ( http://arxiv.org/abs/2410.07428v1 )

ライセンス: Link先を確認
Natalia Tomashenko, Xiaoxiao Miao, Emmanuel Vincent, Junichi Yamagishi, (参考訳) First VoicePrivacy Attacker Challengeは、VoicePrivacyイニシアチブの一部として組織され、ICASSP 2025がSP Grand Challengeとしてサポートしている新しいタイプのチャレンジである。 トレーニング、開発、評価のデータセットがベースラインアタッカーシステムと共に提供される。 参加者は、自動話者検証システムという形で攻撃システムを開発し、その開発・評価データに関するスコアを主催者に送信する。 そのためには、指定された期限前に公開され、宣言されることを条件に、追加のトレーニングデータとモデルを使用することができる。 評価基準はEER(Equal error rate)である。 結果はICASSP 2025スペシャルセッションで発表され、選抜された上位5人がチャレンジシステムへの提出と提示を依頼される。

The First VoicePrivacy Attacker Challenge is a new kind of challenge organized as part of the VoicePrivacy initiative and supported by ICASSP 2025 as the SP Grand Challenge It focuses on developing attacker systems against voice anonymization, which will be evaluated against a set of anonymization systems submitted to the VoicePrivacy 2024 Challenge. Training, development, and evaluation datasets are provided along with a baseline attacker system. Participants shall develop their attacker systems in the form of automatic speaker verification systems and submit their scores on the development and evaluation data to the organizers. To do so, they can use any additional training data and models, provided that they are openly available and declared before the specified deadline. The metric for evaluation is equal error rate (EER). Results will be presented at the ICASSP 2025 special session to which 5 selected top-ranked participants will be invited to submit and present their challenge systems.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-21
# 最初のVoicePrivacy攻撃者評価計画

The First VoicePrivacy Attacker Challenge Evaluation Plan ( http://arxiv.org/abs/2410.07428v2 )

ライセンス: Link先を確認
Natalia Tomashenko, Xiaoxiao Miao, Emmanuel Vincent, Junichi Yamagishi, (参考訳) First VoicePrivacy Attacker Challengeは、VoicePrivacyイニシアチブの一部として組織され、ICASSP 2025がSP Grand Challengeとしてサポートしている新しいタイプのチャレンジである。 トレーニング、開発、評価のデータセットがベースラインアタッカーシステムと共に提供される。 参加者は、自動話者検証システムという形で攻撃システムを開発し、その開発・評価データに関するスコアを主催者に送信する。 そのためには、指定された期限前に公開され、宣言されることを条件に、追加のトレーニングデータとモデルを使用することができる。 評価基準はEER(Equal error rate)である。 結果はICASSP 2025スペシャルセッションで発表され、選抜された上位5人がチャレンジシステムへの提出と提示を依頼される。

The First VoicePrivacy Attacker Challenge is a new kind of challenge organized as part of the VoicePrivacy initiative and supported by ICASSP 2025 as the SP Grand Challenge It focuses on developing attacker systems against voice anonymization, which will be evaluated against a set of anonymization systems submitted to the VoicePrivacy 2024 Challenge. Training, development, and evaluation datasets are provided along with a baseline attacker system. Participants shall develop their attacker systems in the form of automatic speaker verification systems and submit their scores on the development and evaluation data to the organizers. To do so, they can use any additional training data and models, provided that they are openly available and declared before the specified deadline. The metric for evaluation is equal error rate (EER). Results will be presented at the ICASSP 2025 special session to which 5 selected top-ranked participants will be invited to submit and present their challenge systems.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-21
# 量子技術における欧州コンピテンスフレームワークの拡張:新しい熟練度三角形と資格プロファイル

Extending the European Competence Framework for Quantum Technologies: new proficiency triangle and qualification profiles ( http://arxiv.org/abs/2410.07692v1 )

ライセンス: Link先を確認
Franziska Greinert, Simon Goorney, Dagmar Hilfert-Rüppell, Malte S. Ubben, Rainer Müller, (参考訳) 量子技術(QT)の産業的関連性の向上に伴い、特別な資格を持つ新しい量子労働力が必要である。 この労働力の構築には、短期訓練から学位プログラムまで、教育的な努力が必要である。 このような取り組みを計画し、地図化し、比較するためには、個人的資格や仕事の要件、標準化が必要である。 European Competence Framework for Quantum Technologies (CFQT)はQT教育のための共通言語を提供する。 2024年にバージョン2.5が更新され、新しい熟練度三角形と資格プロファイルが加わった: 熟練度三角形は3つの熟練度領域に対して6つの熟練度レベルを提案し、各レベルの知識とスキルを指定する。 9つの資格プロファイルは、要求された熟練度、実例、提案により、量子産業に関連する原型的資格または職種を示す。 これはQT教育の標準化に向けた重要な一歩である。 CFQTのアップデートは、業界のニーズに関する34のインタビューの分析結果に基づいている。 インタビューの最初の結果は、反復的な洗練と専門家の相談、およびML主導の求職分析と求職のマッピングによって補完され、求職の定式化のための勧告が明らかにされた。

With the increasing industrial relevance of quantum technologies (QTs), a new quantum workforce with special qualification will be needed. Building this workforce requires educational efforts, from short-term training to degree programs. In order to plan, map and compare such efforts, personal qualifications or job requirements, standardization is necessary. The European Competence Framework for Quantum Technologies (CFQT) provides a common language for QT education. The 2024 update to version 2.5 extends it with the new proficiency triangle and qualification profiles: The proficiency triangle proposes six proficiency levels for three proficiency areas, specifying knowledge and skills for each level. Nine qualification profiles show prototypical qualifications or job roles relevant to the quantum industry with the required proficiency, examples, and suggestions. This is an important step towards the standardization of QT education. The CFQT update is based on the results of an analysis of 34 interviews on industry needs. The initial findings from the interviews were complemented by iterative refinement and expert consultation, as well as by ML-driven analysis and mapping of job posts, revealing recommendations for formulating job posts.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-21
# 量子技術における欧州コンピテンスフレームワークの拡張:新しい熟練度三角形と資格プロファイル

Extending the European Competence Framework for Quantum Technologies: new proficiency triangle and qualification profiles ( http://arxiv.org/abs/2410.07692v2 )

ライセンス: Link先を確認
Franziska Greinert, Simon Goorney, Dagmar Hilfert-Rüppell, Malte S. Ubben, Rainer Müller, (参考訳) 量子技術(QT)の産業的関連性の向上に伴い、特別な資格を持つ新しい量子労働力が必要である。 この労働力の構築には、短期訓練から学位プログラムまで、教育的な努力が必要である。 このような取り組みを計画し、地図化し、比較するためには、個人的資格や仕事の要件、標準化が必要である。 European Competence Framework for Quantum Technologies (CFQT)はQT教育のための共通言語を提供する。 2024年にバージョン2.5が更新され、新しい熟練度三角形と資格プロファイルが加わった: 熟練度三角形は3つの熟練度領域に対して6つの熟練度レベルを提案し、各レベルの知識とスキルを指定する。 9つの資格プロファイルは、要求された熟練度、実例、提案により、量子産業に関連する原型的資格または職種を示す。 これはQT教育の標準化に向けた重要な一歩である。 CFQTのアップデートは、業界のニーズに関する34のインタビューの分析結果に基づいている。 インタビューの最初の結果は、反復的な洗練と専門家の相談によって補完された。

With the increasing industrial relevance of quantum technologies (QTs), a new quantum workforce with special qualification will be needed. Building this workforce requires educational efforts, from short-term training to degree programs. In order to plan, map and compare such efforts, personal qualifications or job requirements, standardization is necessary. The European Competence Framework for Quantum Technologies (CFQT) provides a common language for QT education. The 2024 update to version 2.5 extends it with the new proficiency triangle and qualification profiles: The proficiency triangle proposes six proficiency levels for three proficiency areas, specifying knowledge and skills for each level. Nine qualification profiles show prototypical qualifications or job roles relevant to the quantum industry with the required proficiency, examples, and suggestions. This is an important step towards the standardization of QT education. The CFQT update is based on the results of an analysis of 34 interviews on industry needs. The initial findings from the interviews were complemented by iterative refinement and expert consultation.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-21
# HeightFormer:道路側から見たセマンティックアライメント単眼物体検出法

HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective ( http://arxiv.org/abs/2410.07758v1 )

ライセンス: Link先を確認
Pei Liu, Zihao Zhang, Haipeng Liu, Nanfang Zheng, Meixin Zhu, Ziyuan Pu, (参考訳) 車載3D物体検出技術は、自動運転にとって重要な技術として広く注目を集めているが、道路側センサーを3D交通物体検出に適用することに焦点を当てた研究は少ない。 既存の研究では、フラストラムに基づく高さ推定により、2次元画像の特徴を3次元特徴に投影する。 しかし,鳥眼視特徴の高度アライメントと抽出効率は考慮されなかった。 本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。 Rope3DとDAIR-V2X-Iデータセットを用いて大規模な実験を行い、提案アルゴリズムの車と自転車の両方の検出における性能を実証した。 これらの結果は, 様々な検出シナリオの下で, アルゴリズムが頑健で一般化されていることを示唆している。 道路沿いの3次元物体検出の精度の向上は、車両と道路の協調による安全で信頼性の高いインテリジェント交通システムの構築と、自動運転の大規模適用を促進することを目的としている。 コードと事前訓練されたモデルはhttps://anonymous.4open.science/r/HeightFormerでリリースされる。

The on-board 3D object detection technology has received extensive attention as a critical technology for autonomous driving, while few studies have focused on applying roadside sensors in 3D traffic object detection. Existing studies achieve the projection of 2D image features to 3D features through height estimation based on the frustum. However, they did not consider the height alignment and the extraction efficiency of bird's-eye-view features. We propose a novel 3D object detection framework integrating Spatial Former and Voxel Pooling Former to enhance 2D-to-3D projection based on height estimation. Extensive experiments were conducted using the Rope3D and DAIR-V2X-I dataset, and the results demonstrated the outperformance of the proposed algorithm in the detection of both vehicles and cyclists. These results indicate that the algorithm is robust and generalized under various detection scenarios. Improving the accuracy of 3D object detection on the roadside is conducive to building a safe and trustworthy intelligent transportation system of vehicle-road coordination and promoting the large-scale application of autonomous driving. The code and pre-trained models will be released on https://anonymous.4open.science/r/HeightFormer.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-21
# HeightFormer:道路側から見たセマンティックアライメント単眼物体検出法

HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective ( http://arxiv.org/abs/2410.07758v2 )

ライセンス: Link先を確認
Pei Liu, Zihao Zhang, Haipeng Liu, Nanfang Zheng, Meixin Zhu, Ziyuan Pu, (参考訳) 車載3D物体検出技術は、自動運転にとって重要な技術として広く注目を集めているが、道路側センサーを3D交通物体検出に適用することに焦点を当てた研究は少ない。 既存の研究では、フラストラムに基づく高さ推定により、2次元画像の特徴を3次元特徴に投影する。 しかし,鳥眼視特徴の高度アライメントと抽出効率は考慮されなかった。 本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。 Rope3DとDAIR-V2X-Iデータセットを用いて大規模な実験を行い、提案アルゴリズムの車と自転車の両方の検出における性能を実証した。 これらの結果は, 様々な検出シナリオの下で, アルゴリズムが頑健で一般化されていることを示唆している。 道路沿いの3次元物体検出の精度の向上は、車両と道路の協調による安全で信頼性の高いインテリジェント交通システムの構築と、自動運転の大規模適用を促進することを目的としている。 コードと事前訓練されたモデルはhttps://anonymous.4open.science/r/HeightFormerでリリースされる。

The on-board 3D object detection technology has received extensive attention as a critical technology for autonomous driving, while few studies have focused on applying roadside sensors in 3D traffic object detection. Existing studies achieve the projection of 2D image features to 3D features through height estimation based on the frustum. However, they did not consider the height alignment and the extraction efficiency of bird's-eye-view features. We propose a novel 3D object detection framework integrating Spatial Former and Voxel Pooling Former to enhance 2D-to-3D projection based on height estimation. Extensive experiments were conducted using the Rope3D and DAIR-V2X-I dataset, and the results demonstrated the outperformance of the proposed algorithm in the detection of both vehicles and cyclists. These results indicate that the algorithm is robust and generalized under various detection scenarios. Improving the accuracy of 3D object detection on the roadside is conducive to building a safe and trustworthy intelligent transportation system of vehicle-road coordination and promoting the large-scale application of autonomous driving. The code and pre-trained models will be released on https://anonymous.4open.science/r/HeightFormer.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-21
# 高いRoPE注意次元のトークン距離モデリング能力について

On the token distance modeling ability of higher RoPE attention dimension ( http://arxiv.org/abs/2410.08703v1 )

ライセンス: Link先を確認
Xiangyu Hong, Che Jiang, Biqing Qi, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou, (参考訳) ロータリー位置埋め込み(RoPE)に基づく長さ推定アルゴリズムは,言語モデルの文脈長を拡張できる有望な結果を示した。 しかし, 位置埋め込みが長期の文脈情報をどのように捉えるかを理解することは, いまだ解明されていない。 異なる次元がRoPE符号化の異なる周波数変化に対応するという直感に基づいて,注目ヘッドの隠蔽次元と長距離依存性の捕捉への寄与との相関性を検討するために,次元レベルの解析を行った。 相関指標を用いて,様々な長さ抽出モデルから特定の種類の注意ヘッドを同定し,位置頭部と命名した。 これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、当社のアブレーションによる証拠として、長い入力処理において重要な役割を担っている。 さらに、長さ外挿の効率とこれらのヘッドの高次元的アテンションアロケーションの延長との相関性を示す。 位置頭部の同定は、長文理解における将来の研究の洞察を与える。

Length extrapolation algorithms based on Rotary position embedding (RoPE) have shown promising results in extending the context length of language models. However, understanding how position embedding can capture longer-range contextual information remains elusive. Based on the intuition that different dimensions correspond to different frequency of changes in RoPE encoding, we conducted a dimension-level analysis to investigate the correlation between a hidden dimension of an attention head and its contribution to capturing long-distance dependencies. Using our correlation metric, we identified a particular type of attention heads, which we named Positional Heads, from various length-extrapolated models. These heads exhibit a strong focus on long-range information interaction and play a pivotal role in long input processing, as evidence by our ablation. We further demonstrate the correlation between the efficiency of length extrapolation and the extension of the high-dimensional attention allocation of these heads. The identification of Positional Heads provides insights for future research in long-text comprehension.
翻訳日:2024-10-30 22:25:15 公開日:2024-10-21
# 高いRoPE注意次元のトークン距離モデリング能力について

On the token distance modeling ability of higher RoPE attention dimension ( http://arxiv.org/abs/2410.08703v2 )

ライセンス: Link先を確認
Xiangyu Hong, Che Jiang, Biqing Qi, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou, (参考訳) ロータリー位置埋め込み(RoPE)に基づく長さ推定アルゴリズムは,言語モデルの文脈長を拡張できる有望な結果を示した。 しかし, 位置埋め込みが長期の文脈情報をどのように捉えるかを理解することは, いまだ解明されていない。 異なる次元がRoPE符号化の異なる周波数変化に対応するという直感に基づいて,注目ヘッドの隠蔽次元と長距離依存性の捕捉への寄与との相関性を検討するために,次元レベルの解析を行った。 相関指標を用いて,様々な長さ抽出モデルから特定の種類の注意ヘッドを同定し,位置頭部と命名した。 これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、当社のアブレーションによる証拠として、長い入力処理において重要な役割を担っている。 さらに、長さ外挿の効率とこれらのヘッドの高次元的アテンションアロケーションの延長との相関性を示す。 位置頭部の同定は、長文理解における将来の研究の洞察を与える。

Length extrapolation algorithms based on Rotary position embedding (RoPE) have shown promising results in extending the context length of language models. However, understanding how position embedding can capture longer-range contextual information remains elusive. Based on the intuition that different dimensions correspond to different frequency of changes in RoPE encoding, we conducted a dimension-level analysis to investigate the correlation between a hidden dimension of an attention head and its contribution to capturing long-distance dependencies. Using our correlation metric, we identified a particular type of attention heads, which we named Positional Heads, from various length-extrapolated models. These heads exhibit a strong focus on long-range information interaction and play a pivotal role in long input processing, as evidence by our ablation. We further demonstrate the correlation between the efficiency of length extrapolation and the extension of the high-dimensional attention allocation of these heads. The identification of Positional Heads provides insights for future research in long-text comprehension.
翻訳日:2024-10-30 22:25:15 公開日:2024-10-21
# CoTCoNet: 白血病検出のための適応的グラフ再構成を用いた最適結合型トランスフォーマー・コンボリューションネットワーク

CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection ( http://arxiv.org/abs/2410.08797v1 )

ライセンス: Link先を確認
Chandravardhan Singh Raghaw, Arnav Sharma, Shubhi Bansa, Mohammad Zia Ur Rehman, Nagendra Kumar, (参考訳) スイフトと正確な血液スミア分析は、白血病やその他の血液悪性腫瘍の効果的な診断方法である。 しかし, 顕微鏡を用いた手動白血球数と形態評価は時間を要するため, エラーが生じる傾向がみられた。 従来の画像処理手法は、悪性細胞と良性細胞の形態の視覚的類似性による細胞分化の限界も示している。 この制限は、信頼性と関連する特徴の抽出を妨げる歪んだトレーニングデータによってさらに複雑にされる。 これらの課題に対応するため、我々は、深層畳み込みネットワークと統合されたよく設計されたトランスフォーマーを用いて、包括的グローバル特徴と拡張性のある空間パターンを効果的にキャプチャし、複雑で大規模な血液学的特徴の同定を可能にする、白血病の分類のための最適化されたCoTCoNet(CoTCoNet)フレームワークを提案する。 さらに、このフレームワークは、グラフベースの機能再構成モジュールを組み込んで、白血球細胞の隠れた、または観察できない生物学的特徴を明らかにするとともに、機能選択と最適化のために、Populationベースのメタヒューリスティックアルゴリズムを使用している。 データ不均衡を緩和するために、我々は合成白血球生成装置を用いる。 評価段階では16,982個のアノテートされたセルを含むデータセット上でCoTCoNetを評価し,それぞれ0.9894と0.9893のF1スコアレートを達成した。 モデルの一般化性を高めるため、上記のデータセットを含む4つの公開可能な多種多様なデータセットにまたがって評価を行った。 この評価は,本手法が現在の最先端手法よりも優れていることを示す。 また,機能可視化をセルアノテーションと密に整合させて,フレームワークをより深く理解するための説明可能性アプローチも取り入れた。

Swift and accurate blood smear analysis is an effective diagnostic method for leukemia and other hematological malignancies. However, manual leukocyte count and morphological evaluation using a microscope is time-consuming and prone to errors. Conventional image processing methods also exhibit limitations in differentiating cells due to the visual similarity between malignant and benign cell morphology. This limitation is further compounded by the skewed training data that hinders the extraction of reliable and pertinent features. In response to these challenges, we propose an optimized Coupled Transformer Convolutional Network (CoTCoNet) framework for the classification of leukemia, which employs a well-designed transformer integrated with a deep convolutional network to effectively capture comprehensive global features and scalable spatial patterns, enabling the identification of complex and large-scale hematological features. Further, the framework incorporates a graph-based feature reconstruction module to reveal the hidden or unobserved hard-to-see biological features of leukocyte cells and employs a Population-based Meta-Heuristic Algorithm for feature selection and optimization. To mitigate data imbalance issues, we employ a synthetic leukocyte generator. In the evaluation phase, we initially assess CoTCoNet on a dataset containing 16,982 annotated cells, and it achieves remarkable accuracy and F1-Score rates of 0.9894 and 0.9893, respectively. To broaden the generalizability of our model, we evaluate it across four publicly available diverse datasets, which include the aforementioned dataset. This evaluation demonstrates that our method outperforms current state-of-the-art approaches. We also incorporate an explainability approach in the form of feature visualization closely aligned with cell annotations to provide a deeper understanding of the framework.
翻訳日:2024-10-30 22:05:43 公開日:2024-10-21
# CoTCoNet: 白血病検出のための適応的グラフ再構成を用いた最適結合型トランスフォーマー・コンボリューションネットワーク

CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection ( http://arxiv.org/abs/2410.08797v2 )

ライセンス: Link先を確認
Chandravardhan Singh Raghaw, Arnav Sharma, Shubhi Bansal, Mohammad Zia Ur Rehman, Nagendra Kumar, (参考訳) スイフトと正確な血液スミア分析は、白血病やその他の血液悪性腫瘍の効果的な診断方法である。 しかし, 顕微鏡を用いた手動白血球数と形態評価は時間を要するため, エラーが生じる傾向がみられた。 従来の画像処理手法は、悪性細胞と良性細胞の形態の視覚的類似性による細胞分化の限界も示している。 この制限は、信頼性と関連する特徴の抽出を妨げる歪んだトレーニングデータによってさらに複雑にされる。 これらの課題に対応するため、我々は、深層畳み込みネットワークと統合されたよく設計されたトランスフォーマーを用いて、包括的グローバル特徴と拡張性のある空間パターンを効果的にキャプチャし、複雑で大規模な血液学的特徴の同定を可能にする、白血病の分類のための最適化されたCoTCoNet(CoTCoNet)フレームワークを提案する。 さらに、このフレームワークは、グラフベースの機能再構成モジュールを組み込んで、白血球細胞の隠れた、または観察できない生物学的特徴を明らかにするとともに、機能選択と最適化のために、Populationベースのメタヒューリスティックアルゴリズムを使用している。 データ不均衡を緩和するために、我々は合成白血球生成装置を用いる。 評価段階では16,982個のアノテートされたセルを含むデータセット上でCoTCoNetを評価し,それぞれ0.9894と0.9893のF1スコアレートを達成した。 モデルの一般化性を高めるため、上記のデータセットを含む4つの公開可能な多種多様なデータセットにまたがって評価を行った。 この評価は,本手法が現在の最先端手法よりも優れていることを示す。 また,機能可視化をセルアノテーションと密に整合させて,フレームワークをより深く理解するための説明可能性アプローチも取り入れた。

Swift and accurate blood smear analysis is an effective diagnostic method for leukemia and other hematological malignancies. However, manual leukocyte count and morphological evaluation using a microscope is time-consuming and prone to errors. Conventional image processing methods also exhibit limitations in differentiating cells due to the visual similarity between malignant and benign cell morphology. This limitation is further compounded by the skewed training data that hinders the extraction of reliable and pertinent features. In response to these challenges, we propose an optimized Coupled Transformer Convolutional Network (CoTCoNet) framework for the classification of leukemia, which employs a well-designed transformer integrated with a deep convolutional network to effectively capture comprehensive global features and scalable spatial patterns, enabling the identification of complex and large-scale hematological features. Further, the framework incorporates a graph-based feature reconstruction module to reveal the hidden or unobserved hard-to-see biological features of leukocyte cells and employs a Population-based Meta-Heuristic Algorithm for feature selection and optimization. To mitigate data imbalance issues, we employ a synthetic leukocyte generator. In the evaluation phase, we initially assess CoTCoNet on a dataset containing 16,982 annotated cells, and it achieves remarkable accuracy and F1-Score rates of 0.9894 and 0.9893, respectively. To broaden the generalizability of our model, we evaluate it across four publicly available diverse datasets, which include the aforementioned dataset. This evaluation demonstrates that our method outperforms current state-of-the-art approaches. We also incorporate an explainability approach in the form of feature visualization closely aligned with cell annotations to provide a deeper understanding of the framework.
翻訳日:2024-10-30 21:55:58 公開日:2024-10-21
# FedProxにおけるパーソナライズの効果:統計的精度とコミュニケーション効率の微粒化分析

The Effect of Personalization in FedProx: A Fine-grained Analysis on Statistical Accuracy and Communication Efficiency ( http://arxiv.org/abs/2410.08934v1 )

ライセンス: Link先を確認
Xin Yu, Zelin He, Ying Sun, Lingzhou Xue, Runze Li, (参考訳) FedProxは、正規化によるモデルパーソナライズを可能にする、シンプルだが効果的なフェデレーション学習手法である。 実際に顕著な成功を収めたにもかかわらず、そのような正規化が各クライアントのローカルモデルの統計的精度を確実に向上させるかという厳密な分析は、完全には確立されていない。 正規化強度の設定は、不適切な選択が精度を低下させる可能性があるため、ヒューリスティックにリスクを生じさせる。 本研究は,正規化の効果を統計的精度で解析することによりギャップを埋め,パーソナライズを実現するための正規化強度を設定するための理論的ガイドラインを提供する。 統計的不均一性が異なる条件下で正則化強度を適応的に選択することにより、FedProxは純粋局所訓練を一貫して上回り、極小最適統計率をほぼ達成できることを示す。 さらに,資源配分に光を当てるために,より強力なパーソナライゼーションが計算コストのオーバーヘッドを増大させることなく通信の複雑さを低減することを示すアルゴリズムを設計する。 最後に,本理論は合成および実世界の両方のデータセット上で検証され,その一般化性は非凸条件下で検証される。

FedProx is a simple yet effective federated learning method that enables model personalization via regularization. Despite remarkable success in practice, a rigorous analysis of how such a regularization provably improves the statistical accuracy of each client's local model hasn't been fully established. Setting the regularization strength heuristically presents a risk, as an inappropriate choice may even degrade accuracy. This work fills in the gap by analyzing the effect of regularization on statistical accuracy, thereby providing a theoretical guideline for setting the regularization strength for achieving personalization. We prove that by adaptively choosing the regularization strength under different statistical heterogeneity, FedProx can consistently outperform pure local training and achieve a nearly minimax-optimal statistical rate. In addition, to shed light on resource allocation, we design an algorithm, provably showing that stronger personalization reduces communication complexity without increasing the computation cost overhead. Finally, our theory is validated on both synthetic and real-world datasets and its generalizability is verified in a non-convex setting.
翻訳日:2024-10-30 21:06:06 公開日:2024-10-21
# FedProxにおけるパーソナライズの効果:統計的精度とコミュニケーション効率の微粒化分析

The Effect of Personalization in FedProx: A Fine-grained Analysis on Statistical Accuracy and Communication Efficiency ( http://arxiv.org/abs/2410.08934v2 )

ライセンス: Link先を確認
Xin Yu, Zelin He, Ying Sun, Lingzhou Xue, Runze Li, (参考訳) FedProxは、正規化によるモデルパーソナライズを可能にする、シンプルだが効果的なフェデレーション学習手法である。 実際に顕著な成功を収めたにもかかわらず、そのような正規化が各クライアントのローカルモデルの統計的精度を確実に向上させるかという厳密な分析は、完全には確立されていない。 正規化強度の設定は、不適切な選択が精度を低下させる可能性があるため、ヒューリスティックにリスクを生じさせる。 本研究は,正規化の効果を統計的精度で解析することによりギャップを埋め,パーソナライズを実現するための正規化強度を設定するための理論的ガイドラインを提供する。 統計的不均一性が異なる条件下で正則化強度を適応的に選択することにより、FedProxは純粋局所訓練を一貫して上回り、極小最適統計率をほぼ達成できることを示す。 さらに,資源配分に光を当てるために,より強力なパーソナライゼーションが計算コストのオーバーヘッドを増大させることなく通信の複雑さを低減することを示すアルゴリズムを設計する。 最後に,本理論は合成および実世界の両方のデータセット上で検証され,その一般化性は非凸条件下で検証される。

FedProx is a simple yet effective federated learning method that enables model personalization via regularization. Despite remarkable success in practice, a rigorous analysis of how such a regularization provably improves the statistical accuracy of each client's local model hasn't been fully established. Setting the regularization strength heuristically presents a risk, as an inappropriate choice may even degrade accuracy. This work fills in the gap by analyzing the effect of regularization on statistical accuracy, thereby providing a theoretical guideline for setting the regularization strength for achieving personalization. We prove that by adaptively choosing the regularization strength under different statistical heterogeneity, FedProx can consistently outperform pure local training and achieve a nearly minimax-optimal statistical rate. In addition, to shed light on resource allocation, we design an algorithm, provably showing that stronger personalization reduces communication complexity without increasing the computation cost overhead. Finally, our theory is validated on both synthetic and real-world datasets and its generalizability is verified in a non-convex setting.
翻訳日:2024-10-30 21:06:06 公開日:2024-10-21
# GFlowNetsの育成のための多様性対策について

On Divergence Measures for Training GFlowNets ( http://arxiv.org/abs/2410.09355v1 )

ライセンス: Link先を確認
Tiago da Silva, Eliezer de Souza da Silva, Diego Mesquita, (参考訳) 生成フローネットワーク (Generative Flow Networks, GFlowNets) は、合成可能なオブジェクト上の非正規分布からサンプルを抽出するために設計された記憶型推論モデルであり、因果的発見、NLP、薬物発見などの分野におけるタスクの生成モデリングに応用されている。 伝統的に、GFlowNetsのトレーニング手順は、あるフローマッチング条件を強制する提案(前方ポリシー)と目標(後方ポリシー)の2乗差を最小化することを目指している。 このトレーニング手順は変分推論(VI)と密接に関連しているが、標準のKL(Kulback-Leibler)の偏差最小化を直接試すと、バイアスがあり、高分散推定器となる可能性がある。 そこで、まず、Renyi-$\alpha$'s, Tsallis-$\alpha$'s, reverse and forward KL's という4つの分岐測度を概観し、GFlowNets の学習文脈における確率的勾配に対する統計的に効率的な推定器を設計する。 そして、これらの分散を適切に最小化すると、証明可能な正確かつ経験的に有効なトレーニングスキームが得られることを検証し、しばしば以前提案された最適化よりもはるかに高速な収束をもたらす。 そこで我々は,REINFORCEとスコアマッチング推定器に基づいて,学習対象の勾配のばらつきを低減する制御変数を設計する。 我々の研究は、GFlowNetsトレーニングと一般化された変分近似のギャップを狭め、発散最小化の観点で情報を得るアルゴリズム的アイデアの道を開くことに寄与している。

Generative Flow Networks (GFlowNets) are amortized inference models designed to sample from unnormalized distributions over composable objects, with applications in generative modeling for tasks in fields such as causal discovery, NLP, and drug discovery. Traditionally, the training procedure for GFlowNets seeks to minimize the expected log-squared difference between a proposal (forward policy) and a target (backward policy) distribution, which enforces certain flow-matching conditions. While this training procedure is closely related to variational inference (VI), directly attempting standard Kullback-Leibler (KL) divergence minimization can lead to proven biased and potentially high-variance estimators. Therefore, we first review four divergence measures, namely, Renyi-$\alpha$'s, Tsallis-$\alpha$'s, reverse and forward KL's, and design statistically efficient estimators for their stochastic gradients in the context of training GFlowNets. Then, we verify that properly minimizing these divergences yields a provably correct and empirically effective training scheme, often leading to significantly faster convergence than previously proposed optimization. To achieve this, we design control variates based on the REINFORCE leave-one-out and score-matching estimators to reduce the variance of the learning objectives' gradients. Our work contributes by narrowing the gap between GFlowNets training and generalized variational approximations, paving the way for algorithmic ideas informed by the divergence minimization viewpoint.
翻訳日:2024-10-30 14:53:51 公開日:2024-10-21
# GFlowNetsの育成のための多様性対策について

On Divergence Measures for Training GFlowNets ( http://arxiv.org/abs/2410.09355v2 )

ライセンス: Link先を確認
Tiago da Silva, Eliezer de Souza da Silva, Diego Mesquita, (参考訳) 生成フローネットワーク (Generative Flow Networks, GFlowNets) は、合成可能なオブジェクト上の非正規分布からサンプルを抽出するために設計された記憶型推論モデルであり、因果的発見、NLP、薬物発見などの分野におけるタスクの生成モデリングに応用されている。 伝統的に、GFlowNetsのトレーニング手順は、あるフローマッチング条件を強制する提案(前方ポリシー)と目標(後方ポリシー)の2乗差を最小化することを目指している。 このトレーニング手順は変分推論(VI)と密接に関連しているが、標準のKL(Kulback-Leibler)の偏差最小化を直接試すと、バイアスがあり、高分散推定器となる可能性がある。 そこで、まず、Renyi-$\alpha$'s, Tsallis-$\alpha$'s, reverse and forward KL's という4つの分岐測度を概観し、GFlowNets の学習文脈における確率的勾配に対する統計的に効率的な推定器を設計する。 そして、これらの分散を適切に最小化すると、証明可能な正確かつ経験的に有効なトレーニングスキームが得られることを検証し、しばしば以前提案された最適化よりもはるかに高速な収束をもたらす。 そこで我々は,REINFORCEとスコアマッチング推定器に基づいて,学習対象の勾配のばらつきを低減する制御変数を設計する。 我々の研究は、GFlowNetsトレーニングと一般化された変分近似のギャップを狭め、発散最小化の観点で情報を得るアルゴリズム的アイデアの道を開くことに寄与している。

Generative Flow Networks (GFlowNets) are amortized inference models designed to sample from unnormalized distributions over composable objects, with applications in generative modeling for tasks in fields such as causal discovery, NLP, and drug discovery. Traditionally, the training procedure for GFlowNets seeks to minimize the expected log-squared difference between a proposal (forward policy) and a target (backward policy) distribution, which enforces certain flow-matching conditions. While this training procedure is closely related to variational inference (VI), directly attempting standard Kullback-Leibler (KL) divergence minimization can lead to proven biased and potentially high-variance estimators. Therefore, we first review four divergence measures, namely, Renyi-$\alpha$'s, Tsallis-$\alpha$'s, reverse and forward KL's, and design statistically efficient estimators for their stochastic gradients in the context of training GFlowNets. Then, we verify that properly minimizing these divergences yields a provably correct and empirically effective training scheme, often leading to significantly faster convergence than previously proposed optimization. To achieve this, we design control variates based on the REINFORCE leave-one-out and score-matching estimators to reduce the variance of the learning objectives' gradients. Our work contributes by narrowing the gap between GFlowNets training and generalized variational approximations, paving the way for algorithmic ideas informed by the divergence minimization viewpoint.
翻訳日:2024-10-30 14:53:51 公開日:2024-10-21
# 直交行列分解と線形ニューラルネットワークのためのネステロフ加速勾配の確率的加速

Provable Acceleration of Nesterov's Accelerated Gradient for Rectangular Matrix Factorization and Linear Neural Networks ( http://arxiv.org/abs/2410.09640v1 )

ライセンス: Link先を確認
Zhenghao Xu, Yuqing Wang, Tuo Zhao, Rachel Ward, Molei Tao, (参考訳) 正準非凸最適化問題である長方行列分解の一階法の収束率について検討する。 具体的には、階数-$r$行列 $\mathbf{A}\in\mathbb{R}^{m\times n}$ が与えられたとき、勾配降下 (GD) が $\epsilon$-optimal solution $\mathbf{X}_T\in\mathbb{R}^{m\times d}$ と $\mathbf{Y}_T\in\mathbb{R}^{n\times d}$ と $d\geq r$ が $\lVert\mathbf{X}_T\mathbf{Y}_T^\top-\mathbf{A}\rVert_\mathrm{F}\leq\epsilon\lVert\mathbf{A}\rVert_\mathrm{F}\leq\leq\epsilon$R}^{m\times d}$ であることを示す。 さらに、ネステロフの加速勾配 (NAG) が、長方行列分解のための一階法の最もよく知られた境界である$O(\kappa\log\frac{1}{\epsilon})$の反復複雑性に達することを証明している。 既存の文献では、小さなバランスの取れたランダムな初期化とは異なり、$\mathbf{X}_0$ が大きければ$\mathbf{Y}_0$ が$0$ となるアンバランスな初期化を採用する。 さらに、我々の初期化と解析は線形ニューラルネットワークにさらに拡張することができ、NAGが加速された線形収束率に達することも証明できる。 特に、ネットワークの幅が出力ラベル行列のランクより大きいか等しいかだけを要求します。 対照的に、同じレートを達成する前の結果は、入力データ行列の条件数とランクに依存する余分な幅を必要とする。

We study the convergence rate of first-order methods for rectangular matrix factorization, which is a canonical nonconvex optimization problem. Specifically, given a rank-$r$ matrix $\mathbf{A}\in\mathbb{R}^{m\times n}$, we prove that gradient descent (GD) can find a pair of $\epsilon$-optimal solutions $\mathbf{X}_T\in\mathbb{R}^{m\times d}$ and $\mathbf{Y}_T\in\mathbb{R}^{n\times d}$, where $d\geq r$, satisfying $\lVert\mathbf{X}_T\mathbf{Y}_T^\top-\mathbf{A}\rVert_\mathrm{F}\leq\epsilon\lVert\mathbf{A}\rVert_\mathrm{F}$ in $T=O(\kappa^2\log\frac{1}{\epsilon})$ iterations with high probability, where $\kappa$ denotes the condition number of $\mathbf{A}$. Furthermore, we prove that Nesterov's accelerated gradient (NAG) attains an iteration complexity of $O(\kappa\log\frac{1}{\epsilon})$, which is the best-known bound of first-order methods for rectangular matrix factorization. Different from small balanced random initialization in the existing literature, we adopt an unbalanced initialization, where $\mathbf{X}_0$ is large and $\mathbf{Y}_0$ is $0$. Moreover, our initialization and analysis can be further extended to linear neural networks, where we prove that NAG can also attain an accelerated linear convergence rate. In particular, we only require the width of the network to be greater than or equal to the rank of the output label matrix. In contrast, previous results achieving the same rate require excessive widths that additionally depend on the condition number and the rank of the input data matrix.
翻訳日:2024-10-30 09:06:07 公開日:2024-10-21
# 直交行列分解と線形ニューラルネットワークのためのネステロフ加速勾配の確率的加速

Provable Acceleration of Nesterov's Accelerated Gradient for Rectangular Matrix Factorization and Linear Neural Networks ( http://arxiv.org/abs/2410.09640v2 )

ライセンス: Link先を確認
Zhenghao Xu, Yuqing Wang, Tuo Zhao, Rachel Ward, Molei Tao, (参考訳) 正準非凸最適化問題である長方行列分解の一階法の収束率について検討する。 具体的には、階数-$r$行列 $\mathbf{A}\in\mathbb{R}^{m\times n}$ が与えられたとき、勾配降下 (GD) が $\epsilon$-optimal solution $\mathbf{X}_T\in\mathbb{R}^{m\times d}$ と $\mathbf{Y}_T\in\mathbb{R}^{n\times d}$ と $d\geq r$ が $\lVert\mathbf{X}_T\mathbf{Y}_T^\top-\mathbf{A}\rVert_\mathrm{F}\leq\epsilon\lVert\mathbf{A}\rVert_\mathrm{F}\leq\leq\epsilon$R}^{m\times d}$ であることを示す。 さらに、ネステロフの加速勾配 (NAG) が、長方行列分解のための一階法の最もよく知られた境界である$O(\kappa\log\frac{1}{\epsilon})$の反復複雑性に達することを証明している。 既存の文献では、小さなバランスの取れたランダムな初期化とは異なり、$\mathbf{X}_0$ が大きければ$\mathbf{Y}_0$ が$0$ となるアンバランスな初期化を採用する。 さらに、我々の初期化と解析は線形ニューラルネットワークにさらに拡張することができ、NAGが加速された線形収束率に達することも証明できる。 特に、ネットワークの幅が出力ラベル行列のランクより大きいか等しいかだけを要求します。 対照的に、同じレートを達成する前の結果は、入力データ行列の条件数とランクに依存する余分な幅を必要とする。

We study the convergence rate of first-order methods for rectangular matrix factorization, which is a canonical nonconvex optimization problem. Specifically, given a rank-$r$ matrix $\mathbf{A}\in\mathbb{R}^{m\times n}$, we prove that gradient descent (GD) can find a pair of $\epsilon$-optimal solutions $\mathbf{X}_T\in\mathbb{R}^{m\times d}$ and $\mathbf{Y}_T\in\mathbb{R}^{n\times d}$, where $d\geq r$, satisfying $\lVert\mathbf{X}_T\mathbf{Y}_T^\top-\mathbf{A}\rVert_\mathrm{F}\leq\epsilon\lVert\mathbf{A}\rVert_\mathrm{F}$ in $T=O(\kappa^2\log\frac{1}{\epsilon})$ iterations with high probability, where $\kappa$ denotes the condition number of $\mathbf{A}$. Furthermore, we prove that Nesterov's accelerated gradient (NAG) attains an iteration complexity of $O(\kappa\log\frac{1}{\epsilon})$, which is the best-known bound of first-order methods for rectangular matrix factorization. Different from small balanced random initialization in the existing literature, we adopt an unbalanced initialization, where $\mathbf{X}_0$ is large and $\mathbf{Y}_0$ is $0$. Moreover, our initialization and analysis can be further extended to linear neural networks, where we prove that NAG can also attain an accelerated linear convergence rate. In particular, we only require the width of the network to be greater than or equal to the rank of the output label matrix. In contrast, previous results achieving the same rate require excessive widths that additionally depend on the condition number and the rank of the input data matrix.
翻訳日:2024-10-30 09:06:07 公開日:2024-10-21
# 一般化されたグループデータ属性

Generalized Group Data Attribution ( http://arxiv.org/abs/2410.09940v1 )

ライセンス: Link先を確認
Dan Ley, Shichang Zhang, Suraj Srinivas, Gili Rusak, Himabindu Lakkaraju, (参考訳) データ属性(DA)法は、個々のトレーニングデータポイントがモデル出力に与える影響を定量化し、説明可能性、データ選択、ノイズのあるラベル識別など幅広い用途を持つ。 しかし、既存のDA手法はしばしば計算集約的であり、大規模な機械学習モデルに適用性を制限する。 この課題に対処するために,一般グループデータ属性(GGDA)フレームワークを導入する。 GGDAは、既存の属性メソッドを仮定する一般的なフレームワークであり、新しいDAテクニックが出現するにつれて適用することができる。 ユーザは自分のニーズに応じて効率と忠実さのトレードオフを最適化できる。 実験の結果,GGDAがインフルエンス関数,TracIn,TRAKなどの一般的なDA手法に適用された場合,標準DA手法よりも最大10x-50倍の高速化が得られた。 データセットのプルーニングやノイズラベル識別といったダウンストリームアプリケーションでは,GGDAが計算効率を大幅に向上し,有効性を維持することを示し,これまで実現不可能であった大規模機械学習シナリオの実践的応用を可能にした。

Data Attribution (DA) methods quantify the influence of individual training data points on model outputs and have broad applications such as explainability, data selection, and noisy label identification. However, existing DA methods are often computationally intensive, limiting their applicability to large-scale machine learning models. To address this challenge, we introduce the Generalized Group Data Attribution (GGDA) framework, which computationally simplifies DA by attributing to groups of training points instead of individual ones. GGDA is a general framework that subsumes existing attribution methods and can be applied to new DA techniques as they emerge. It allows users to optimize the trade-off between efficiency and fidelity based on their needs. Our empirical results demonstrate that GGDA applied to popular DA methods such as Influence Functions, TracIn, and TRAK results in upto 10x-50x speedups over standard DA methods while gracefully trading off attribution fidelity. For downstream applications such as dataset pruning and noisy label identification, we demonstrate that GGDA significantly improves computational efficiency and maintains effectiveness, enabling practical applications in large-scale machine learning scenarios that were previously infeasible.
翻訳日:2024-10-30 04:03:30 公開日:2024-10-21
# 一般化されたグループデータ属性

Generalized Group Data Attribution ( http://arxiv.org/abs/2410.09940v2 )

ライセンス: Link先を確認
Dan Ley, Suraj Srinivas, Shichang Zhang, Gili Rusak, Himabindu Lakkaraju, (参考訳) データ属性(DA)法は、個々のトレーニングデータポイントがモデル出力に与える影響を定量化し、説明可能性、データ選択、ノイズのあるラベル識別など幅広い用途を持つ。 しかし、既存のDA手法はしばしば計算集約的であり、大規模な機械学習モデルに適用性を制限する。 この課題に対処するために,一般グループデータ属性(GGDA)フレームワークを導入する。 GGDAは、既存の属性メソッドを仮定する一般的なフレームワークであり、新しいDAテクニックが出現するにつれて適用することができる。 ユーザは自分のニーズに応じて効率と忠実さのトレードオフを最適化できる。 実験の結果,GGDAがインフルエンス関数,TracIn,TRAKなどの一般的なDA手法に適用された場合,標準DA手法よりも最大10x-50倍の高速化が得られた。 データセットのプルーニングやノイズラベル識別といったダウンストリームアプリケーションでは,GGDAが計算効率を大幅に向上し,有効性を維持することを示し,これまで実現不可能であった大規模機械学習シナリオの実践的応用を可能にした。

Data Attribution (DA) methods quantify the influence of individual training data points on model outputs and have broad applications such as explainability, data selection, and noisy label identification. However, existing DA methods are often computationally intensive, limiting their applicability to large-scale machine learning models. To address this challenge, we introduce the Generalized Group Data Attribution (GGDA) framework, which computationally simplifies DA by attributing to groups of training points instead of individual ones. GGDA is a general framework that subsumes existing attribution methods and can be applied to new DA techniques as they emerge. It allows users to optimize the trade-off between efficiency and fidelity based on their needs. Our empirical results demonstrate that GGDA applied to popular DA methods such as Influence Functions, TracIn, and TRAK results in upto 10x-50x speedups over standard DA methods while gracefully trading off attribution fidelity. For downstream applications such as dataset pruning and noisy label identification, we demonstrate that GGDA significantly improves computational efficiency and maintains effectiveness, enabling practical applications in large-scale machine learning scenarios that were previously infeasible.
翻訳日:2024-10-30 04:03:30 公開日:2024-10-21
# QUIS:自動探索データ分析のための質問誘導インサイト生成

QUIS: Question-guided Insights Generation for Automated Exploratory Data Analysis ( http://arxiv.org/abs/2410.10270v1 )

ライセンス: Link先を確認
Abhijit Manatkar, Ashlesha Akella, Parthivi Gupta, Krishnasuri Narayanam, (参考訳) 探索データ分析(Exploratory Data Analysis, EDA)として知られる大規模なデータセットから意味のある洞察を発見することは、データの徹底的な探索と分析を必要とする難しいタスクである。 ADE(Automated Data Exploration)システムは,大規模言語モデルによる目標指向の手法と,完全な自動化に向けた強化学習を使用する。 しかしながら、これらの手法は人間の関与を必要とし、洞察抽出を制限する目標を予測し、一方完全に自動化されたシステムは重要な計算資源を必要とし、新しいデータセットを再訓練する。 本稿では,質問生成(QUGen)によって駆動される洞察生成(ISGen)という,完全に自動化されたEDAシステムであるQUISを紹介する。 QUGenモジュールはイテレーションで質問を生成し、以前のイテレーションから修正して、人間の介入や手動でキュレートされた例なしにカバレッジを高める。 ISGenモジュールはデータを分析して、各質問に対する複数の関連する洞察を生成し、事前のトレーニングを必要とせず、QUISが新しいデータセットに適応できるようにする。

Discovering meaningful insights from a large dataset, known as Exploratory Data Analysis (EDA), is a challenging task that requires thorough exploration and analysis of the data. Automated Data Exploration (ADE) systems use goal-oriented methods with Large Language Models and Reinforcement Learning towards full automation. However, these methods require human involvement to anticipate goals that may limit insight extraction, while fully automated systems demand significant computational resources and retraining for new datasets. We introduce QUIS, a fully automated EDA system that operates in two stages: insight generation (ISGen) driven by question generation (QUGen). The QUGen module generates questions in iterations, refining them from previous iterations to enhance coverage without human intervention or manually curated examples. The ISGen module analyzes data to produce multiple relevant insights in response to each question, requiring no prior training and enabling QUIS to adapt to new datasets.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-21
# QUIS:自動探索データ分析のための質問誘導インサイト生成

QUIS: Question-guided Insights Generation for Automated Exploratory Data Analysis ( http://arxiv.org/abs/2410.10270v2 )

ライセンス: Link先を確認
Abhijit Manatkar, Ashlesha Akella, Parthivi Gupta, Krishnasuri Narayanam, (参考訳) 探索データ分析(Exploratory Data Analysis, EDA)として知られる大規模なデータセットから意味のある洞察を発見することは、データの徹底的な探索と分析を必要とする難しいタスクである。 ADE(Automated Data Exploration)システムは,大規模言語モデルによる目標指向の手法と,完全な自動化に向けた強化学習を使用する。 しかしながら、これらの手法は人間の関与を必要とし、洞察抽出を制限する目標を予測し、一方完全に自動化されたシステムは重要な計算資源を必要とし、新しいデータセットを再訓練する。 本稿では,質問生成(QUGen)によって駆動される洞察生成(ISGen)という,完全に自動化されたEDAシステムであるQUISを紹介する。 QUGenモジュールはイテレーションで質問を生成し、以前のイテレーションから修正して、人間の介入や手動でキュレートされた例なしにカバレッジを高める。 ISGenモジュールはデータを分析して、各質問に対する複数の関連する洞察を生成し、事前のトレーニングを必要とせず、QUISが新しいデータセットに適応できるようにする。

Discovering meaningful insights from a large dataset, known as Exploratory Data Analysis (EDA), is a challenging task that requires thorough exploration and analysis of the data. Automated Data Exploration (ADE) systems use goal-oriented methods with Large Language Models and Reinforcement Learning towards full automation. However, these methods require human involvement to anticipate goals that may limit insight extraction, while fully automated systems demand significant computational resources and retraining for new datasets. We introduce QUIS, a fully automated EDA system that operates in two stages: insight generation (ISGen) driven by question generation (QUGen). The QUGen module generates questions in iterations, refining them from previous iterations to enhance coverage without human intervention or manually curated examples. The ISGen module analyzes data to produce multiple relevant insights in response to each question, requiring no prior training and enabling QUIS to adapt to new datasets.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-21
# QUIS:自動探索データ分析のための質問誘導インサイト生成

QUIS: Question-guided Insights Generation for Automated Exploratory Data Analysis ( http://arxiv.org/abs/2410.10270v3 )

ライセンス: Link先を確認
Abhijit Manatkar, Ashlesha Akella, Parthivi Gupta, Krishnasuri Narayanam, (参考訳) 探索データ分析(Exploratory Data Analysis, EDA)として知られる大規模なデータセットから意味のある洞察を発見することは、データの徹底的な探索と分析を必要とする難しいタスクである。 ADE(Automated Data Exploration)システムは,大規模言語モデルによる目標指向の手法と,完全な自動化に向けた強化学習を使用する。 しかしながら、これらの手法は人間の関与を必要とし、洞察抽出を制限する目標を予測し、一方完全に自動化されたシステムは重要な計算資源を必要とし、新しいデータセットを再訓練する。 本稿では,質問生成(QUGen)によって駆動される洞察生成(ISGen)という,完全に自動化されたEDAシステムであるQUISを紹介する。 QUGenモジュールはイテレーションで質問を生成し、以前のイテレーションから修正して、人間の介入や手動でキュレートされた例なしにカバレッジを高める。 ISGenモジュールはデータを分析して、各質問に対する複数の関連する洞察を生成し、事前のトレーニングを必要とせず、QUISが新しいデータセットに適応できるようにする。

Discovering meaningful insights from a large dataset, known as Exploratory Data Analysis (EDA), is a challenging task that requires thorough exploration and analysis of the data. Automated Data Exploration (ADE) systems use goal-oriented methods with Large Language Models and Reinforcement Learning towards full automation. However, these methods require human involvement to anticipate goals that may limit insight extraction, while fully automated systems demand significant computational resources and retraining for new datasets. We introduce QUIS, a fully automated EDA system that operates in two stages: insight generation (ISGen) driven by question generation (QUGen). The QUGen module generates questions in iterations, refining them from previous iterations to enhance coverage without human intervention or manually curated examples. The ISGen module analyzes data to produce multiple relevant insights in response to each question, requiring no prior training and enabling QUIS to adapt to new datasets.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-21
# 信頼かバストか - 自律兵器システムにおける信頼の確保

Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems ( http://arxiv.org/abs/2410.10284v1 )

ライセンス: Link先を確認
Kasper Cools, Clara Maathuis, (参考訳) AWS(Autonomous Weapon Systems)の軍事運用への統合は、大きな機会と課題の両方を提示している。 本稿では、バイアス、運用上の障害、説明責任に関連するリスクを軽減するために、信頼性と透明性を備えたシステムを確立することの必要性を強調し、AWSにおける信頼性の多面的な性質について考察する。 人工知能(AI)の進歩にもかかわらず、これらのシステムの信頼性は特に高い軍事的応用において重要な問題である。 既存の文献の体系的なレビューを通じて、この研究は、AWSの開発およびデプロイフェーズにおける信頼ダイナミクスの理解のギャップを特定する。 技術者、倫理学者、軍事戦略家を含む協力的なアプローチを提唱し、現在進行中の課題に対処する。 この発見は、国際人道法への説明責任と遵守を確保するために、人間-機械のチーム化とシステムインテリジェンスの向上の重要性を浮き彫りにした。 最終的に、この論文は、AWSの倫理的意味に関する継続的な議論と、防衛状況における信頼に値するAIの衝動に寄与することを目的としている。

The integration of Autonomous Weapon Systems (AWS) into military operations presents both significant opportunities and challenges. This paper explores the multifaceted nature of trust in AWS, emphasising the necessity of establishing reliable and transparent systems to mitigate risks associated with bias, operational failures, and accountability. Despite advancements in Artificial Intelligence (AI), the trustworthiness of these systems, especially in high-stakes military applications, remains a critical issue. Through a systematic review of existing literature, this research identifies gaps in the understanding of trust dynamics during the development and deployment phases of AWS. It advocates for a collaborative approach that includes technologists, ethicists, and military strategists to address these ongoing challenges. The findings underscore the importance of Human-Machine teaming and enhancing system intelligibility to ensure accountability and adherence to International Humanitarian Law. Ultimately, this paper aims to contribute to the ongoing discourse on the ethical implications of AWS and the imperative for trustworthy AI in defense contexts.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-21
# 信頼かバストか - 自律兵器システムにおける信頼の確保

Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems ( http://arxiv.org/abs/2410.10284v2 )

ライセンス: Link先を確認
Kasper Cools, Clara Maathuis, (参考訳) AWS(Autonomous Weapon Systems)の軍事運用への統合は、大きな機会と課題の両方を提示している。 本稿では、バイアス、運用上の障害、説明責任に関連するリスクを軽減するために、信頼性と透明性を備えたシステムを確立することの必要性を強調し、AWSにおける信頼性の多面的な性質について考察する。 人工知能(AI)の進歩にもかかわらず、これらのシステムの信頼性は特に高い軍事的応用において重要な問題である。 既存の文献の体系的なレビューを通じて、この研究は、AWSの開発およびデプロイフェーズにおける信頼ダイナミクスの理解のギャップを特定する。 技術者、倫理学者、軍事戦略家を含む協力的なアプローチを提唱し、現在進行中の課題に対処する。 この発見は、国際人道法への説明責任と遵守を確保するために、人間-機械のチーム化とシステムインテリジェンスの向上の重要性を浮き彫りにした。 最終的に、この論文は、AWSの倫理的意味に関する継続的な議論と、防衛状況における信頼に値するAIの衝動に寄与することを目的としている。

The integration of Autonomous Weapon Systems (AWS) into military operations presents both significant opportunities and challenges. This paper explores the multifaceted nature of trust in AWS, emphasising the necessity of establishing reliable and transparent systems to mitigate risks associated with bias, operational failures, and accountability. Despite advancements in Artificial Intelligence (AI), the trustworthiness of these systems, especially in high-stakes military applications, remains a critical issue. Through a systematic review of existing literature, this research identifies gaps in the understanding of trust dynamics during the development and deployment phases of AWS. It advocates for a collaborative approach that includes technologists, ethicists, and military strategists to address these ongoing challenges. The findings underscore the importance of Human-Machine teaming and enhancing system intelligibility to ensure accountability and adherence to International Humanitarian Law. Ultimately, this paper aims to contribute to the ongoing discourse on the ethical implications of AWS and the imperative for trustworthy AI in defense contexts.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-21
# 信頼かバストか - 自律兵器システムにおける信頼の確保

Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems ( http://arxiv.org/abs/2410.10284v3 )

ライセンス: Link先を確認
Kasper Cools, Clara Maathuis, (参考訳) AWS(Autonomous Weapon Systems)の軍事運用への統合は、大きな機会と課題の両方を提示している。 本稿では、バイアス、運用上の障害、説明責任に関連するリスクを軽減するために、信頼性と透明性を備えたシステムを確立することの必要性を強調し、AWSにおける信頼性の多面的な性質について考察する。 人工知能(AI)の進歩にもかかわらず、これらのシステムの信頼性は特に高い軍事的応用において重要な問題である。 既存の文献の体系的なレビューを通じて、この研究は、AWSの開発およびデプロイフェーズにおける信頼ダイナミクスの理解のギャップを特定する。 技術者、倫理学者、軍事戦略家を含む協力的なアプローチを提唱し、現在進行中の課題に対処する。 この発見は、国際人道法への説明責任と遵守を確保するために、人間-機械のチーム化とシステムインテリジェンスの向上の重要性を浮き彫りにした。 最終的に、この論文は、AWSの倫理的意味に関する継続的な議論と、防衛状況における信頼に値するAIの衝動に寄与することを目的としている。

The integration of Autonomous Weapon Systems (AWS) into military operations presents both significant opportunities and challenges. This paper explores the multifaceted nature of trust in AWS, emphasising the necessity of establishing reliable and transparent systems to mitigate risks associated with bias, operational failures, and accountability. Despite advancements in Artificial Intelligence (AI), the trustworthiness of these systems, especially in high-stakes military applications, remains a critical issue. Through a systematic review of existing literature, this research identifies gaps in the understanding of trust dynamics during the development and deployment phases of AWS. It advocates for a collaborative approach that includes technologists, ethicists, and military strategists to address these ongoing challenges. The findings underscore the importance of Human-Machine teaming and enhancing system intelligibility to ensure accountability and adherence to International Humanitarian Law. Ultimately, this paper aims to contribute to the ongoing discourse on the ethical implications of AWS and the imperative for trustworthy AI in defense contexts.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-21
# 多線形特異値分解のカーネル化可能なプリマル双対定式化

A Kernelizable Primal-Dual Formulation of the Multilinear Singular Value Decomposition ( http://arxiv.org/abs/2410.10504v1 )

ライセンス: Link先を確認
Frederiek Wesel, Kim Batselier, (参考訳) 原始的および双対最適化問題の観点から学習タスクを表現する能力は、機械学習メソッドの多元性の中核にある。 例えば、Support Vector Machine (SVM), Least-Squares Support Vector Machine (LS-SVM), Ridge Regression (RR), Lasso Regression (LR), principal Component Analysis (PCA) などである。 原始的な定式化は、大きなサンプルサイズの場合は計算的に有利であるが、双対は高次元データでは好ましい。 重要なことに、この学習問題を原始問題に特徴写像を導入することによって非線形にすることができる。 本稿では,PCA および SVD の特殊ケースとして回復する多線形特異値分解 (MLSVD) の一次2次元定式化を導出する。 導出された原始的定式化による計算ゲインの実現に加えて、特徴写像を用いたMLSVDの非線形拡張を提案し、カーネルテンソルが発生するという二重問題をもたらす。 信号解析と深層学習の文脈における潜在的な応用について論じる。

The ability to express a learning task in terms of a primal and a dual optimization problem lies at the core of a plethora of machine learning methods. For example, Support Vector Machine (SVM), Least-Squares Support Vector Machine (LS-SVM), Ridge Regression (RR), Lasso Regression (LR), Principal Component Analysis (PCA), and more recently Singular Value Decomposition (SVD) have all been defined either in terms of primal weights or in terms of dual Lagrange multipliers. The primal formulation is computationally advantageous in the case of large sample size while the dual is preferred for high-dimensional data. Crucially, said learning problems can be made nonlinear through the introduction of a feature map in the primal problem, which corresponds to applying the kernel trick in the dual. In this paper we derive a primal-dual formulation of the Multilinear Singular Value Decomposition (MLSVD), which recovers as special cases both PCA and SVD. Besides enabling computational gains through the derived primal formulation, we propose a nonlinear extension of the MLSVD using feature maps, which results in a dual problem where a kernel tensor arises. We discuss potential applications in the context of signal analysis and deep learning.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-21
# 多線形特異値分解のカーネル化可能なプリマル双対定式化

A Kernelizable Primal-Dual Formulation of the Multilinear Singular Value Decomposition ( http://arxiv.org/abs/2410.10504v2 )

ライセンス: Link先を確認
Frederiek Wesel, Kim Batselier, (参考訳) 原始的および双対最適化問題の観点から学習タスクを表現する能力は、機械学習メソッドの多元性の中核にある。 例えば、Support Vector Machine (SVM), Least-Squares Support Vector Machine (LS-SVM), Ridge Regression (RR), Lasso Regression (LR), principal Component Analysis (PCA) などである。 原始的な定式化は、大きなサンプルサイズの場合は計算的に有利であるが、双対は高次元データでは好ましい。 重要なことに、この学習問題を原始問題に特徴写像を導入することによって非線形にすることができる。 本稿では,PCA および SVD の特殊ケースとして回復する多線形特異値分解 (MLSVD) の一次2次元定式化を導出する。 導出された原始的定式化による計算ゲインの実現に加えて、特徴写像を用いたMLSVDの非線形拡張を提案し、カーネルテンソルが発生するという二重問題をもたらす。 信号解析と深層学習の文脈における潜在的な応用について論じる。

The ability to express a learning task in terms of a primal and a dual optimization problem lies at the core of a plethora of machine learning methods. For example, Support Vector Machine (SVM), Least-Squares Support Vector Machine (LS-SVM), Ridge Regression (RR), Lasso Regression (LR), Principal Component Analysis (PCA), and more recently Singular Value Decomposition (SVD) have all been defined either in terms of primal weights or in terms of dual Lagrange multipliers. The primal formulation is computationally advantageous in the case of large sample size while the dual is preferred for high-dimensional data. Crucially, said learning problems can be made nonlinear through the introduction of a feature map in the primal problem, which corresponds to applying the kernel trick in the dual. In this paper we derive a primal-dual formulation of the Multilinear Singular Value Decomposition (MLSVD), which recovers as special cases both PCA and SVD. Besides enabling computational gains through the derived primal formulation, we propose a nonlinear extension of the MLSVD using feature maps, which results in a dual problem where a kernel tensor arises. We discuss potential applications in the context of signal analysis and deep learning.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-21
# 量子輸送の運動的不確実性関係

Kinetic uncertainty relations for quantum transport ( http://arxiv.org/abs/2410.10793v1 )

ライセンス: Link先を確認
Didrik Palmqvist, Ludovico Tesser, Janine Splettstoesser, (参考訳) 汎用多端子量子輸送設定における電流の精度を解析する。 散乱理論を用いて、電流の精度は古典的極限における活性として解釈できる粒子電流雑音の関数によって制限されることを示す。 これにより、量子輸送の運動論的不確実性関係が確立される。 完全量子極限では、系がフェルミオンかボソニックかによって、活性制約を修正できる精度境界が見つかる。 これらの境界は、高精度な輸送プロセスのガイドラインになることを期待しています。

We analyze the precision of currents in a generic multi-terminal quantum-transport setting. Employing scattering theory, we show that the precision of the currents is limited by a function of the particle-current noise that can be interpreted as the activity in the classical limit. We thereby establish a kinetic uncertainty relation for quantum transport. In the full quantum limit, we find precision bounds in which we modify the activity constraints depending on whether the system is fermionic or bosonic. We expect these bounds to be guidelines for any transport process aiming at high precision.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-21
# 量子輸送の運動的不確実性関係

Kinetic uncertainty relations for quantum transport ( http://arxiv.org/abs/2410.10793v2 )

ライセンス: Link先を確認
Didrik Palmqvist, Ludovico Tesser, Janine Splettstoesser, (参考訳) 汎用多端子量子輸送設定における電流の精度を解析する。 散乱理論を用いて、電流の精度は古典的極限における活性として解釈できる粒子電流雑音の関数によって制限されることを示す。 これにより、量子輸送の運動論的不確実性関係が確立される。 完全量子極限では、系がフェルミオンかボソニックかによって、活性制約を修正できる精度境界が見つかる。 これらの境界は、高精度な輸送プロセスのガイドラインになることを期待しています。

We analyze the precision of currents in a generic multi-terminal quantum-transport setting. Employing scattering theory, we show that the precision of the currents is limited by a function of the particle-current noise that can be interpreted as the activity in the classical limit. We thereby establish a kinetic uncertainty relation for quantum transport. In the full quantum limit, we find precision bounds in which we modify the activity constraints depending on whether the system is fermionic or bosonic. We expect these bounds to be guidelines for any transport process aiming at high precision.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-21